تولید ویدیو با هوش مصنوعی حالا روی کارت گرافیک میان‌رده هم ممکن است!

پویان معصومی
یک‌شنبه, 31 فروردین 1404

در گذشته برای ساخت ویدئوهای هوش مصنوعی به سخت‌افزارهای قدرتمند و حافظه گرافیکی بالا نیاز بود، اما با معرفی فناوری جدید FramePack، حالا این روند دستخوش تحولی بزرگ شده است.

دیگر برای خلق ویدیوهای مبتنی بر مدل‌های دیفیوشن (Diffusion) نیازی به کارت‌های گرافیک گران‌قیمت نیست و حتی کارت‌های ۶ گیگابایتی رایج نیز می‌توانند از پس این کار برآیند.

نوآوری جدید محققان گیت‌هاب و دانشگاه استنفورد

در روزهای اخیر، لومین ژانگ از گیت‌هاب با همکاری مانیش آگراوالا از دانشگاه استنفورد، معماری نوینی به نام FramePack را معرفی کرده‌اند. این معماری جدید بهینه‌سازی چشمگیری در فرایند ساخت ویدیوهای هوش مصنوعی ایجاد کرده و امکان تولید کلیپ‌های طولانی‌تر با مصرف منابع کمتر را فراهم کرده است.

مدل طراحی‌شده با این روش که از ۱۳ میلیارد پارامتر تشکیل شده، قادر است تنها با استفاده از ۶ گیگابایت حافظه گرافیکی، یک ویدیوی ۶۰ ثانیه‌ای تولید کند؛ موضوعی که پیش از این تنها با کارت‌های رده‌بالا قابل انجام بود.

چالش مصرف حافظه در مدل‌های دیفیوشن چگونه برطرف شد؟

یکی از مشکلات همیشگی مدل‌های دیفیوشن، نیاز مداوم به داده‌های فریم‌های قبلی برای تولید فریم‌های جدید بود؛ موضوعی که باعث افزایش نمایی مصرف حافظه گرافیکی در ویدیوهای طولانی می‌شد. بسیاری از مدل‌های فعلی به حداقل ۱۲ گیگابایت VRAM نیاز دارند، و در غیر این صورت یا کیفیت کاهش می‌یابد یا زمان تولید ویدیو محدود می‌شود.

اما معماری FramePack با استفاده از تکنیکی نو، فریم‌ها را به‌صورت هوشمند و بر اساس میزان اهمیت‌شان فشرده‌سازی می‌کند. این فشرده‌سازی به گونه‌ای انجام می‌شود که افت کیفیت محسوسی مشاهده نمی‌شود، در حالی که مصرف حافظه به‌طرز چشمگیری کاهش می‌یابد.

شرایط سخت‌افزاری مورد نیاز برای اجرای FramePack

اجرای این معماری نیازمند کارت‌های گرافیکی از سری NVIDIA RTX 30، 40 یا 50 است که از فرمت‌های محاسباتی FP16 و BF16 پشتیبانی کنند. پشتیبانی از معماری‌های قدیمی‌تر نظیر Turing یا کارت‌های گرافیک AMD و Intel تاکنون به‌صورت رسمی اعلام نشده است. همچنین این سیستم فعلاً با سیستم‌عامل لینوکس سازگار است.

در تست‌های انجام‌شده، کارت گرافیک RTX 4090 انویدیا توانسته با سرعتی حدود ۰.۶ فریم در ثانیه ویدیو تولید کند؛ هرچند این عدد بسته به سخت‌افزار شما ممکن است تغییر کند. نکته جالب اینکه فریم‌ها بلافاصله پس از تولید نمایش داده می‌شوند و بازخورد بصری لحظه‌ای به کاربر ارائه می‌گردد.

قدمی بزرگ به سوی تولید محتوای هوش مصنوعی بدون وابستگی به سرورهای ابری

اگرچه مدل فعلی دارای محدودیت ۳۰ فریم بر ثانیه است، اما مزیت اصلی FramePack در توانایی اجرای محلی مدل‌های دیفیوشن نهفته است. دیگر لازم نیست برای تولید ویدئوهای هوش مصنوعی از سرویس‌های ابری گران‌قیمت استفاده کنید؛ این فناوری بستری فراهم کرده تا کاربران عادی نیز با کارت‌های میان‌رده بتوانند به تولید ویدیوهای هوشمند بپردازند.

سرگرمی یا خلاقیت؟ انتخاب با شماست

حتی اگر تولید محتوا شغل شما نباشد، FramePack می‌تواند ابزار جذابی برای ساخت گیف، میم‌های خلاقانه یا ویدیوهای شخصی باشد. این فناوری در حال تغییر مسیر آینده تولید ویدیو با هوش مصنوعی است و به‌زودی می‌تواند به ابزاری روزمره برای علاقه‌مندان به دنیای دیجیتال تبدیل شود.

اگر علاقه‌مند دنیای تکنولوژی هستید حتما شبکه‌های اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.

منبع خبر: tomshardware.com

برچسب‌ها ساخت ویدیو , هوش مصنوعی ,

پویان معصومی - کارشناس تولید محتوا

نویسندگی در حوزه تکنولوژی یکی از تفریحات و علاقه مندی‌های من به عنوان یک فارغ التحصیل رشته مهندسی تکنولوژی نرم افزار است که به کار اصلی بنده تبدیل شده و تولید محتوا را به صورت ویژه‌ای دنبال می‌کنم.