در گذشته برای ساخت ویدئوهای هوش مصنوعی به سختافزارهای قدرتمند و حافظه گرافیکی بالا نیاز بود، اما با معرفی فناوری جدید FramePack، حالا این روند دستخوش تحولی بزرگ شده است.
دیگر برای خلق ویدیوهای مبتنی بر مدلهای دیفیوشن (Diffusion) نیازی به کارتهای گرافیک گرانقیمت نیست و حتی کارتهای ۶ گیگابایتی رایج نیز میتوانند از پس این کار برآیند.
نوآوری جدید محققان گیتهاب و دانشگاه استنفورد
در روزهای اخیر، لومین ژانگ از گیتهاب با همکاری مانیش آگراوالا از دانشگاه استنفورد، معماری نوینی به نام FramePack را معرفی کردهاند. این معماری جدید بهینهسازی چشمگیری در فرایند ساخت ویدیوهای هوش مصنوعی ایجاد کرده و امکان تولید کلیپهای طولانیتر با مصرف منابع کمتر را فراهم کرده است.
مدل طراحیشده با این روش که از ۱۳ میلیارد پارامتر تشکیل شده، قادر است تنها با استفاده از ۶ گیگابایت حافظه گرافیکی، یک ویدیوی ۶۰ ثانیهای تولید کند؛ موضوعی که پیش از این تنها با کارتهای ردهبالا قابل انجام بود.
چالش مصرف حافظه در مدلهای دیفیوشن چگونه برطرف شد؟
یکی از مشکلات همیشگی مدلهای دیفیوشن، نیاز مداوم به دادههای فریمهای قبلی برای تولید فریمهای جدید بود؛ موضوعی که باعث افزایش نمایی مصرف حافظه گرافیکی در ویدیوهای طولانی میشد. بسیاری از مدلهای فعلی به حداقل ۱۲ گیگابایت VRAM نیاز دارند، و در غیر این صورت یا کیفیت کاهش مییابد یا زمان تولید ویدیو محدود میشود.

اما معماری FramePack با استفاده از تکنیکی نو، فریمها را بهصورت هوشمند و بر اساس میزان اهمیتشان فشردهسازی میکند. این فشردهسازی به گونهای انجام میشود که افت کیفیت محسوسی مشاهده نمیشود، در حالی که مصرف حافظه بهطرز چشمگیری کاهش مییابد.
شرایط سختافزاری مورد نیاز برای اجرای FramePack
اجرای این معماری نیازمند کارتهای گرافیکی از سری NVIDIA RTX 30، 40 یا 50 است که از فرمتهای محاسباتی FP16 و BF16 پشتیبانی کنند. پشتیبانی از معماریهای قدیمیتر نظیر Turing یا کارتهای گرافیک AMD و Intel تاکنون بهصورت رسمی اعلام نشده است. همچنین این سیستم فعلاً با سیستمعامل لینوکس سازگار است.
در تستهای انجامشده، کارت گرافیک RTX 4090 انویدیا توانسته با سرعتی حدود ۰.۶ فریم در ثانیه ویدیو تولید کند؛ هرچند این عدد بسته به سختافزار شما ممکن است تغییر کند. نکته جالب اینکه فریمها بلافاصله پس از تولید نمایش داده میشوند و بازخورد بصری لحظهای به کاربر ارائه میگردد.
قدمی بزرگ به سوی تولید محتوای هوش مصنوعی بدون وابستگی به سرورهای ابری
اگرچه مدل فعلی دارای محدودیت ۳۰ فریم بر ثانیه است، اما مزیت اصلی FramePack در توانایی اجرای محلی مدلهای دیفیوشن نهفته است. دیگر لازم نیست برای تولید ویدئوهای هوش مصنوعی از سرویسهای ابری گرانقیمت استفاده کنید؛ این فناوری بستری فراهم کرده تا کاربران عادی نیز با کارتهای میانرده بتوانند به تولید ویدیوهای هوشمند بپردازند.
سرگرمی یا خلاقیت؟ انتخاب با شماست
حتی اگر تولید محتوا شغل شما نباشد، FramePack میتواند ابزار جذابی برای ساخت گیف، میمهای خلاقانه یا ویدیوهای شخصی باشد. این فناوری در حال تغییر مسیر آینده تولید ویدیو با هوش مصنوعی است و بهزودی میتواند به ابزاری روزمره برای علاقهمندان به دنیای دیجیتال تبدیل شود.
اگر علاقهمند دنیای تکنولوژی هستید حتما شبکههای اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.
منبع خبر: tomshardware.com
ثبت نظر