هوش مصنوعی Voicebox متا به تازگی معرفی شد؛ قابلیت تبدیل قدرتمند متن به صدا

پویان معصومی
شنبه, 27 خرداد 1402

متا تاکنون از ابزار هوش مصنوعی جدیدی به نام Voicebox رونمایی کرده است که قادر است کارهای مختلفی مانند تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی‌های برجسته این مدل، توانایی دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. Voicebox می‌تواند در زمینه تبدیل متن به صدا، همان کاری را انجام دهد که ChatGPT و DALL-E در زمینه تولید متن و تصویر انجام می‌دهند.

هوش مصنوعی Voicebox یک مبدل متن به صدا است که به آن به عنوان "یک مدل هماهنگ‌ساز جریان به صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن" اطلاق می‌شود. این مدل بر اساس بیش از ۵۰ هزار ساعت صدای فیلترنشده آموزش دیده و به‌خصوص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

یکی از ویژگی‌های مهم این هوش مصنوعی، انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت، کافی است نمونه‌ای به مدت ۲ ثانیه از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox ارائه دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت ادعا می‌کند مدل آن‌ها به طور عملی می‌تواند

مدل هوش مصنوعی Voicebox چه قابلیت‌هایی دیگری دارد؟

وجود دامنه گسترده‌ای از داده‌های ورودی به این سیستم کمک می‌کند تا صداهایی تولید شود که در مکالمه طبیعی‌تر به نظر بیایند. متا می‌گوید: "نتایج ما نشان می‌دهد که مدل‌های تشخیص گفتاری که با استفاده از صداهای تولید شده توسط Voicebox آموزش داده می‌شوند، تقریباً به خوبی مدل‌هایی کار می‌کنند که با صداهای واقعی آموزش دیده باشند." علاوه بر این، صداهای تولید شده توسط کامپیوتر فقط با 1 درصد خطای کاهش وجود داشتند، در حالی که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.

مدل هوش مصنوعی Voicebox قادر است صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی که اشتباه ادا شده باشند را تصحیح کند. پژوهشگران متا می‌گویند که به عنوان مثال، کاربر می‌تواند تشخیص دهد کدام بخش از فایل صوتی دارای نویز است و سپس از هوش مصنوعی بخواهد تا آن بخش را مجدداً تولید کند.

مدل Voicebox به لطف روش جدید تعلیم متا به نام "هماهنگ‌ساز جریان" (Flow Matching) نیاز به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (1.9 درصد در مقابل 5.9 درصد) و سرعت آن هم تا 20 برابر سریع‌تر است.

با این حال، مدل "Voicebox" یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که به دلیل ریسک‌های احتمالی، در حال حاضر قصد عرضه عمومی این مدل را ندارد. آن‌ها فقط یک مقاله تحقیقاتی اولیه از این مدل را منتشر کرده‌اند، اما امیدوارند در آینده بتوانند از این فناوری برای کمک به افرادی که مشکلاتی در تارهای صوتی خود دارند، NPCهای درون بازی‌ها و دستیارهای صوتی استفاده کنند.

اگر به اخبار دنیای تکنولوژی علاقه مند هستید، ما را در شبکه‌های اجتماعی مختلف تلگرام، روبیکا، توییتر، اینستاگرام و آپارات همراهی کنید.

منبع خبر: about.fb

برچسب‌ها Voicebox , هوش مصنوعی ,

پویان معصومی - کارشناس تولید محتوا

نویسندگی در حوزه تکنولوژی یکی از تفریحات و علاقه مندی‌های من به عنوان یک فارغ التحصیل رشته مهندسی تکنولوژی نرم افزار است که به کار اصلی بنده تبدیل شده و تولید محتوا را به صورت ویژه‌ای دنبال می‌کنم.