متا تاکنون از ابزار هوش مصنوعی جدیدی به نام Voicebox رونمایی کرده است که قادر است کارهای مختلفی مانند تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگیهای برجسته این مدل، توانایی دریافت نمونه صوتی از یک زبان و تبدیل آن به زبانهای خارجی است. Voicebox میتواند در زمینه تبدیل متن به صدا، همان کاری را انجام دهد که ChatGPT و DALL-E در زمینه تولید متن و تصویر انجام میدهند.
هوش مصنوعی Voicebox یک مبدل متن به صدا است که به آن به عنوان "یک مدل هماهنگساز جریان به صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن" اطلاق میشود. این مدل بر اساس بیش از ۵۰ هزار ساعت صدای فیلترنشده آموزش دیده و بهخصوص از صدای کتابهای صوتی به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.
یکی از ویژگیهای مهم این هوش مصنوعی، انتقال سبک گفتاری از یک زبان به زبانهای خارجی دیگر است. برای استفاده از این قابلیت، کافی است نمونهای به مدت ۲ ثانیه از صدای خود را بههمراه یک متن به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox ارائه دهید و از هوش مصنوعی بخواهید تا متن را با این زبانها بخواند. این شرکت ادعا میکند مدل آنها به طور عملی میتواند
مدل هوش مصنوعی Voicebox چه قابلیتهایی دیگری دارد؟
وجود دامنه گستردهای از دادههای ورودی به این سیستم کمک میکند تا صداهایی تولید شود که در مکالمه طبیعیتر به نظر بیایند. متا میگوید: "نتایج ما نشان میدهد که مدلهای تشخیص گفتاری که با استفاده از صداهای تولید شده توسط Voicebox آموزش داده میشوند، تقریباً به خوبی مدلهایی کار میکنند که با صداهای واقعی آموزش دیده باشند." علاوه بر این، صداهای تولید شده توسط کامپیوتر فقط با 1 درصد خطای کاهش وجود داشتند، در حالی که این نرخ برای سایر مدلهای تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.
مدل هوش مصنوعی Voicebox قادر است صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی که اشتباه ادا شده باشند را تصحیح کند. پژوهشگران متا میگویند که به عنوان مثال، کاربر میتواند تشخیص دهد کدام بخش از فایل صوتی دارای نویز است و سپس از هوش مصنوعی بخواهد تا آن بخش را مجدداً تولید کند.
مدل Voicebox به لطف روش جدید تعلیم متا به نام "هماهنگساز جریان" (Flow Matching) نیاز به حجم بالایی از دادههای ورودی ندارد. نتایج بنچمارکها نشان میدهد که این هوش مصنوعی از نظر خطا بسیار بهتر از بهترین سیستمهای تبدیل متن به صدا عمل میکند (1.9 درصد در مقابل 5.9 درصد) و سرعت آن هم تا 20 برابر سریعتر است.
با این حال، مدل "Voicebox" یا کد منبع آن در اختیار عموم قرار نمیگیرد. متا اذعان کرده است که به دلیل ریسکهای احتمالی، در حال حاضر قصد عرضه عمومی این مدل را ندارد. آنها فقط یک مقاله تحقیقاتی اولیه از این مدل را منتشر کردهاند، اما امیدوارند در آینده بتوانند از این فناوری برای کمک به افرادی که مشکلاتی در تارهای صوتی خود دارند، NPCهای درون بازیها و دستیارهای صوتی استفاده کنند.
اگر به اخبار دنیای تکنولوژی علاقه مند هستید، ما را در شبکههای اجتماعی مختلف تلگرام، روبیکا، توییتر، اینستاگرام و آپارات همراهی کنید.
منبع خبر: about.fb
ثبت نظر