زمانی که صدایی از درون یک نرمافزار یا یک سرویس تحت وب را میشنوید، به راحتی این توانایی را دارید تا تشخیص دهید یک انسان در حاصل صحبت کردن با شما است یا یک نرمافزار تبدیل متن به گفتار در حال خواندن متنی برای شما است. اما به نظر میرسد اکنون زمان آن رسیده است که روباتها کمی شما را غافلگیر سازند. به گونهای که تشخیص صدای یک روبات با یک صدای زنده برای شما مشکل باشد. این دستاوردی است که تیم DeepMind گوگل به آن دست پیدا کردهاند.
به گزارش شبکه مگ، تیم DeepMind در زمینه طراحی شبکههای عصبی سابقه خوبی دارد. شاید از این موضوع اطلاع داشته باشید که DeepMind همان شرکتی است که موفق به ساخت آلفاگو شد. برنامه هوش مصنوعی قدرتمندی که برای اولین بار بهترین بازیکن بازی گو جهان را مغلوب خود ساخت. اکنون این تیم در حال کار روی پروژهای است که WaveNet نام دارد.
در حال حاضر، توسعهدهندگان با استفاده از دو روش متداول برنامههای تبدیل متن به گفتار را ایجاد میکنند. در روش اول مجموعه بسیار بزرگی از کلمات و بخشهای گفتاری از سوی یک فرد خوانده میشود(Concatenative TTS). در این شیوه تغییر صدا، دستکاری لهجه و لحن صدا به سختی امکانپذیر است.
اما در روش دوم کلمات بسته به اینکه آنها چگونه باید صدا دهند به صورت الکترونیکی ساخته میشوند(Parametric). در روش دوم تغییر لهجه، آهنگ صدا و حتا لحن گفتار به سادگی امکانپذیر است. اما در مقابل صدای تولید شده کاملا مصنوعی و به اصطلاح رایج روباتی است. اما تیم DeepMind برای آنکه موفق شود یک برنامه تبدیل متن به گفتار را ایجاد کند، بهطوری که صدای نهایی همانند صدای یک انسان به نظر برسد، شکلی از امواج صوتی خام ضبط شده از گفتار انسانی را در قالب دادههایی به عنوان خوراک ورودی به شبکه عصبی خود وارد کرد.
شکل امواج (waveforms) بازنمایی بصری از اشکالی است که اصوات به خود میگیرند. درست به همان شکلی که این امواج در دستگاههای پخشکننده موسیقی بالا و پایین میروند. waveNet بر مبنای همین قاعده و بر اساس امواج صوتی منحصر به فرد کار میکند. اگر WaveNet در قالب یک برنامه تبدیل متن به گفتار مورد استفاده قرار گیرد، قادر است متنی که شما تایپ کردهاید را داخل مجموعهای از واجها و هجاها تبدیل کرده و در ادامه آنرا برای شما بخواند. افرادی که در آزمایش WaveNet شرکت داشتهاند، بر این باور هستند که سامانه جدید بهتر از نمونههای مشابه قادر است همانند انسانها حرف بزند. DeepMind در خصوص این برنامه گفته است: «بر اساس آزمایشهایی که بر مبنای زبان ماندارین چینی و انگلیسی انجام شده، این برنامه به میزان 50 درصد موفق شده است، شکاف موجود میان عملکرد انسانی و هنر صحبت کردن به شکل انسانی را پر کند.»
لازم به توضیح است که در آینده نزدیک این برنامه هوش مصنوعی در دنیای موسیقی نیز وارد خواهد شد. این تیم یکسری قطعات موسیقی کلاسیک پیانو را در اختیار این شبکه عصبی عمیق قرار دادهاند و برنامه موفق شده است، نمونههایی را بر اساس الگوی کاری خودش بسازد.
با این حال هنوز راه درازی در پیش است تا بتوانید WaveNet را در قالب یک برنامه کاربردی مورد استفاده قرار دهید. اما میتوانید به تعدادی از نمونههای ساخته شده از این برنامه در سایت DeepMind گوش دهید.
ثبت نظر