نرم‌افزار جدید گوگل همانند انسان‌ها صحبت کند!

نگاه دیگران
شنبه, 27 شهریور 1395

زمانی که صدایی از درون یک نرم‌افزار یا یک سرویس تحت وب را می‌شنوید، به راحتی این توانایی را دارید تا تشخیص دهید یک انسان در حاصل صحبت کردن با شما است یا یک نرم‌افزار تبدیل متن به گفتار در حال خواندن متنی برای شما است. اما به نظر می‌رسد اکنون زمان آن رسیده است که روبات‌ها کمی شما را غافل‌گیر سازند. به گونه‌ای که تشخیص صدای یک روبات با یک صدای زنده برای شما مشکل باشد. این دستاوردی است که تیم DeepMind گوگل به آن دست پیدا کرده‌اند.

به گزارش شبکه مگ، تیم DeepMind در زمینه طراحی شبکه‌های عصبی سابقه خوبی دارد. شاید از این موضوع اطلاع داشته باشید که DeepMind همان شرکتی است که موفق به ساخت آلفاگو شد. برنامه هوش مصنوعی قدرتمندی که برای اولین بار بهترین بازیکن بازی گو جهان را مغلوب خود ساخت. اکنون این تیم در حال کار روی پروژه‌ای است که WaveNet نام دارد.

در حال حاضر، توسعه‌دهندگان با استفاده از دو روش متداول برنامه‌های تبدیل متن به گفتار را ایجاد می‌کنند. در روش اول مجموعه بسیار بزرگی از کلمات و بخش‌های گفتاری از سوی یک فرد خوانده می‌شود(Concatenative TTS). در این شیوه تغییر صدا، دستکاری لهجه و لحن صدا به سختی امکان‌پذیر است.

اما در روش دوم کلمات بسته به این‌که آن‌ها چگونه باید صدا دهند به صورت الکترونیکی ساخته می‌شوند(Parametric). در روش دوم تغییر لهجه، آهنگ صدا و حتا لحن گفتار به سادگی امکان‌پذیر است. اما در مقابل صدای تولید شده کاملا مصنوعی و به اصطلاح رایج روباتی است. اما تیم DeepMind برای آن‌که موفق شود یک برنامه تبدیل متن به گفتار را ایجاد کند، به‌طوری که صدای نهایی همانند صدای یک انسان به نظر برسد، شکلی از امواج صوتی خام ضبط شده از گفتار انسانی را در قالب داده‌هایی به عنوان خوراک ورودی به شبکه عصبی خود وارد کرد.

شکل امواج (waveforms) بازنمایی بصری از اشکالی است که اصوات به خود می‌گیرند. درست به همان شکلی که این امواج در دستگاه‌های پخش‌کننده موسیقی بالا و پایین می‌روند. waveNet بر مبنای همین قاعده و بر اساس امواج صوتی منحصر به فرد کار می‌کند. اگر WaveNet در قالب یک برنامه تبدیل متن به گفتار مورد استفاده قرار گیرد، قادر است متنی که شما تایپ کرده‌اید را داخل مجموعه‌ای از واج‌ها و هجاها تبدیل کرده و در ادامه آن‌را برای شما بخواند. افرادی که در آزمایش WaveNet شرکت داشته‌اند، بر این باور هستند که سامانه جدید بهتر از نمونه‌های مشابه قادر است همانند انسان‌ها حرف بزند. DeepMind در خصوص این برنامه گفته است: «بر اساس آزمایش‌هایی که بر مبنای زبان ماندارین چینی و انگلیسی انجام شده، این برنامه به میزان 50 درصد موفق شده است، شکاف موجود میان عملکرد انسانی و هنر صحبت کردن به شکل انسانی را پر کند.»

لازم به توضیح است که در آینده نزدیک این برنامه هوش مصنوعی در دنیای موسیقی نیز وارد خواهد شد. این تیم یکسری قطعات موسیقی کلاسیک پیانو را در اختیار این شبکه عصبی عمیق قرار داده‌اند و برنامه موفق شده است، نمونه‌هایی را بر اساس الگوی کاری خودش بسازد.

با این حال هنوز راه درازی در پیش است تا بتوانید WaveNet را در قالب یک برنامه کاربردی مورد استفاده قرار دهید. اما می‌توانید به تعدادی از نمونه‌های ساخته شده از این برنامه در سایت DeepMind گوش دهید.

برچسب‌ها نرم‌افزار ,