تشخیص اجزای کلمات بدون استفاده از داده آموزشی (Traning Data)

   
نام نویسنده:
|
دسته بندی:
|
هر زبانی مجموعه ای از واج ها یا بخش های صدادار اصلی را دارد که کلمه ها از آنها تشکیل شده اند. بسته به آنکه شما چطور حساب کنید، انگلیسی بین 35 تا 45 واج دارد. با شناختن واج های یک زبان، خودکارسازی سیستم برای یادگیری و تفسیر گفتار در آن زبان آسانتر است.


در چاپ 2015 در ژورنال TACA، محققان دانشگاه MIT، یک سیستم جدید یادگیری ماشین را شرح دادند که مانند بسیاری از سیستم های قبلی می تواند کلمات گفته شده را جدا کند ولی برخلاف سیستم های پیشین، می تواند بخش های سطح پایین واج آرایی مانند واج ها و بخش های یک کلمه را نیز مشخص کند.
این تحقیق می تواند به توسعه و گسترش سیستم های پردازش گفتار برای زبان هایی که زیاد صحبت نمی شوند و نفعی برای پژوهش های زبانی در سیستم های آوایی خود ندارند، کمک کند و می تواند قابلیت جابجایی سیستم های پردازش زبان را افزایش دهد و نیز اطلاعات در مورد واحدهای آوایی در سطح پایینتر، می تواند تشخیص تلفظ های متفاوت گویندگان را آسان کند.
برخلاف سیستم های یادگیری ماشین مانند الگوریتم های تشخیص گفتار در گوشی های هوشمند امروزی، این سیستم پژوهشگران MIT، بدون نظارت می باشد، به این معنی که این سیستم به صورت مستقیم بر روی فایل های گفتاری کار می کند و دیگر نیازی آموزش داده از طریق افراد متخصص وجود ندارد. بنابراین اثبات می شود که این روش برای بسط به مجموعه داده های آموزشی و زبان های جدید راحت تر است.
این سیستم، دید جدیدی در فراگیری گفتار انسان را فراهم می کند. چیا-یینگ لی، اولین نویسنده این مقاله، می گوید: " زمانی که کودکان یک زبان را یاد می گیرند، در ابتدا نمی دانند که چگونه باید بنویسند. آنها فقط زبان را از طریق گفتار فرا می گیرند. با نگاه کردن به الگوها، می توانند ساختارهای زبان را درک کنند. این همان چیزی است که ما می خواهیم در این مقاله انجام دهیم."
از آنجایی که این سیستم، به تفسیر داده های آموزشی نیازی ندارد، فرضیاتی در مورد ساختار داده به منظور رسیدن به نتایج مطمئن نیاز است. یکی از این فرضیات، تعداد تکرار لغات در گفتار است که از توزیع استانداردی به نام توزیع Power-Law پیروی می کند به این معنی که تعدادی کمی از کلمه ها زیاد تکرار می شوند ولی تعداد زیادی از کلمه ها که تعداد تکرار کمی دارند؛ ناشناخته هستند ولی شکل کلی آنها جزء مفروضات است.
کلید کارآیی این سیستم، آن چیزی است که لی تحت عنوان مدل کانال نویزی تغییرپذیری آوایی بیان می کند. انگلیسی کمتر از 50 واج دارد، ولی هر کدام از این واج ها، حتی در گفتار یک فرد، ممکن است چندین صدای متفاوت داشته باشند. برای مثال، لی می گوید: "بسته به آنکه ‘t’ در ابتدای یک کلمه بیاید یا در انتهای کلمه، ممکن است تلفظ و صدای متفاوتی را داشته باشد."
برای مدلسازی این پدیده، پژوهشگران از نظریه ای در زمینه ارتباطات بهره برده اند. یک سیگنال صدا را اگر به عنوان دنباله منظمی از اصوات در نظر بگیریم که از طریق یک کانال نویزی ارسال می شود، ممکن است خرابی هایی را متضرر شود. هدف سیستم یادگیری ماشین، یادگیری ارتباط آماری بین سیگنال ارسال شده و سیگنال دریافت شده (پس از عبور از کانال نویزی) است. مثلا در این مسئله، یک صدا، ممکن است هشتاد و پنج درصد واج ‘T’ و 15 درصد مربوط به ‘d’ باشد.
محققان سیستم خود را با شش صدای ضبط شده از یک متن تست کردند و نتیجه این بود که این سیستم میتواند دقیقا کلمه هایی را که تعداد تکرار بیشتری دارند، در هر صدا، مشخص کند ولی اشتباهاتی را هم داشت مثلا در یک متن، سیستم به این نتیجه رسید که “open University” یک کلمه واحد است. لی دلیل این اشتباه را اینطور بیان می کند که دو کلمه Open  و University، به این دلیل که هیچ گاه در متن جدا از هم استفاده نشدند، سیستم نمی تواند تشخیص دهد که این دو، دو کلمه جدا از هم هستند.

دیگر اخبار نویسنده

ارسال نظر


شخصی سازی Close
شما در این صفحه قادر به شخصی سازی نمیباشید