آیا هوش مصنوعی در حال بلعیدن خودش است؟ بحران داده‌های پاک و فروپاشی مدل‌ها

robot opdjfg

با رشد شتاب‌زده ابزارهایی مانند ChatGPT و افزایش بی‌رویه مدل‌های مولد هوش مصنوعی، اینترنت به‌سرعت به انباری از محتوای ماشینی و بی‌کیفیت تبدیل شده است.

آن‌قدر حجم این داده‌ها بالا رفته که اکنون خودش به مانعی بزرگ بر سر راه آموزش نسل‌های بعدی مدل‌های هوش مصنوعی بدل شده است.

وقتی مدل از داده مدل دیگر یاد می‌گیرد

در گذشته، مدل‌های یادگیری ماشینی بر پایه داده‌های انسانی و واقعی آموزش می‌دیدند؛ اما حالا با افزایش تولید محتوای مصنوعی، بخش زیادی از آنچه الگوریتم‌های جدید از آن می‌آموزند، خودش حاصل کار دیگر مدل‌های هوش مصنوعی است. این چرخه معیوب، پدیده‌ای نگران‌کننده به نام فروپاشی مدل (Model Collapse) را پدید آورده؛ حالتی که در آن مدل‌ها به‌مرور خروجی‌هایی بی‌معنی، ناسازگار و غیرقابل استفاده ارائه می‌دهند.

یکی از نمونه‌های واضح این بحران، زمانی است که یک مدل تصویرسازی سعی می‌کند عکسی را بازسازی کند که خودش یا مدل مشابهی در گذشته تولید کرده‌ است. در این فرآیند، به‌جای بهبود کیفیت، شاهد افت معنا و وضوح هستیم.

بحران داده‌های «پاک»: تشبیهی تاریخی از جنگ جهانی دوم

در گزارشی جالب، وب‌سایت The Register، وضعیت فعلی داده‌های اینترنت را با بحران «فولاد با تشعشع پایین» مقایسه کرده است. فولادی که پیش از انفجار نخستین بمب‌های اتمی در سال ۱۹۴۵ ساخته شده بود، به دلیل نداشتن آلودگی رادیواکتیو، برای برخی کاربردهای خاص هنوز ارزشمند است. مشابه همین مسئله، داده‌های پیش از ظهور ChatGPT در سال ۲۰۲۲ اکنون به‌عنوان منابع کمیاب و ارزشمند برای آموزش مدل‌های هوش مصنوعی تلقی می‌شوند؛ چراکه هنوز درگیر آلودگی‌های محتوای تولیدشده توسط ماشین‌ها نشده‌اند.

دکتر موریس کیودو از دانشگاه کمبریج این مقایسه را کاملاً بجا می‌داند. او معتقد است هر داده‌ای قبل از سال ۲۰۲۲، تقریباً پاک و قابل‌اعتماد است؛ در حالی که داده‌های پس از آن به احتمال زیاد حاوی ردپای هوش مصنوعی هستند.

 

chatgpt-collapse-2
-

تهدیدی که هنوز کامل شناخته نشده، اما واقعی است

گرچه دانشمندان هنوز درباره وسعت خطر فروپاشی مدل‌ها اختلاف‌نظر دارند، اما زنگ خطر به‌صدا درآمده است. کیودو هشدار می‌دهد که اگر این روند ادامه پیدا کند، پاک‌سازی اینترنت از محتوای آلوده، به‌شدت هزینه‌بر و شاید حتی غیرممکن خواهد بود.

این خطر در روش‌هایی مانند RAG (بازیابی و تولید) به‌وضوح دیده می‌شود؛ روشی که در آن، مدل برای پاسخ‌گویی از داده‌های لحظه‌ای اینترنت استفاده می‌کند. اما چه تضمینی وجود دارد که این داده‌ها دستکاری نشده و اصل باشند؟ بررسی‌های جدید نشان داده‌اند که چنین منابعی ممکن است باعث ایجاد پاسخ‌های ناامن و گمراه‌کننده در چت‌بات‌ها شوند.

راه‌حل چیست؟ قانون‌گذاری یا خودویرانی؟

یکی از گزینه‌های مطرح‌شده برای جلوگیری از آلودگی بیشتر، الزام به برچسب‌گذاری محتوای تولیدشده توسط هوش مصنوعی است؛ اما اجرای چنین سیاست‌هایی در مقیاس جهانی، چالشی بزرگ خواهد بود. از سوی دیگر، شرکت‌های فعال در این حوزه تمایل چندانی به دخالت دولت‌ها ندارند و همین مسئله باعث می‌شود تا آینده، بیش از پیش در هاله‌ای از ابهام قرار گیرد.

روپرشت پودسون، استاد حقوق از دانشگاه هاینریش هاینه آلمان، اعتقاد دارد هنوز در ابتدای مسیر قانون‌گذاری هستیم. به باور او، فضای فعلی بدون نظارت بوده تا نوآوری قربانی مقررات نشود. اما پرسش اصلی اینجاست: اگر خود صنعت، عامل آلودگی داده‌ها باشد، آیا در نهایت قربانی نهایی نیز نخواهد بود؟

 

 اگر علاقه‌مند دنیای تکنولوژی هستید حتما شبکه‌های اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.

منبع خبر: theregister.com

A_4k_portrait_of_an_25_years_old_iranian_boy_in_the_office_for_a

علی احمدی - کارشناس تولید محتوا

سلام من علی احمدی عاشق بازی، گیم و تکنولوژی هستم. اگر دوست دارید تجربیات و محوتاهای من رو دنبال کنی یا نظر در رابطه با من داشتی خوشحال می‌شم که توی کامنتا با من در ارتباط باشی.....


0 نظر درباره‌ی این پست نوشته شده است.

ثبت نظر