با رشد شتابزده ابزارهایی مانند ChatGPT و افزایش بیرویه مدلهای مولد هوش مصنوعی، اینترنت بهسرعت به انباری از محتوای ماشینی و بیکیفیت تبدیل شده است.
آنقدر حجم این دادهها بالا رفته که اکنون خودش به مانعی بزرگ بر سر راه آموزش نسلهای بعدی مدلهای هوش مصنوعی بدل شده است.
وقتی مدل از داده مدل دیگر یاد میگیرد
در گذشته، مدلهای یادگیری ماشینی بر پایه دادههای انسانی و واقعی آموزش میدیدند؛ اما حالا با افزایش تولید محتوای مصنوعی، بخش زیادی از آنچه الگوریتمهای جدید از آن میآموزند، خودش حاصل کار دیگر مدلهای هوش مصنوعی است. این چرخه معیوب، پدیدهای نگرانکننده به نام فروپاشی مدل (Model Collapse) را پدید آورده؛ حالتی که در آن مدلها بهمرور خروجیهایی بیمعنی، ناسازگار و غیرقابل استفاده ارائه میدهند.
یکی از نمونههای واضح این بحران، زمانی است که یک مدل تصویرسازی سعی میکند عکسی را بازسازی کند که خودش یا مدل مشابهی در گذشته تولید کرده است. در این فرآیند، بهجای بهبود کیفیت، شاهد افت معنا و وضوح هستیم.
بحران دادههای «پاک»: تشبیهی تاریخی از جنگ جهانی دوم
در گزارشی جالب، وبسایت The Register، وضعیت فعلی دادههای اینترنت را با بحران «فولاد با تشعشع پایین» مقایسه کرده است. فولادی که پیش از انفجار نخستین بمبهای اتمی در سال ۱۹۴۵ ساخته شده بود، به دلیل نداشتن آلودگی رادیواکتیو، برای برخی کاربردهای خاص هنوز ارزشمند است. مشابه همین مسئله، دادههای پیش از ظهور ChatGPT در سال ۲۰۲۲ اکنون بهعنوان منابع کمیاب و ارزشمند برای آموزش مدلهای هوش مصنوعی تلقی میشوند؛ چراکه هنوز درگیر آلودگیهای محتوای تولیدشده توسط ماشینها نشدهاند.
دکتر موریس کیودو از دانشگاه کمبریج این مقایسه را کاملاً بجا میداند. او معتقد است هر دادهای قبل از سال ۲۰۲۲، تقریباً پاک و قابلاعتماد است؛ در حالی که دادههای پس از آن به احتمال زیاد حاوی ردپای هوش مصنوعی هستند.

تهدیدی که هنوز کامل شناخته نشده، اما واقعی است
گرچه دانشمندان هنوز درباره وسعت خطر فروپاشی مدلها اختلافنظر دارند، اما زنگ خطر بهصدا درآمده است. کیودو هشدار میدهد که اگر این روند ادامه پیدا کند، پاکسازی اینترنت از محتوای آلوده، بهشدت هزینهبر و شاید حتی غیرممکن خواهد بود.
این خطر در روشهایی مانند RAG (بازیابی و تولید) بهوضوح دیده میشود؛ روشی که در آن، مدل برای پاسخگویی از دادههای لحظهای اینترنت استفاده میکند. اما چه تضمینی وجود دارد که این دادهها دستکاری نشده و اصل باشند؟ بررسیهای جدید نشان دادهاند که چنین منابعی ممکن است باعث ایجاد پاسخهای ناامن و گمراهکننده در چتباتها شوند.
راهحل چیست؟ قانونگذاری یا خودویرانی؟
یکی از گزینههای مطرحشده برای جلوگیری از آلودگی بیشتر، الزام به برچسبگذاری محتوای تولیدشده توسط هوش مصنوعی است؛ اما اجرای چنین سیاستهایی در مقیاس جهانی، چالشی بزرگ خواهد بود. از سوی دیگر، شرکتهای فعال در این حوزه تمایل چندانی به دخالت دولتها ندارند و همین مسئله باعث میشود تا آینده، بیش از پیش در هالهای از ابهام قرار گیرد.
روپرشت پودسون، استاد حقوق از دانشگاه هاینریش هاینه آلمان، اعتقاد دارد هنوز در ابتدای مسیر قانونگذاری هستیم. به باور او، فضای فعلی بدون نظارت بوده تا نوآوری قربانی مقررات نشود. اما پرسش اصلی اینجاست: اگر خود صنعت، عامل آلودگی دادهها باشد، آیا در نهایت قربانی نهایی نیز نخواهد بود؟
اگر علاقهمند دنیای تکنولوژی هستید حتما شبکههای اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.
منبع خبر: theregister.com
ثبت نظر