چند روز پیش شرکت OpenAI از دو مدل استدلالی جدید خود با نامهای o3 و o4-mini پرده برداشت؛ مدلهایی که با هدف بهبود توانایی تحلیل و استدلال توسعه یافتهاند.
اما برخلاف انتظارات، بررسیها نشان میدهد این مدلها همچنان با چالش بزرگ «توهم» یا hallucination در پاسخدهی مواجهاند؛ مشکلی که از گذشته گریبانگیر بسیاری از مدلهای زبانی بوده است.
بر اساس گزارش منتشرشده در وبسایت TechCrunch، مدلهای o3 و o4-mini نهتنها در مقایسه با نسخههای قبلی خود مانند o1، o1-mini و حتی مدل o3-mini، عملکرد بهتری ندارند، بلکه نرخ توهم در پاسخهای آنها به طرز نگرانکنندهای بالاتر است. این موضوع حتی در مقایسه با مدل پیشرفته GPT-4o نیز به چشم میخورد.
توهم در مدلهای هوش مصنوعی یکی از مهمترین چالشها به شمار میرود؛ چالشی که بهسادگی قابل حل نیست و نیاز به تحقیقات گستردهتری دارد. اگرچه برخی مدلهای جدید توانستهاند تا حدی در کاهش خطا موفق عمل کنند، اما این پیشرفت در مورد o3 و o4-mini دیده نمیشود. نکته نگرانکنندهتر آن است که خود OpenAI نیز دلیل مشخصی برای افزایش توهم در این دو مدل ارائه نکرده و در گزارش فنی خود تصریح کرده که «برای درک علل این پدیده، به پژوهشهای بیشتری نیاز است.»
در کنار این مشکل، OpenAI اعلام کرده که مدل o3 در پاسخ به بنچمارک PersonQA که برای ارزیابی دقت اطلاعات مربوط به افراد طراحی شده، در حدود 33 درصد مواقع دچار توهم میشود؛ عددی که تقریباً دو برابر میزان توهم مدلهای قبلی o1 (با نرخ 16٪) و o3-mini (با نرخ 14.8٪) است. وضعیت برای o4-mini بدتر است و نرخ توهم آن در همین تست به 48 درصد میرسد.

در عین حال، این دو مدل در برخی حوزهها مانند کدنویسی و مسائل ریاضی عملکرد بهتری نسبت به مدلهای گذشته نشان دادهاند. اما طبق توضیح OpenAI، هرچه این مدلها توانایی بیشتری در ارائه پاسخ پیدا میکنند، تمایل آنها به ارائه اطلاعات نادرست یا متوهم نیز افزایش مییابد. درواقع، هرچند این مدلها ادعاهای دقیقتری مطرح میکنند، اما همزمان احتمال خطای آنها نیز بیشتر میشود.
یکی از راهکارهایی که میتواند دقت پاسخها را بالا ببرد، مجهز بودن مدلها به امکان جستوجوی آنلاین است. برای نمونه، مدل GPT-4o که قابلیت اتصال به اینترنت دارد، توانست در بنچمارک SimpleQA به دقتی معادل 90 درصد دست پیدا کند؛ نتیجهای که نشان میدهد استفاده از دادههای بهروز اینترنت میتواند از میزان توهم مدلها بکاهد.
در مجموع، اگرچه OpenAI با معرفی o3 و o4-mini تلاش کرده سطح هوش مصنوعی را در حوزه استدلال ارتقا دهد، اما همچنان مانعی بزرگ به نام «توهم» در مسیر پیشرفت این فناوری باقی مانده است؛ مانعی که عبور از آن نیازمند تغییرات اساسی و پژوهشهای دقیقتر در ساختار مدلهای زبانی است.
اگر علاقهمند دنیای تکنولوژی هستید حتما شبکههای اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.
منبع خبر: techcrunch.com
ثبت نظر