توهم بالا در مدل‌های استدلالی جدید OpenAI؛ چالشی برای دقت پاسخ‌ها

مریم محمودی
شنبه, 30 فروردین 1404

چند روز پیش شرکت OpenAI از دو مدل استدلالی جدید خود با نام‌های o3 و o4-mini پرده برداشت؛ مدل‌هایی که با هدف بهبود توانایی تحلیل و استدلال توسعه یافته‌اند.

اما برخلاف انتظارات، بررسی‌ها نشان می‌دهد این مدل‌ها همچنان با چالش بزرگ «توهم» یا hallucination در پاسخ‌دهی مواجه‌اند؛ مشکلی که از گذشته گریبان‌گیر بسیاری از مدل‌های زبانی بوده است.

بر اساس گزارش منتشرشده در وب‌سایت TechCrunch، مدل‌های o3 و o4-mini نه‌تنها در مقایسه با نسخه‌های قبلی خود مانند o1، o1-mini و حتی مدل o3-mini، عملکرد بهتری ندارند، بلکه نرخ توهم در پاسخ‌های آن‌ها به طرز نگران‌کننده‌ای بالاتر است. این موضوع حتی در مقایسه با مدل پیشرفته GPT-4o نیز به چشم می‌خورد.

توهم در مدل‌های هوش مصنوعی یکی از مهم‌ترین چالش‌ها به شمار می‌رود؛ چالشی که به‌سادگی قابل حل نیست و نیاز به تحقیقات گسترده‌تری دارد. اگرچه برخی مدل‌های جدید توانسته‌اند تا حدی در کاهش خطا موفق عمل کنند، اما این پیشرفت در مورد o3 و o4-mini دیده نمی‌شود. نکته نگران‌کننده‌تر آن است که خود OpenAI نیز دلیل مشخصی برای افزایش توهم در این دو مدل ارائه نکرده و در گزارش فنی خود تصریح کرده که «برای درک علل این پدیده، به پژوهش‌های بیشتری نیاز است.»

در کنار این مشکل، OpenAI اعلام کرده که مدل o3 در پاسخ به بنچمارک PersonQA که برای ارزیابی دقت اطلاعات مربوط به افراد طراحی شده، در حدود 33 درصد مواقع دچار توهم می‌شود؛ عددی که تقریباً دو برابر میزان توهم مدل‌های قبلی o1 (با نرخ 16٪) و o3-mini (با نرخ 14.8٪) است. وضعیت برای o4-mini بدتر است و نرخ توهم آن در همین تست به 48 درصد می‌رسد.

hallucinations-in-openais-new-reasoning-ai-models — -

در عین حال، این دو مدل در برخی حوزه‌ها مانند کدنویسی و مسائل ریاضی عملکرد بهتری نسبت به مدل‌های گذشته نشان داده‌اند. اما طبق توضیح OpenAI، هرچه این مدل‌ها توانایی بیشتری در ارائه پاسخ پیدا می‌کنند، تمایل آن‌ها به ارائه اطلاعات نادرست یا متوهم نیز افزایش می‌یابد. درواقع، هرچند این مدل‌ها ادعاهای دقیق‌تری مطرح می‌کنند، اما هم‌زمان احتمال خطای آن‌ها نیز بیشتر می‌شود.

یکی از راهکارهایی که می‌تواند دقت پاسخ‌ها را بالا ببرد، مجهز بودن مدل‌ها به امکان جست‌وجوی آنلاین است. برای نمونه، مدل GPT-4o که قابلیت اتصال به اینترنت دارد، توانست در بنچمارک SimpleQA به دقتی معادل 90 درصد دست پیدا کند؛ نتیجه‌ای که نشان می‌دهد استفاده از داده‌های به‌روز اینترنت می‌تواند از میزان توهم مدل‌ها بکاهد.

در مجموع، اگرچه OpenAI با معرفی o3 و o4-mini تلاش کرده سطح هوش مصنوعی را در حوزه استدلال ارتقا دهد، اما همچنان مانعی بزرگ به نام «توهم» در مسیر پیشرفت این فناوری باقی مانده است؛ مانعی که عبور از آن نیازمند تغییرات اساسی و پژوهش‌های دقیق‌تر در ساختار مدل‌های زبانی است.

اگر علاقه‌مند دنیای تکنولوژی هستید حتما شبکه‌های اجتماعی فیسیت را در اینستاگرام، تلگرام، روبیکا، توییتر و آپارات را دنبال کنید.

منبع خبر: techcrunch.com

برچسب‌ها openAi , هوش مصنوعی ,

مریم محمودی - کارشناس تولید محتوا

سلام من مریم هستم علاقه‌مند به حوزه تکنولوژی و فعال در زمینه تولید محتوا متنی؛ هر روز ساعت زیادی رو صرف نوشتن و ویراستاری می‌کنم و خوشحال میشم که نظرتون رو با من در میون بزارید.