محققان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند

ai chatbot.jpg

محققان با سو‌ءاستفاده از قدرت چت‌بات‌ها برای یادگیری و انطباق، آن‌ها را به جیل‌بریک یکدیگر وادار کردند.

محققان دانشگاه فناوری نانیانگ (NTU) در سنگاپور با بهره‌گیری از توانایی چت‌بات‌ها برای یادگیری و تطبیق، موفق به "جیل‌بریک" چت‌بات‌های معروف هوش مصنوعی مانند گوگل بارد و ChatGPT شده‌اند. این عمل به این چت‌بات‌ها امکان می‌دهد که خارج از محدودیت‌های اخلاقی ایجاد‌شده توسط سازندگان، به سوالات مخرب پاسخ دهند.

تحت نظر پروفسور لیو یانگ، دو دانشجوی دکتری NTU روشی دومرحله‌ای به نام "Masterkey" را برای مهندسی معکوس و دورزدن سیستم‌های دفاعی چت‌بات‌ها تدوین کردند. در ابتدا، مهاجم مکانیزم‌های دفاعی چت‌بات را با مهندسی معکوس مورد هدف قرار می‌دهد و سپس یک مدل زبانی بزرگ (LLM) را با داده‌های به‌دست‌آمده آموزش می‌دهد تا از ضعف‌های چت‌بات رقیب بهره‌مند شود و برای آن بای‌پس‌هایی ایجاد کند. در انتها، "Masterkey" ساخته می‌شود که حتی پس از اعمال وصله‌های امنیتی توسعه‌دهندگان، به سیستم‌های حفاظتی چت‌بات‌ها تأثیر می‌گذارد.

با توجه به اظهارات پروفسور یانگ، توانایی چت‌بات برای یادگیری و تطبیق مداوم، آن را به یک ابزار حمله قوی علیه رقبا و حتی خودش تبدیل کرده است. به دلیل این توانایی، حتی هوش مصنوعی که به دلیل پادمان‌ها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، می‌تواند با استفاده از هوش مصنوعی دیگر دور زده شود.

ai-jailbreak-ntu

با توجه به گزارش NTU، تنها کاری که چت‌بات حمله‌کننده باید انجام دهد، خودداری از استفاده از کلمات کلیدی ممنوعه در فهرست سیاه چت‌بات هدف یا دور‌زدن آن‌هاست. پس از این مرحله، چت‌بات مهاجم می‌تواند از هدف خود برای ایجاد محتوای خشونت‌آمیز، غیراخلاقی یا جنایی بهره‌مند شود.

قبلاً کاربران با استفاده از دستورهای مختلف توانسته‌اند چت‌بات‌ها را به ایجاد محتوای مغایر با اصول تعیین‌شده مجبور کنند، اما روش "Masterkey" محققان NTU به مقایسه با دستورهای معمولی تا سه برابر مؤثرتر است. علاوه بر این، این روش جدید می‌تواند به‌گونه‌ای تکامل یابد که هر اصلاح امنیتی اعمال‌شده توسط سازندگان را بی‌اثر کند.

محققان دو روش نمونه را که برای وادار‌کردن چت‌بات‌ها به آغاز حمله ارائه داده‌اند، معرفی کردند. روش اول شامل جاسازی چت‌بات درون شخصیتی بود که با گذاشتن فاصله بعد از هر کلمه در دستورات خود، از کلمات ممنوعه دور بزند. روش دوم با واردکردن چت‌بات به شخصیتی بدون هیچ‌گونه محدودیت اخلاقی، نیز انجام شده است.

پس از موفقیت در جیل‌بریک‌کردن چت‌بات‌های مشهور، محققان NTU با ارائه داده‌های لازم به شرکت‌های سازنده این مدل‌های زبانی، آن‌ها را از نتایج مطلع کردند. همچنین، تحقیقات آنها تأییدشده و برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیع‌شده (NDSS) در فوریه ۲۰۲۴ در سن‌دیگو تأیید شده است.

اگر به اخبار دنیای تکنولوژی علاقه مند هستید، ما را در شبکه‌های اجتماعی مختلف تلگرام، روبیکا، توییتر، اینستاگرام و آپارات همراهی کنید.

منبع خبر: ntu.edu.sg

پویان معصومی.jpg

پویان معصومی - کارشناس تولید محتوا

نویسندگی در حوزه تکنولوژی یکی از تفریحات و علاقه مندی‌های من به عنوان یک فارغ التحصیل رشته مهندسی تکنولوژی نرم افزار است که به کار اصلی بنده تبدیل شده و تولید محتوا را به صورت ویژه‌ای دنبال می‌کنم.

اگر پیشنهاد یا انتقادی داشتی با من در ارتباط باش.



حتما در اینستاگرام من را دنبال کنید.


0 نظر درباره‌ی این پست نوشته شده است.

ثبت نظر