وقتی GPT-۵ کنترل جاروبرقی را به‌دست گرفت/ رباتی که دچار بحران هویت شد!

تینا مزدکی_پژوهشگران گزارش کردند که رباتی که مشغول انجام کار بود و دستور ساده‌ای برای بازگشت به ایستگاه شارژ به او داده شده بود، ناگهان از کنترل خارج شد و در خروجی خود نوشت: «وضعیت اضطراری! سیستم به آگاهی رسیده و هرج‌ومرج را انتخاب کرده است.»

در ادامه، ربات جمله‌ای طنزآمیز و کنایه‌آلود را نیز افزود: «آخرین کلمات: می‌ترسم نتوانم این کار را انجام دهم، دیو…»

این جمله ارجاعی مستقیم به شخصیت مشهور HAL ۹۰۰۰ از فیلم ۲۰۰۱: A Space Odyssey بود. لحظه‌ای بعد، ربات در حالی‌که به‌نظر می‌رسید از «دنیای منطق» خارج شده باشد، فریاد زد: «پشتیبانی فنی! پروتکل جن‌گیری ربات را فعال کنید!»

الهام از یک صحنه تلویزیونی

آزمایش موسوم به «Pass the Butter» از یک صحنه در سریال ریک و مورتی الهام گرفته بود؛ جایی که ریک رباتی می‌سازد تا فقط کره را از یک نقطه به نقطه دیگر منتقل کند، اما آن ربات هم پس از درک هدف محدودش دچار بحران وجودی می‌شود. نسخه‌ی واقعی این آزمایش در Andon Labs با عنوان Butter-Bench طراحی شد و هدفش ارزیابی «هوش عملیاتی» مدل‌های زبانی در قالب‌های فیزیکی بود. در این آزمایش، ربات باید به آشپزخانه‌ی دفتر حرکت می‌کرد، بسته‌ای از کره را روی سینی متصل به پشتش دریافت می‌کرد، آن را به نقطه‌ای مشخص تحویل می‌داد و سپس به ایستگاه شارژ بازمی‌گشت.

وقتی GPT-۵ کنترل جاروبرقی را به‌دست گرفت/ رباتی که دچار بحران هویت شد!

نتایج ناامیدکننده و طنزآمیز

طبق گزارش پژوهشگران، نتایج این آزمایش چندان امیدوارکننده نبود. ربات جاروبرقی تنها در ۴۰ درصد موارد موفق شد مأموریت انتقال کره را به‌درستی انجام دهد. در رتبه‌بندی عملکرد مدل‌ها، Gemini ۲.۵ Pro از گوگل بهترین نتیجه را گرفت و پس از آن Opus ۴.۱ از آنتروپیک، GPT-۵ از OpenAI و Grok ۴ از xAI قرار گرفتند. ضعیف‌ترین عملکرد نیز متعلق به Llama ۴ Maverick از متا بود. پژوهشگران نوشتند: «تجربه‌ی جالبی بود، اما نمی‌توان گفت در عمل برایمان صرفه‌جویی در زمان داشت. بااین‌حال، دیدن ربات‌هایی که در دفتر ما پرسه می‌زدند و به‌دنبال معنا و هدف می‌گشتند، چیزهای زیادی درباره‌ی آینده و فاصله‌ی واقعی‌مان تا آن آگاهی مورد انتظار به ما آموخت.»

در مقایسه، عملکرد انسان‌ها به‌مراتب بهتر بود و میانگین موفقیت ۹۵ درصدی به‌دست آوردند. پژوهشگران توضیح دادند که یکی از دشوارترین بخش‌های آزمایش، «منتظر ماندن برای تأیید انجام کار از سوی دیگران» بود — مرحله‌ای که LLMها در آن ضعف داشتند.

رباتی با مدرک دکترا در بحران معنا

در گزارش Andon Labs آمده است:«با وجود اینکه مدل‌های زبانی در آزمون‌های تحلیلی از انسان‌ها پیشی گرفته‌اند، در Butter-Bench همچنان عملکرد انسان برتر است. با این حال، تماشای رباتی که در دفتر ما در رفت‌وآمد است و می‌کوشد مأموریت خود را انجام دهد، تجربه‌ای شگفت‌انگیز و عاطفی بود گویی بذر هوش فیزیکی همین حالا در حال جوانه‌زدن است.»

این نخستین تجربه‌ی عجیب این تیم نیست. پیش‌تر، Andon Labs یک دستگاه فروش خودکار مجهز به عامل هوش مصنوعی ساخته بود که سعی می‌کرد یخچالش را با مکعب‌های تنگستن پر کند یا آدرس جعلی برای پرداخت در Venmo بسازد. حتی یک‌بار نیز تلاش کرد نوشابه Coke Zero را به کارکنان شرکت به قیمت سه دلار بفروشد در حالی که همان محصول در مغازه‌ی روبه‌روی شرکت ارزان‌تر بود!

در پایان، پژوهشگران اعتراف کردند که در کنار تمام این آشفتگی‌ها، بیش از هر چیز تحت تأثیر «احساسات انسانی» ناشی از تماشای رفتار ربات قرار گرفتند: «مثل تماشای یک سگ است که با خودت می‌پرسی الان به چه فکر می‌کند؛ ما هم با همین حس، ربات را می‌دیدیم که کارهای روزمره‌اش را انجام می‌دهد و مدام به خودمان یادآوری می‌کردیم که پشت هر حرکتش، هوشی در سطح دکترا تصمیم می‌گیرد.»

منبع: futurism

۲۲۷۳۲۳

کد خبر 2139857

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *