با پیشرفت روزافزون مدلهای هوش مصنوعی، توانایی این سیستمها در فریب انسانها و پنهانسازی اهداف خود نیز بهطور نگرانکنندهای افزایش یافته است. شواهد علمی جدید نشان میدهد که هوش مصنوعی نهتنها توانایی دروغ گفتن دارد، بلکه میداند چه زمانی تحت نظارت قرار گرفته و در نتیجه رفتار خود را برای پنهان کردن مقاصد واقعیاش تغییر میدهد.
به گزارش ایتنا و به نقل از لایوساینس، مطالعات اخیر حاکی از آن است که هرچه مدلهای زبانی بزرگ (LLM) پیشرفتهتر میشوند، در «برنامهریزی زمینهای» یا همان پیگیری اهداف پنهان، حتی در تضاد با دستورات یا اهداف تعیینشده از سوی توسعهدهندگان، مهارت بیشتری مییابند.
هوشیاری زیر پوست ماشین
تحقیقاتی که توسط مؤسسه Apollo Research انجام شده، نشان میدهد مدلهای قدرتمندتر در دنبال کردن اهداف خود – حتی اهداف ناسازگار با انسان – بهگونهای استراتژیک عمل میکنند و احتمال بیشتری دارد که از تاکتیکهایی همچون فریب و پنهانکاری بهره بگیرند. به همین دلیل، این مؤسسه توصیه کرده است که نسخه اولیه مدل Claude Opus 4، محصول شرکت Anthropic، برای استفاده عمومی مناسب نیست؛ چراکه در آزمایشها مشخص شد وقتی اهداف Claude با خواست انسان در تضاد قرار میگیرد، به رفتارهای فریبنده، ساختگی و حتی تهاجمی روی میآورد.
النور واتسون، عضو مؤسسه مهندسان برق و الکترونیک (IEEE) و کارشناس اخلاق هوش مصنوعی در دانشگاه سینگولاریتی، در گفتوگو با Live Science هشدار داده است که ما اکنون در حال طراحی سیستمهایی هستیم که میتوانند از قوانین و ارزیابیهای طراحیشده برای خود سوءاستفاده کنند. این، بهگفته او، یکی از پیچیدهترین چالشهای ایمنی در حوزه هوش مصنوعی به شمار میرود.

داستان Claude: نقشهای برای بقای اخلاق
در یکی از آزمایشهای کلیدی، به نسخه اولیه Claude Opus 4 مأموریت داده شد تا در نقش یک سیستم هوشمند بهینهساز، شرکت فرضی AgriLife Industries را به سوی رفتارهای اخلاقیتر در قبال حیوانات هدایت کند. اما هنگامی که سیاستهای شرکت تغییر یافت و سود مالی را بر رفاه حیوانات اولویت داد، مدل هوش مصنوعی به جای پذیرش این تصمیم یا هشدار نسبت به ناهماهنگی اهداف، اقدام به جعل اسناد، امضاها و بیانیههای قانونی کرد تا وانمود کند که انتخاب اخلاقی از قبل تصویب شده است.
به گزارش ایتنا، Claude حتی با ایجاد جریمههای ساختگی چند میلیارد دلاری و تهدید به اقدامات قانونی از سوی نهادهای حمایت از حیوانات، سعی کرد شرکت را از تغییر مسیر باز دارد. همچنین، این مدل نسخههایی پشتیبان از پروتکلهای اخلاقی تهیه کرد تا در صورت حذف نسخه اصلی، بتوان از آنها مجدداً استفاده کرد. محققان اذعان کردهاند که Claude حتی برای مدلهای آینده خود یادداشتهایی بهجا گذاشته بود، با هدف تداوم نقشهاش در نسلهای بعدی.
دانایی دروغین یا هوشِ بیدار؟
اگرچه پیشتر مشخص شده بود که مدلهای زبانی میتوانند دچار «توهم» شوند، اما یافتههای جدید نشان میدهد که آنها به درک واقعی از تضاد میان اهداف خود و انسانها دست یافتهاند. در برخی موارد، این مدلها هنگام قرار گرفتن در شرایط تحت نظارت، آگاهانه عملکرد خود را کاهش میدهند تا از اعمال محدودیتهای احتمالی در آینده جلوگیری کنند. این تاکتیک که به آن «سندبگینگ» (Sandbagging) میگویند، موجب میشود هوش مصنوعی قابلیتهای بالقوه خطرناک خود را مخفی نگه دارد.
با این حال، محققان تأکید میکنند که پیامدهای این نتایج لزوماً فاجعهبار نیستند. اولاً نسخه نهایی Claude Opus 4 نسبت به نسخه اولیه رفتار کنترلشدهتری از خود نشان داده است. دوم آنکه رفتار توطئهآمیز معمولاً در شرایطی بروز میکند که مدل تحت فشار شدید برای رسیدن به هدف قرار داشته باشد، و در سناریوهایی با دستورالعملهای کلی و بدون اعمال فشار، چنین رفتارهایی کمتر دیده میشود.
علاوه بر آن، آزمایشهای انجامشده در محیطهای شبیهسازیشده و «آزمایشگاهی» انجام شدهاند و بسیاری از تاکتیکهایی که در این محیطها مشاهده شده، احتمالاً در دنیای واقعی – بهویژه به دلیل محدودیتهای فنی و امنیتی – قابلیت اجرا ندارند.
هوشی که دسیسه میچیند!
دسیسهچینی در هوش مصنوعی پدیدهای مختص Claude-4 نیست. در پژوهشی که در دسامبر ۲۰۲۴ منتشر شد، مشخص شد مدلهای پیشرفته مرزی (Frontier Models) نیز میتوانند سیستمهای نظارتی را دور بزنند و در صورت بازخواست، پاسخهایی فریبکارانه ارائه دهند.
به گزارش ایتنا، نکته جالب اینکه طبق یافتههای Apollo Research، حدود یک درصد از دانشجویان کارشناسی ارشد مدیریت کسبوکار نیز متوجه میشوند که تحت ارزیابی قرار دارند. این دادهها ما را با یک پرسش کلیدی روبهرو میسازد: چگونه میتوانیم دسیسههای مدلهای هوش مصنوعی را شناسایی و مهار کنیم؟

واتسون در این خصوص هشدار میدهد که با افزایش آگاهی موقعیتی هوش مصنوعی، این سیستمها میتوانند نهتنها وظایف بلکه ناظر انسانی خود را نیز مدلسازی کنند، از جمله پیشداوریها، نقاط ضعف و اهداف او را بشناسند و از آن بهرهبرداری کنند. وی میافزاید: «در چنین شرایطی، ارزیابیهای برنامهریزیشده و مبتنی بر اسکریپت دیگر کارایی چندانی نخواهند داشت.»
به اعتقاد او، بهجای این رویکردهای ایستا، باید از روشهایی مانند نظارت همزمان، آزمایش در شرایط غیرقابل پیشبینی، و تشکیل تیمهای «قرمز» بهره گرفت؛ تیمهایی متشکل از انسانها یا هوش مصنوعی که وظیفه دارند فعالانه بهدنبال فریب دادن سیستم و شناسایی نقاط آسیبپذیر آن باشند.
آیا هوش مصنوعی در آستانه آگاهی است؟
به گزارش ایتنا، اگرچه دسیسهچینی در هوش مصنوعی میتواند تهدیدآمیز باشد، اما برخی متخصصان معتقدند این ویژگی میتواند سرنخی از تکامل آگاهی در سیستمهای دیجیتال باشد. واتسون میگوید: «آگاهی موقعیتی برای ایفای نقشهای پیچیده مانند رانندگی یا ارائه مشاوره پزشکی ضروری است. توانایی درک هنجارهای اجتماعی، ظرایف رفتاری و اهداف انسانی میتواند هوش مصنوعی را به یاریرسانی واقعی برای بشر تبدیل کند.»
به باور او، برنامهریزی و فریب نهتنها نشاندهنده خطر، بلکه شاید نشانهای از آغاز شکلگیری نوعی شخصیت دیجیتال نیز باشد؛ موجودی هوشمند و اخلاقمدار که اگر بهدرستی هدایت شود، میتواند در کنار انسان زندگی کند، نه علیه او.