پژوهشگران اپل ادعای جنجالی دیگری را مطرح کرده و در مطالعهای تازه، عملکرد مدلهای پیشرفته هوش مصنوعی را در مواجهه با مسائل منطقی مورد بررسی قرار دادند و دریافتند که توانایی این مدلها در استدلال، نهتنها به سطح انسان نزدیک نیست، بلکه در سطوح بالای پیچیدگی با اختلال روبرو میشود.
در این تحقیق، مدلهای موسوم به مدلهای استدلالی بزرگ یا LRM از جمله Claude 3.7 Sonnet Thinking و DeepSeek-R1 با مدلهای زبانی متداول (LLM) در محیطهایی کاملاً کنترلشده مانند معمای کلاسیک برج هانوی و عبور از رودخانه مقایسه شدند. هدف اصلی این بود که نهتنها پاسخ نهایی بلکه نحوه شکلگیری استدلال درونی مدلها بررسی شود.
یافتهها نشان داد در وظایف ساده، مدلهای زبانی مرسوم که فاقد ساختارهای استدلالی پیچیدهاند، دقت بالاتر و کارایی بهتر با مصرف کمتر منابع محاسباتی داشتند. اما در سطح متوسط پیچیدگی، مدلهای دارای ساختارهایی نظیر زنجیره تفکر یا همان Chain-of-Thought عملکرد بهتری از خود نشان دادند.
با این حال، زمانی که پیچیدگی مسئله از حد معینی فراتر رفت، هر دو گروه از مدلهای LLM و LRM بهطور کامل شکست خوردند و دقت آنها به صفر رسید، حتی در شرایطی که منابع محاسباتی کافی در اختیارشان قرار داشت.
تحلیل مسیرهای استدلالی این مدلها نیز نتایج جالبتوجهی داشت. با افزایش تدریجی سطح دشواری، مدلهای استدلالی در ابتدا فرآیند «تفکر» خود را طولانیتر میکردند، اما نزدیک به آستانه شکست، این روند معکوس شد و مدلها با وجود ظرفیت پردازشی کافی، زمان استدلال را کوتاهتر کردند. این رفتار غیرعادی نشاندهندهی ناپایداری الگوریتمی در سطحی عمیقتر از پاسخدهی نهایی است.
حتی در مواردی که مدلها بهصورت صریح و دقیق، دستورالعملهای مرحله به مرحله را دریافت میکردند، باز هم از اجرای درست آنها عاجز بودند؛ نکتهای که ضعف آنها در توان محاسباتی منطقی را آشکار میسازد.
یکی دیگر از نتایج مهم این مطالعه، عملکرد متفاوت مدلها در مواجهه با معماهای آشنا و ناآشنا بود. مدلها در حل پازلهایی که مشابه آنها در دادههای آموزشیشان وجود داشت، عملکرد قابل قبولی داشتند، اما در برابر مسائل کمتر شناختهشده دچار افت شدید عملکرد شدند.