مدلهای زبان بزرگ (LLM) استدلال هوش مصنوعی را متحول کردهاند، با تفکر موازی و روشهای سازگاری خود که اغلب به عنوان پیشرفتهای محوری ذکر میشوند. اما این تکنیکها با یک چالش اساسی روبرو هستند: افزایش دقت در ازای هزینه محاسباتی بالا.
تیمی از محققان Meta AI و UCSD روش جدیدی به نام Deep Think with Confidence (DeepConf) معرفی کردهاند؛ رویکردی که این مبادله را تقریباً از بین میبرد.
🔹 DeepConf موفق شده است در آزمون دشوار ریاضی AIME 2025 به دقت 99.9٪ دست یابد (با استفاده از مدل منبع باز GPT-OSS-120B)، در حالیکه به 85٪ توکن کمتر نسبت به روشهای موازی نیاز دارد.
چرا DeepConf؟
تفکر موازی (رأی اکثریت) استاندارد فعلی برای تقویت استدلال LLMهاست: چندین پاسخ تولید میشود و سپس متداولترین انتخاب میشود. هرچند مؤثر است، اما مشکلاتی دارد:
- بازده کمتر: دقت پس از حدی کاهش یا ثابت میشود.
- هزینه بالا: تولید صدها یا هزاران مسیر محاسباتی برای هر پرسش زمانبر و پرهزینه است.
✅ DeepConf این مشکل را با بهرهبرداری از سیگنال اعتماد به نفس LLM حل میکند. این روش، مسیرهای ضعیف را به صورت پویا حذف کرده و تنها از مسیرهای مطمئن برای نتیجهگیری استفاده میکند.
مزایا:
- مدل آگنوستیک (بدون نیاز به آموزش مجدد یا تنظیم پیچیده)
- قابل اتصال به هر مدل یا چارچوب موجود
- تغییرات کدی بسیار کم برای پیادهسازی
DeepConf چگونه کار میکند؟ اعتماد به نفس به عنوان راهنما
DeepConf روشهای نوینی برای اندازهگیری و استفاده از اعتماد به نفس معرفی میکند:
- اعتماد به نفس توکن: میانگین احتمال منفی top-k برای هر توکن.
- اعتماد گروهی: میانگین اعتماد در یک پنجره (مثلاً 2048 توکن).
- اعتماد به نفس دم: تمرکز بر پایان مسیر استدلال.
- کمترین اعتماد گروهی: شناسایی بخشهای ضعیف استدلال.
- اطمینان صدک پایین: تمرکز بر بدترین قسمتهای مسیر.
این معیارها برای وزندهی به آرا یا فیلتر کردن مسیرها استفاده میشوند. در حالت آنلاین، تولید زمانی متوقف میشود که اعتماد به نفس زیر آستانه بیفتد.
نتایج کلیدی: عملکرد و کارایی
ارزیابی DeepConf در مجموعهدادهها و مدلهای مختلف نتایج چشمگیری داشته است:
مدل | مجموعه داده | Pass@1 Acc | Cons@512 Acc | DeepConf@512 Acc | توکنهای ذخیرهشده |
---|---|---|---|---|---|
GPT-OSS-120B | AIME 2025 | 91.8% | 97.0% | 99.9% | -84.7% |
DeepSeek-8B | AIME 2024 | 83.0% | 86.7% | 93.3% | -77.9% |
Qwen3-32B | AIME 2024 | 80.6% | 85.3% | 90.8% | -56.0% |
📌 نکات برجسته:
- افزایش عملکرد: بهبود تا 10٪ نسبت به رأیگیری اکثریت.
- کاهش هزینه: صرفهجویی 43 تا 85٪ در تعداد توکنها.
- پلاگین و پلی: تنها با ~50 خط کد قابل پیادهسازی.
- استقرار آسان: فقط نیازمند logprobs سطح توکن است.
ادغام ساده: حداقل کد، حداکثر تأثیر
پیادهسازی DeepConf ساده است:
- گسترش پردازشگر logprobs برای ردیابی اعتماد.
- افزودن بررسی توقف زودهنگام پیش از انتشار خروجی.
- عبور آستانههای اعتماد از طریق API.
این باعث میشود که هر سرویس سازگار با OpenAI بهراحتی DeepConf را فعال کند.
نتیجه
DeepConf از Meta AI یک جهش بزرگ در استدلال LLM است:
- دستیابی به دقت تقریباً کامل در وظایف سخت.
- کاهش چشمگیر هزینه محاسباتی.
- بدون نیاز به تغییرات معماری یا آموزش مجدد.
❓ سؤالات متداول (FAQ)
پرسش 1: چگونه DeepConf دقت و کارایی را در مقایسه با رأی اکثریت بهبود میبخشد؟
با اولویتبندی مسیرهای مطمئنتر، دقت تا 10٪ افزایش یافته و با توقف زودهنگام، مصرف توکن تا 85٪ کاهش یافته است.
پرسش 2: آیا میتوان از DeepConf با هر مدل زبان یا چارچوب استفاده کرد؟
بله. DeepConf مدل آگنوستیک است و بدون تغییر در معماری، روی مدلهای منبع باز و تجاری قابل اجراست.
پرسش 3: آیا DeepConf نیاز به آموزش مجدد یا دادههای خاص دارد؟
خیر. DeepConf تنها در زمان استنتاج کار میکند و به هیچ داده یا آموزش اضافی نیاز ندارد.