متا DeepConf را معرفی کرد: اولین روش هوش مصنوعی برای دستیابی به 99.9٪ در AIME 2025 با مدل‌های منبع باز با استفاده از GPT-OSS-120B

مدل‌های زبان بزرگ (LLM) استدلال هوش مصنوعی را متحول کرده‌اند، با تفکر موازی و روش‌های سازگاری خود که اغلب به عنوان پیشرفت‌های محوری ذکر می‌شوند. اما این تکنیک‌ها با یک چالش اساسی روبرو هستند: افزایش دقت در ازای هزینه محاسباتی بالا.

تیمی از محققان Meta AI و UCSD روش جدیدی به نام Deep Think with Confidence (DeepConf) معرفی کرده‌اند؛ رویکردی که این مبادله را تقریباً از بین می‌برد.

🔹 DeepConf موفق شده است در آزمون دشوار ریاضی AIME 2025 به دقت 99.9٪ دست یابد (با استفاده از مدل منبع باز GPT-OSS-120B)، در حالی‌که به 85٪ توکن کمتر نسبت به روش‌های موازی نیاز دارد.


چرا DeepConf؟

تفکر موازی (رأی اکثریت) استاندارد فعلی برای تقویت استدلال LLMهاست: چندین پاسخ تولید می‌شود و سپس متداول‌ترین انتخاب می‌شود. هرچند مؤثر است، اما مشکلاتی دارد:

  • بازده کمتر: دقت پس از حدی کاهش یا ثابت می‌شود.
  • هزینه بالا: تولید صدها یا هزاران مسیر محاسباتی برای هر پرسش زمان‌بر و پرهزینه است.

✅ DeepConf این مشکل را با بهره‌برداری از سیگنال اعتماد به نفس LLM حل می‌کند. این روش، مسیرهای ضعیف را به صورت پویا حذف کرده و تنها از مسیرهای مطمئن برای نتیجه‌گیری استفاده می‌کند.

مزایا:

  • مدل آگنوستیک (بدون نیاز به آموزش مجدد یا تنظیم پیچیده)
  • قابل اتصال به هر مدل یا چارچوب موجود
  • تغییرات کدی بسیار کم برای پیاده‌سازی

📄 منبع: Arxiv


DeepConf چگونه کار می‌کند؟ اعتماد به نفس به عنوان راهنما

DeepConf روش‌های نوینی برای اندازه‌گیری و استفاده از اعتماد به نفس معرفی می‌کند:

  • اعتماد به نفس توکن: میانگین احتمال منفی top-k برای هر توکن.
  • اعتماد گروهی: میانگین اعتماد در یک پنجره (مثلاً 2048 توکن).
  • اعتماد به نفس دم: تمرکز بر پایان مسیر استدلال.
  • کمترین اعتماد گروهی: شناسایی بخش‌های ضعیف استدلال.
  • اطمینان صدک پایین: تمرکز بر بدترین قسمت‌های مسیر.

این معیارها برای وزن‌دهی به آرا یا فیلتر کردن مسیرها استفاده می‌شوند. در حالت آنلاین، تولید زمانی متوقف می‌شود که اعتماد به نفس زیر آستانه بیفتد.

📄 جزئیات بیشتر


نتایج کلیدی: عملکرد و کارایی

ارزیابی DeepConf در مجموعه‌داده‌ها و مدل‌های مختلف نتایج چشمگیری داشته است:

مدلمجموعه دادهPass@1 AccCons@512 AccDeepConf@512 Accتوکن‌های ذخیره‌شده
GPT-OSS-120BAIME 202591.8%97.0%99.9%-84.7%
DeepSeek-8BAIME 202483.0%86.7%93.3%-77.9%
Qwen3-32BAIME 202480.6%85.3%90.8%-56.0%

📌 نکات برجسته:

  • افزایش عملکرد: بهبود تا 10٪ نسبت به رأی‌گیری اکثریت.
  • کاهش هزینه: صرفه‌جویی 43 تا 85٪ در تعداد توکن‌ها.
  • پلاگین و پلی: تنها با ~50 خط کد قابل پیاده‌سازی.
  • استقرار آسان: فقط نیازمند logprobs سطح توکن است.

ادغام ساده: حداقل کد، حداکثر تأثیر

پیاده‌سازی DeepConf ساده است:

  • گسترش پردازشگر logprobs برای ردیابی اعتماد.
  • افزودن بررسی توقف زودهنگام پیش از انتشار خروجی.
  • عبور آستانه‌های اعتماد از طریق API.

این باعث می‌شود که هر سرویس سازگار با OpenAI به‌راحتی DeepConf را فعال کند.


نتیجه

DeepConf از Meta AI یک جهش بزرگ در استدلال LLM است:

  • دستیابی به دقت تقریباً کامل در وظایف سخت.
  • کاهش چشمگیر هزینه محاسباتی.
  • بدون نیاز به تغییرات معماری یا آموزش مجدد.

❓ سؤالات متداول (FAQ)

پرسش 1: چگونه DeepConf دقت و کارایی را در مقایسه با رأی اکثریت بهبود می‌بخشد؟

با اولویت‌بندی مسیرهای مطمئن‌تر، دقت تا 10٪ افزایش یافته و با توقف زودهنگام، مصرف توکن تا 85٪ کاهش یافته است.

پرسش 2: آیا می‌توان از DeepConf با هر مدل زبان یا چارچوب استفاده کرد؟

بله. DeepConf مدل آگنوستیک است و بدون تغییر در معماری، روی مدل‌های منبع باز و تجاری قابل اجراست.

پرسش 3: آیا DeepConf نیاز به آموزش مجدد یا داده‌های خاص دارد؟

خیر. DeepConf تنها در زمان استنتاج کار می‌کند و به هیچ داده یا آموزش اضافی نیاز ندارد.