چارچوب جدیدی که به عامل‌های LLM اجازه می‌دهد از تجربه بیاموزند -بدون نیاز به فاین‌تیونینگ

یک الگوی یادگیری جدید که توسط دانشگاه کالج لندن (UCL) و آزمایشگاه Ark Huawei Noah توسعه یافته است، عوامل مدل زبان بزرگ (LLM) را قادر می سازد تا به طور پویا با محیط خود سازگار شوند بدون اینکه مدل زبان زیربنایی را تنظیم کنند. این روش به نمایندگان اجازه می دهد تا با استفاده از یک سیستم حافظه ساختاریافته که با جمع آوری تجربه عامل، خود را به روز می کند، عملکرد خود را به طور مداوم بهبود بخشند.

اجرای این پارادایم، که محققان آن را یادگاری می نامند، نمرات بالایی را در معیارهای کلیدی برای تحقیقات عمیق و وظایف استدلال پیچیده و چند مرحله ای به دست آورده است. برای شرکت ها، این یک مسیر مقیاس پذیر و کارآمد برای توسعه عوامل LLM عمومی ارائه می دهد که قادر به یادگیری مداوم و بلادرنگ بدون هزینه بالا و خرابی مرتبط با روش های آموزشی سنتی هستند.

محدودیت های نمایندگان فعلی LLM

نمایندگان فعلی LLM معمولا یکی از دو الگوی توسعه را دنبال می کنند که هر کدام محدودیت های قابل توجهی برای برنامه های سازمانی دارند. رویکرد اول شامل ساخت چارچوب های تخصصی با گردش کار ثابت و کدگذاری شده است. در حالی که این عوامل برای وظایف محدود موثر هستند، سفت و سخت هستند و نمی توانند با موقعیت های جدید سازگار شوند یا پس از استقرار اطلاعات جدیدی را در خود جای دهند.

پارادایم دوم شامل به روز رسانی خود LLM از طریق از طریق فاین‌تیونینگ نظارتی (supervised fine‐tuning) یا یادگیری تقویتی (reinforcement learning) است. این امکان رفتار انعطاف پذیرتر را فراهم می کند، اما هزینه محاسباتی بالایی دارد و به داده های گسترده ای نیاز دارد. به گفته نویسندگان مقاله، “این رویکردها برای سازگاری مداوم و یادگیری آنلاین ناکارآمد هستند، برای عوامل مستقر در سناریوهای باز غیرعملی هستند.”

جون وانگ، استاد علوم کامپیوتر در UCL و یکی از نویسندگان مقاله، استدلال می کند که مسئله تنظیم دقیق فراتر از هزینه است. او خاطرنشان می کند که تغییر پارامترهای یک مدل می تواند “دانش به دست آمده در طول پیش آموزش را به خطر بیندازد.” این خطر تخریب قابلیت های اصلی مدل، انگیزه اصلی کار آنها است.

یک عامل LLM ایده آل باید بتواند رفتار خود را در حین تعامل با محیط خود اما بدون هزینه های آموزش مجدد مدل زیربنایی به روز کند.

یک الگوی جدید: یادگیری مبتنی بر حافظه

محققان با الهام از حافظه انسانی، یک چارچوب یادگیری مبتنی بر حافظه را پیشنهاد می کنند که سازگاری مداوم را بدون تغییر LLM امکان پذیر می کند. به جای تنظیم دقیق مدل پایه، عوامل از یک حافظه خارجی برای ذخیره تجربیات گذشته استفاده می کنند. هنگامی که با یک کار جدید مواجه می شود، نماینده از موقعیت های مشابه گذشته برای هدایت تصمیم گیری خود استفاده می کند.

این فرآیند بر اساس فرآیند تصمیم گیری مارکوف (MDP)، یک چارچوب کلاسیک در هوش مصنوعی برای آموزش یک عامل برای تصمیم گیری بهینه است. در یک MDP استاندارد، یک عامل وضعیت فعلی محیط خود را مشاهده می کند، اقدامی را انتخاب می کند و پاداش یا جریمه دریافت می کند. هدف آن یادگیری استراتژی است که کل پاداش های آن را در طول زمان به حداکثر برساند.

محققان رویکرد جدید خود را به عنوان یک MDP تقویت شده با حافظه (M-MDP) رسمی می کنند، که این چارچوب را با اجازه دادن به عامل برای در نظر گرفتن نه تنها وضعیت فعلی و اقدامات بالقوه خود، بلکه حافظه ای غنی از رویدادهای گذشته تقویت می کند.

عامل از تکنیکی به نام استدلال مبتنی بر مورد (CBR) استفاده می کند که راه حل ها را بر اساس تجربه خود با مشکلات قبلی بازیابی و تطبیق می دهد. به عنوان مثال، یک عامل تحقیقاتی که یک کار مبتنی بر وب را با موفقیت به پایان رسانده است، می تواند از آن تجربه برای حل یک کار جدید و ساختاری مشابه استفاده کند که قبلا هرگز ندیده است. محققان می نویسند: «روش ما مسیر جدیدی را برای یادگیری مستمر برای عوامل تحقیقاتی عمیق ارائه می دهد – کارآمد، قابل تعمیم و الهام گرفته از نحوه یادگیری انسان.

Memento چگونه کار می کند

محققان این پارادایم را در عاملی به نام Memento پیاده سازی کردند که برای وظایف تحقیقاتی عمیق طراحی شده است که به عوامل نیاز به تعامل با محیط خود، استفاده از ابزارهای خارجی، بازیابی اطلاعات و پردازش داده های متنوع برای استدلال پویا دارد.

وانگ به VentureBeat گفت: “ما خواستار یک رویکرد جدید هستیم که امکان سازگاری عامل را بدون تغییر پارامترهای LLM فراهم می کند.Memento قصد دارد این انقلاب را آغاز کند.”

این سیستم دارای سه جزء اصلی است: یک برنامه ریز و یک مجری مجهز به ابزار که در یک حلقه متناوب برای تکمیل وظایف کار می کنند، و یک “بانک پرونده” در حال رشد که تجربیات گذشته را ذخیره می کند.

در مرحله برنامه ریزی، برنامه ریز (که توسط یک عامل CBR مبتنی بر LLM طراحی شده است) وظیفه ای را دریافت می کند و از بانک پرونده برای تجربیات مرتبط گذشته پرس و جو می کند. موارد بازیابی شده با دستورالعمل وظیفه فعلی ترکیب می شوند تا یک اعلان تشکیل دهند، که LLM زیربنایی را راهنمایی می کند تا کار را به وظایف فرعی تقسیم کند و یک برنامه گام به گام ایجاد کند. این طرح به مجری منتقل می شود که یک LLM همه منظوره آن را اختیارات می دهد.

همانطور که مجری از طریق هر کار فرعی کار می کند، یک ماژول “حافظه فرعی” پیشرفت و نتایج را ردیابی می کند. پس از هر مرحله، برنامه ریز تاریخچه اجرا را بررسی می کند تا ارزیابی کند که آیا کار کامل شده است یا خیر. در غیر این صورت، طرح را بر اساس زمینه به روز شده دوباره فرموله می کند. پس از اتمام کار، تجربه در بانک پرونده ذخیره می شود.

مجری از پروتکل زمینه مدل (MCP) استفاده می کند، یک رابط استاندارد که به آن اجازه می دهد تا به طور انعطاف پذیر با طیف گسترده ای از ابزارهای خارجی ارتباط برقرار کند. این شامل موتورهای جستجو، خزنده های وب و مؤلفه هایی برای پردازش اطلاعات چند وجهی مانند ویدیو، تصاویر و فرمت های مختلف فایل است.

بانک کیس به خودی خود پویا است و در دو نوع عرضه می شود. نسخه غیر پارامتریک موارد را بر اساس شباهت معنایی بازیابی می کند، روشی که وانگ آن را به “فیلتر کردن مشارکتی یا یادگیری مبتنی بر شباهت، که در آن موارد موفق از گذشته راه حل هایی را برای موقعیت های فعلی اطلاع رسانی می کند” تشبیه می کند.

نسخه پارامتریک پیشرفته تر از یادگیری تقویتی با یک شبکه عصبی سبک وزن برای رسیدگی به یک چالش رایج در دنیای واقعی استفاده می کند: بازخورد پراکنده. برای کارهایی که سیگنال های موفقیت یا شکست نادر هستند، این روش به بازخورد کمک می کند تا در مراحل مختلف منتشر شود و اطمینان حاصل کند که عامل در طول زمان به طور قابل اعتماد یاد می گیرد. وانگ از این به عنوان یک “رویکرد غیر پارامتری به معنای گسترده تر” یاد می کند، زیرا “فضای اضافی را برای عوامل LLM فراهم می کند تا بدون تغییر پارامترهای اساسی LLM” یاد بگیرند.

یادگاری در عمل

در آزمایشات، محققان از GPT-4.1 به عنوان برنامه ریز ستون فقرات و مدل های دیگر مانند o3 و o4-mini برای تامین قدرت مجری استفاده کردند. Memento عملکرد قوی را در چندین معیار چالش برانگیز نشان داد.

در مجموعه داده DeepResearcher ، که تحقیقات وب بلادرنگ و استدلال چند هاپ را آزمایش می کند ، Memento عملکرد یک زنجیره فکری (CoT) را با خط پایه تولید بازیابی تقویت شده (RAG) تقریبا دو برابر کرد و به نمره 66.6٪ F1 دست یافت.
در معیار GAIA، که برنامه ریزی افق بلند و استفاده از ابزار را ارزیابی می کند، Memento رتبه برتر را در مجموعه اعتبارسنجی و چهارم در مجموعه آزمایشی به دست آورد و از اکثر چارچوب های عامل منبع باز موجود بهتر عمل کرد.
در آخرین آزمون بشریت (HLE)، آزمونی از استدلال پیچیده در حوزه های تخصصی، Memento در رتبه دوم قرار گرفت و نزدیک به GPT-5 و بهتر از مدل هایی مانند Gemini 2.5 Pro عمل کرد.
در SimpleQA، که برای اندازه گیری دقت واقعی و استحکام در برابر توهم طراحی شده است، Memento به بالاترین دقت در بین تمام خطوط پایه دست یافت.

پایه ای جدید برای یادگیری عامل

در حالی که Memento از شکلی از بازیابی استفاده می کند، وانگ تأکید می کند که چارچوب اصلی آن، M-MDP، یک گام مهم فراتر از RAG استاندارد است.

او توضیح می دهد: «در حالی که رویکردهای مبتنی بر بازیابی یا RAG یادگیری و تعمیم را محدود می کند، ترکیب یادگیری تقویتی پارامترسازی حافظه را امکان پذیر می کند و امکان تعمیم مستقیم از حافظه را فراهم می کند.

این باعث می شود که قابلیت یادگیری Memento “متعامد با تحقیقات در مورد خود LLM” باشد. به عبارت دیگر، این چارچوب با پیشرفت در مدل های پایه رقابت نمی کند، بلکه برای استفاده از آنها طراحی شده است. همانطور که LLM ها قدرتمندتر می شوند، عوامل ساخته شده بر روی چارچوب M-MDP به یادگیرندگان موثرتری تبدیل می شوند. این رویکرد همچنین نحوه ساخت و استقرار عوامل توسط تیم ها را دوباره تعریف می کند و چیزی را ایجاد می کند که وانگ آن را “الگوی جدیدی برای مهندسی سریع و یادگیری در زمینه” می نامد که “یادگیرندگان ماشین و مهندسان نرم افزار را بسیار نزدیک تر می کند.”

برای شرکت ها، رویکرد Memento قابل توجه است. این نیاز به بازآموزی LLM گران قیمت و وقت گیر را از بین می برد و به نمایندگان اجازه می دهد تا در حین پرواز یاد بگیرند. این پارادایم را می توان با مدل های منبع باز اختصاصی یا خود میزبان موجود ادغام کرد و می تواند از طریق پروتکل انعطاف پذیر خود به ابزارهای سازمانی سفارشی و منابع داده داخلی متصل شود. این امکان توسعه سیستم های هوش مصنوعی را فراهم می کند که هم مقرون به صرفه هستند و هم بسیار سازگار با نیازهای خاص کسب و کار هستند.

با نگاهی به آینده، وانگ «جمع آوری داده ها» را به عنوان بزرگترین گلوگاه ایجاد کارگران هوش مصنوعی واقعا مستقل شناسایی می کند. نمایندگان باید بتوانند با محیط خود تعامل داشته باشند تا بازخورد لازم برای اصلاح رفتار خود را دریافت کنند. او پیشنهاد می کند که مرز بعدی امکان “اکتشاف فعال” است – توانایی یک عامل برای کاوش در محیط خود به طور مستقل، ناشی از نیاز یا حتی کنجکاوی. با وجود چارچوب های اساسی مانند Memento، مسیر به سمت چنین سیستم های خودمختاری روشن تر می شود.

محدودیت های نمایندگان فعلی LLM

یک الگوی جدید: یادگیری مبتنی بر حافظه

Memento چگونه کار می کند

یادگاری در عمل

پایه ای جدید برای یادگیری عامل

Related Posts