مدلهای زبانی بزرگ (LLMها) اغلب با یادگیری از ترجیحات و رتبهبندیهای انسانی بهبود مییابند. این فرآیند، که در آن یک مدل پاداش برای هدایت آموزش بیشتر مدل به کار میرود، توانایی LLMها را در تولید متنهای مفید و منسجم، به ویژه برای دستیارهای مکالمه مانند جیمینای، به طرز چشمگیری افزایش داده است.
اما مسیر دیگری برای گسترش مدلهای پاداش، فراتر از بازخورد ذهنی انسانی، پردازش دادههای عملیاتی خام و متنوع و استفاده از نتایج عددی مشاهدهشده به عنوان سیگنال پاداش است. این قابلیت میتواند درهایی را برای پیشبینی عملکرد زیرساختهای نرمافزاری، کارایی فرآیندهای صنعتی یا نتایج آزمایشهای علمی باز کند. اساساً، هدف این است که LLMها بتوانند رگرسیون (یعنی پیشبینی یک معیار y، با توجه به ورودی x) را انجام دهند.
پیش از این، روشهای رگرسیون سنتی بر ورودیهای جدولی تکیه داشتند؛ به این معنی که بردارهای عددی با طول ثابت باید در یک جدول واحد جمعآوری میشدند. اما تبدیل دادههای پیچیده و نامنظم دنیای واقعی (مانند فایلهای پیکربندی یا گزارشهای سیستم) به این فرمت جدولی، کاری پرزحمت و چالشبرانگیز است و با ظهور انواع جدید دادهها، فرآیند اغلب باید از ابتدا آغاز شود.
شبیهسازی سیستمهای بزرگ با مدلهای زبانی رگرسیون
در مقاله “پیشبینی عملکرد برای سیستمهای بزرگ از طریق رگرسیون متن به متن”، ما یک رویکرد ساده، عمومی و مقیاسپذیر را بر اساس کار قبلی خود در زمینه رگرسیون جهانی، با نام OmniPred، شرح میدهیم. این رویکرد به یک مدل زبانی رگرسیون (RLM) امکان میدهد تا نمایش رشتهای از ورودی (x) را بخواند و عدد خروجی (y) را به صورت یک رشته متنی ساختاریافته تولید کند. به عنوان مثال، وضعیت یک سیستم صنعتی – شامل تمام پیکربندیها، پارامترها و اطلاعات متنی آن – میتواند به عنوان یک رشته متنی نمایش داده شود، و RLM معیار عملکرد را به صورت یک رشته پیشبینی میکند.
RLM میتواند از قبل آموزش دیده باشد یا حتی به صورت تصادفی اولیه شود. هنگام انجام یک کار رگرسیون جدید، میتواند با استفاده از پیشبینی توکن بعدی از طریق تابع زیان متقاطع (cross-entropy loss) آموزش داده شود، که در آن x به عنوان پرامپت و y به عنوان هدف عمل میکند. این فرآیند آموزش، به مدل امکان میدهد تا روابط پیچیده بین ورودیهای متنی و نتایج عددی را بدون نیاز به مهندسی ویژگی دستی بیاموزد، که یک مزیت بزرگ نسبت به روشهای سنتی است.
این پارادایم جدید دارای مزایای متعددی است، از جمله اجتناب از مهندسی ویژگی یا نرمالسازی، قابلیت انطباق با تعداد کمی نمونه برای وظایف جدید (few-shot adaptation)، و تقریب جهانی توزیعهای احتمال خروجی. این ویژگیها RLM را به ابزاری قدرتمند و انعطافپذیر برای طیف وسیعی از مسائل رگرسیون تبدیل میکند. ما RLM را در زمینه پیشبینی کارایی منابع در Borg، زیرساخت محاسباتی در مقیاس بزرگ گوگل برای مدیریت کلاسترها، به کار بردیم. این کاربرد عملی نشاندهنده قابلیتهای RLM در محیطهای پیچیده و واقعی است. همچنین، ما یک کتابخانه متنباز را نیز برای جامعه پژوهشی منتشر کردهایم.
پیشبینی کارایی در کلاسترهای محاسباتی گوگل
پیشبینی “میلیونها دستورالعمل در ثانیه به ازای هر واحد محاسباتی گوگل” (MIPS per GCU) یک معیار کلیدی کارایی برای سیستم بورگ است. پیشبینی دقیق MIPS در هر GCU برای پیکربندیها به منظور بهینهسازی تخصیص منابع و زمانبندی در هزاران ماشین حیاتی است. این دقت به گوگل اجازه میدهد تا از منابع خود به بهترین شکل ممکن استفاده کند و عملکرد برنامهها را به حداکثر برساند.
ما از روش رگرسیون متن به متن برای پیشبینی MIPS در هر GCU از دوقلوی دیجیتال بورگ گوگل استفاده کردیم؛ دوقلوی دیجیتال یک چارچوب پیچیده بکتستینگ است که وضعیت کلاسترهای واقعی را شبیهسازی میکند. هدف نهایی، پیشبینی نتیجه عددی یک الگوریتم تخصصی بستهبندی سطل برای تخصیص کارآمد وظایف به منابع است.
رویکرد ما از یک RLM با یک رمزگذار-رمزگشای دو لایه و ۶۰ میلیون پارامتر استفاده میکند. برای آموزش، ما مقادیر زیادی داده از چندین وظیفه رگرسیون با جفتهای (x,y) جمعآوری میکنیم. وضعیت سیستم (x) با استفاده از فرمتهای YAML یا JSON نمایش داده میشود و حاوی اطلاعات دقیق درباره کارهای فعال، ردپاهای اجرایی و فراداده متنی است. از آنجا که RLM دارای محدودیت ۸ هزار توکن است، ما دادهها را با مرتبسازی مجدد مهمترین ویژگیها در ابتدای رشته متنی پیشپردازش میکنیم تا اطلاعات کلیدی حفظ شود.
ما RLM را روی دادههای پیشپردازش شده آموزش اولیه میدهیم تا مدل بتواند با استفاده از بهروزرسانیهای گرادیانی با تعداد کمی نمونه، به راحتی با انواع جدید دادههای ورودی از وظایف جدید سازگار شود. از آنجا که اعداد به عنوان متن نمایش داده میشوند، میتوانند بدون نیاز به نرمالسازی به همان صورت نمایش داده شوند. همچنین، نمونهبرداری چندین بار از خروجیهای رمزگشایی شده، به طور موثری چگالی مقادیر y را نیز به تصویر میکشد، که برای مدلسازی شرایط تصادفی یا نویزدار بسیار مهم است.
روش ما از RLMs برای رگرسیون مستقیم معیارهای عملکرد عددی (y) از وضعیتهای پیچیده سیستم که به صورت متنی (x) نمایش داده شدهاند، استفاده میکند؛ مانند وضعیتهای کلاسترهای محاسباتی گوگل در میان بارهای کاری متنوع (جیمیل، یوتیوب، مپس و غیره) و سختافزارهای مختلف (CPUها و TPUها).
در ادامه، سه قابلیت مهم RLMها را که به عنوان اجزای مهم برای رگرسیون جهانی عمل میکنند، نشان میدهیم:
قابلیت ثبت چگالی
با نمونهبرداری چندین بار از خروجی RLM، میتوانیم توزیعهای احتمال (یعنی چگالیها) مقادیر y را به طرز چشمگیری حتی در طول مدتهای زمانی مختلف به خوبی ثبت کنیم. این تخمین چگالی فراتر از پیشبینیهای نقطهای ساده است؛ با مدلسازی کامل توزیع نتایج ممکن، ما بینشی نسبت به نوسانات ذاتی و دامنه بالقوه مقادیر MIPS در هر GCU به دست میآوریم.
این قابلیت به ما امکان میدهد تا هم عدم قطعیت الئاتریک (تصادفی بودن ذاتی در سیستم، مانند تقاضای بار تصادفی) را ثبت کنیم و هم به طور بالقوه شاخصهای معرفتی (عدم قطعیت ناشی از مشاهدات محدود یا ویژگیها) را شناسایی کنیم، که در نهایت درک کاملتری از رفتار سیستم به ما میدهد.
درک کامل چگالی احتمال به برنامهریزی بهتر و تصمیمگیریهای آگاهانهتر در مواجهه با عدم قطعیت کمک میکند. این قابلیت به اپراتورهای سیستم امکان میدهد تا نه تنها مقدار مورد انتظار را بدانند، بلکه خطر و نوسانات مرتبط با آن پیشبینی را نیز در نظر بگیرند.
RLM تخمینهای چگالی را ارائه میدهد که به طرز چشمگیری با توزیع دستورالعمل در ثانیه هدف در طول مدتهای زمانی مختلف همخوانی دارد، همانطور که توسط منحنیهای چگالی رگرسور (سهبعدی) و نمودار تخمین چگالی کرنل (KDE) هدف (صفحه XY) نشان داده شده است.
تعیین کمیت عدم قطعیت
عدم قطعیت پیشبینی RLM با خطای مربعات باقیمانده همبستگی دارد، که به ما امکان میدهد اعتماد مدل به پیشبینیهای خود را تعیین کنیم. هنگامی که مدل نامطمئن است، توزیع پیشبینی شده گستردهتر میشود و نشان میدهد که باید با احتیاط بیشتری به پیشبینیها نگاه کرد.
این ویژگی به ما کمک میکند تا درک کنیم چه زمانی میتوانیم به طور کامل به پیشبینیهای RLM اعتماد کنیم و چه زمانی ممکن است نیاز به استفاده از روشهای جایگزین و دقیقتر اما کندتر، مانند شبیهسازیهای بستهبندی سطل، برای مدیریت کلاسترهای محاسباتی داشته باشیم. این قابلیت هوشمندانه، تعادلی بین سرعت و دقت برقرار میکند، که برای سیستمهای مقیاسپذیر و حیاتی مانند بورگ بسیار اهمیت دارد.
این کار همچنین به مهندسان سیستم اجازه میدهد تا درک بهتری از محدودیتهای مدل در سناریوهای خاص داشته باشند و در مواقع لزوم، با دخالت انسانی یا اعمال قوانین سختگیرانهتر، از بروز خطاهای احتمالی جلوگیری کنند. این شفافیت در مورد عدم قطعیت مدل، برای استقرار آن در محیطهای عملیاتی حیاتی است.
چپ: عدم قطعیت پیشبینی با خطای رگرسور همبستگی دارد. راست: نمودار KDE پیشبینیهای RLM به طور موثری نقاط هدف را ثبت میکنند.
رگرسیون تقریباً بینقص و کمهزینه
فراتر از ثبت چگالی و تعیین کمیت عدم قطعیت، RLM ما یک مدل کممصرف و کارآمد است که رگرسیون نقطهای بسیار دقیقی را در مجموعهای متنوع از وظایف انجام میدهد. ما نمودارهای پراکندگی را با همبستگی رتبهای اسپیرمن تقریباً بینقص ارائه میدهیم، که نشاندهنده همخوانی قوی بین رتبهبندیهای MIPS در هر GCU پیشبینیشده و واقعی است. این بدان معناست که مدل نه تنها مقادیر را با دقت بالایی پیشبینی میکند، بلکه ترتیب و اولویتبندی عملکردها را نیز به درستی تشخیص میدهد.
این مدل میتواند با تعداد کمی نمونه به وظایف پیشبینی متنوع در سرورهای متمایز سازگار شود و به عنوان یک پیشبینیکننده جهانی و سازگار برای سیستم بورگ عمل کند. این قابلیت “یادگیری با تعداد نمونههای کم” (few-shot learning) به معنای آن است که RLM میتواند به سرعت به سناریوهای جدید و پیکربندیهای سختافزاری ناشناخته عادت کند، بدون نیاز به جمعآوری حجم عظیمی از دادههای جدید برای هر وظیفه.
در نتیجه، کارایی و دقت بالای RLM آن را به ابزری قدرتمند برای شبیهسازی و بهینهسازی سیستمهای بزرگ تبدیل میکند. توانایی آن در ارائه پیشبینیهای دقیق با منابع محاسباتی کم، آن را به یک راهحل جذاب برای کاربردهای صنعتی و تحقیقاتی تبدیل کرده است، که در نهایت به بهرهوری بیشتر و کاهش هزینهها کمک میکند.
نمودار پراکندگی بین پیشبینی RLM (محور x) و مقدار واقعی هدف y (محور y) در چندین وظیفه رگرسیون. راهنما همبستگی رتبهای اسپیرمن (⍴) را نمایش میدهد.
منابع و مسیرهای آینده
ما نشان میدهیم که RLM رمزگذار-رمزگشای نسبتاً ساده ما به طور موثری بر روی ورودیهای غنی و غیرجدولی آموزش میبیند تا پیشبینیهای بسیار دقیق و سازگاری کارآمد با وظایف جدید را ارائه دهد. این رویکرد قوی و مقیاسپذیر، نتایج متریک را مستقیماً از متن خام پیشبینی میکند و به طور قابل توجهی وابستگی به مهندسی ویژگی دستی را کاهش میدهد. این امر راه را برای شبیهسازهای جهانی سیستم و مکانیسمهای پاداش پیچیده هموار میکند.
با مدلسازی بازخوردهای عددی متنوع، RLMها “تجربه” را به گونهای عملیاتی میکنند که پیشرفتهای آینده در یادگیری تقویتی برای مدلهای زبانی را امکانپذیر میسازد. این به معنای آن است که LLMها میتوانند نه تنها از بازخورد انسانی، بلکه از نتایج عملکرد سیستمها، دادههای حسگرها و هر نوع بازخورد عددی دیگری که میتواند به صورت متنی نمایش داده شود، بیاموزند. این قابلیت پتانسیل عظیمی برای بهبود هوش مصنوعی در حوزههایی مانند بهینهسازی صنعتی، طراحی روباتیک و حتی تحقیقات علمی دارد.
به طور کلی، RLMها یک گام مهم به سوی ساخت مدلهای هوش مصنوعی چندمنظوره و سازگار هستند که میتوانند با دادههای نامنظم و پویا به طور موثر کار کنند. این پیشرفتها میتوانند به کاربردهای عملی گستردهای در صنایع مختلف منجر شوند و فرآیندهای تصمیمگیری را به طور قابل توجهی بهبود بخشند.
سپاسگزاری
این پژوهش توسط اعضای اصلی یاش آخائوری (دانشگاه کرنل و گوگل ریسرچ)، برایان لواندوفسکی (پلتفرمهای گوگل) و شینگیو (ریچارد) سانگ (گوگل دیپمایند) انجام شده است، با همکاری چنگهسی لین، آدریان ریس، گرنت سی. فوربز، آریسا وونگپانیچ، بنگدینگ یانگ، محمد اس. عبدالفتاح، و ساجی پرل.
ما از همکاران قبلی در طول این مسیر تحقیقاتی گسترده تشکر میکنیم: اسکار لی، چانسو لی، دایی پنگ، یوتیان چن، تونگ نگوین، کییی ژانگ، یورگ بورنشاین، یینگجیه میائو، اریک تانگ، دارا بحری، و منگپو فوتیمتانا. ما از میشال لوکاسیک، یوری آلون، امیر یزدانبخش، شائو-هوا سان، کوانگهوئی لی، زی وانگ، شینیون چن، جییون ها، آویرال کومار، جاناتان لای، که شیو، رونگشی تان، و دیوید اسمالینگ برای بحثهای مفید سپاسگزاریم. همچنین از النا بوگدانوف برای طراحی انیمیشن این پست تشکر میکنیم. در نهایت، از ییلی ژنگ، سفین هودا، آصف آهارونی، سریناد بوجاناپالی، دیوید لو، مارتین دیکسون، دانیل گولوین، دنی ژو، کلر کوی، اد چی، و بنوا شیلینگز برای حمایت مداوم سپاسگزاریم.
منبع: Google Research Blog