مدلهای زبان بزرگ (LLM) غالباً با یادگیری از ترجیحات و رتبهبندیهای انسانی بهبود مییابند. این فرآیند حیاتی شامل آموزش یک مدل پاداش است که مجموعهای از ورودیها و پاسخها را دریافت میکند و سپس برای هدایت و بهینهسازی فرآیند آموزش مدل در مراحل بعدی مورد استفاده قرار میگیرد. این رویکرد که بر بازخورد ذهنی انسانی تکیه دارد، به طور چشمگیری توانایی LLMها را در تولید متنهایی که هم مفید، هم بیضرر و هم از نظر منطقی منسجم هستند، ارتقا بخشیده است. این پیشرفت بهویژه برای توسعه دستیارهای مکالمهای پیشرفته (مانند جمینی) نقش تحولآفرینی ایفا کرده است و به آنها امکان داده تا درک عمیقتری از نیازهای کاربران داشته باشند و پاسخهای مرتبطتری ارائه دهند.
علاوه بر این، یک مسیر دیگر برای گسترش قابلیتهای مدل پاداش فراتر از صرف ذهنیت انسانی وجود دارد: پردازش دادههای عملیاتی خام و متنوع. در این رویکرد، نتایج عددی مشاهدهشده از سیستمهای واقعی به عنوان یک سیگنال پاداش تلقی میشوند. این قابلیت جدید میتواند درهای نوینی را برای کاربردهایی نظیر پیشبینی عملکرد زیرساختهای نرمافزاری عظیم، ارزیابی دقیق کارایی فرآیندهای صنعتی پیچیده، یا حتی پیشبینی نتایج آزمایشهای علمی پیشرفته باز کند. در هسته این ایده، هدف ما توانمندسازی LLMها برای انجام رگرسیون است؛ به عبارت دیگر، پیشبینی یک معیار عددی y، با توجه به یک ورودی مشخص x.
در گذشته، روشهای رگرسیون سنتی به شدت به ورودیهای جدولی (tabular) وابسته بودند. این نوع ورودیها شامل بردارهای عددی با طول ثابت هستند که میتوانند به راحتی به صورت یک جدول واحد جمعآوری و تحلیل شوند. با این حال، تبدیل دادههای پیچیده، بدون ساختار و ناهمگون به فرمت جدولی میتواند فرآیندی بسیار پرزحمت و زمانبر باشد. علاوه بر این، تنوع و ماهیت پویای دادههای دنیای واقعی، مانند فایلهای پیکربندی پیچیده سیستم، لاگهای عملیاتی، و الگوهای سختافزاری یا بارهای کاری که دائماً در حال تغییر هستند، این وظیفه را به مراتب چالشبرانگیزتر میکند. یکی از مشکلات اساسی این رویکرد این است که با ظهور انواع دادههای جدید یا تغییر ساختار دادههای موجود، کل فرآیند مهندسی ویژگی (feature engineering) اغلب باید از ابتدا آغاز شود که منجر به ناکارآمدی و افزایش هزینهها میشود.
در مقاله تحقیقاتی ما با عنوان «پیشبینی عملکرد برای سیستمهای بزرگ از طریق رگرسیون متن به متن»، ما یک رویکرد ساده، عمومی و در عین حال بسیار مقیاسپذیر را توصیف میکنیم. این رویکرد بر اساس کار قبلی ما در زمینه رگرسیون جهانی، با نام OmniPred، بنا شده است. هسته این رویکرد، یک مدل زبان رگرسیون (RLM) است که قادر است یک نمایش رشتهای از ورودی (x) را بخواند و سپس نتیجه عددی (y) را به صورت یک رشته متنی ساختاریافته خروجی دهد. به عنوان مثال، ما میتوانیم وضعیت پیچیده یک سیستم صنعتی – شامل تمام تنظیمات پیکربندی، پارامترهای عملیاتی، و اطلاعات متنی مرتبط – را به عنوان یک رشته متنی واحد و جامع نمایش دهیم. سپس، RLM با تحلیل این رشته، معیار عملکرد (y) مربوطه را به صورت یک رشته عددی تولید میکند.
پیشبینی کارایی در خوشههای محاسباتی گوگل
مدل RLM میتواند از قبل آموزش دیده باشد یا حتی با وزنهای تصادفی مقداردهی اولیه شود. نکته مهم این است که هنگام مواجهه با یک کار رگرسیون جدید، میتواند با استفاده از پیشبینی توکن بعدی از طریق loss cross-entropy به طور موثر آموزش داده شود؛ در این حالت، (x) به عنوان ورودی (prompt) و (y) به عنوان خروجی هدف (target) عمل میکند. ما در مقاله خود توضیح میدهیم که چگونه این پارادایم جدید چندین مزیت قابل توجه را به همراه دارد. از جمله این مزایا میتوان به اجتناب از فرآیند پرزحمت مهندسی ویژگی یا نرمالسازی دادهها، قابلیت انطباق سریع مدل با وظایف جدید با استفاده از دادههای کم (few-shot adaptation)، و توانایی تقریب جهانی توزیعهای احتمال خروجی اشاره کرد. ما این مدل RLM را در زمینه پیشبینی کارایی منابع در Borg به کار بردیم، که زیرساخت محاسباتی در مقیاس بزرگ گوگل برای مدیریت خوشه است.
یکی از وظایف حیاتی در سیستم Borg گوگل، پیشبینی دقیق میلیونها دستورالعمل در ثانیه به ازای واحد محاسباتی گوگل (MIPS per GCU) است. این معیار، یک شاخص کلیدی برای سنجش کارایی سیستم محسوب میشود. پیشبینی دقیق MIPS per GCU برای پیکربندیهای مختلف، برای بهینهسازی تخصیص منابع و زمانبندی وظایف در هزاران ماشین محاسباتی حیاتی است. ما برای حل این چالش، روش رگرسیون متن به متن خود را برای پیشبینی MIPS per GCU دوقلوی دیجیتال Borg گوگل به کار بردیم. این دوقلوی دیجیتال، یک چارچوب پسآزمایی (backtesting) پیچیده است که قادر به تکرار دقیق وضعیت خوشههای واقعی و شبیهسازی رفتار آنها در سناریوهای مختلف است. هدف نهایی، پیشبینی نتیجه عددی یک الگوریتم بستهبندی سطل تخصصی است که برای تخصیص کارآمد و بهینه وظایف به منابع موجود در سیستم Borg استفاده میشود.
رویکرد ما از یک مدل RLM استفاده میکند که surprisinglyly تنها به یک رمزگذار-رمزگشای دو لایه با ۶۰ میلیون پارامتر نیاز دارد. این اندازه کوچک مدل، آن را برای استقرار و اجرای کارآمد مناسب میسازد. برای آموزش این مدل، ما مقادیر زیادی از دادهها را از چندین وظیفه رگرسیون مختلف جمعآوری کردیم. این دادهها شامل جفتهای (x,y) هستند که در آن x نشاندهنده وضعیت سیستم است. وضعیت سیستم با استفاده از فرمتهای متنی ساختاریافته مانند YAML یا JSON نمایش داده شده و حاوی اطلاعات جامعی نظیر لیستهای مشاغل فعال، ردیابیهای اجرا، و متادیتای متنی مرتبط است.
هر نقطه داده (x) در حالت کامل میتواند تا ۱ میلیون توکن را شامل شود، اگر تمام ویژگیهای جزئی و اطلاعات دقیق مربوط به آن نقطه داده را در بر گیرد. با توجه به اینکه RLM دارای محدودیت ۸ هزار توکن است، ما یک مرحله پیشپردازش دادهها را انجام دادیم. در این مرحله، دادهها را با مرتبسازی مجدد و قرار دادن مهمترین ویژگیها در ابتدای رشته متنی سازماندهی میکنیم. به این ترتیب، هنگامی که رشته برای مطابقت با محدودیت توکن کوتاه میشود (truncation)، تنها ویژگیهای کمتر مهم از بین میروند و اطلاعات حیاتی برای پیشبینی حفظ میشوند. این روش تضمین میکند که مدل حتی با محدودیت توکن، به دادههای مرتبط و با کیفیت بالا دسترسی دارد. ما RLM را بر روی دادههای پیشپردازش شده از پیش آموزش میدهیم تا مدل بتواند با استفاده از بهروزرسانیهای گرادیان چند مرحلهای، به راحتی با انواع جدید دادههای ورودی از وظایف جدید سازگار شود.
روش ما از RLMها برای رگرسیون مستقیم معیارهای عملکرد عددی (y) از حالات پیچیده سیستم که به صورت متنی نمایش داده شدهاند (x)، مانند خوشههای محاسباتی گوگل در میان بارهای کاری متنوع (GMail، YouTube، Maps و غیره) و سختافزار (CPU و TPU) استفاده میکند.
قابلیتهای کلیدی مدلهای زبان رگرسیون
در ادامه، سه قابلیت مهم مدلهای زبان رگرسیون (RLM) را نشان میدهیم که به عنوان مولفههای حیاتی برای دستیابی به رگرسیون جهانی عمل میکنند و تواناییهای آنها را فراتر از مدلهای سنتی گسترش میدهند. از آنجایی که اعداد در این رویکرد به صورت متن نمایش داده میشوند، میتوانند به همان صورت (as-is) و بدون نیاز به هیچگونه نرمالسازی پیچیده یا مهندسی ویژگی دستی مورد استفاده قرار گیرند. این ویژگی به طور چشمگیری فرآیند آمادهسازی دادهها را ساده میکند و زمان توسعه را کاهش میدهد. علاوه بر این، اگر چندین بار خروجیهای رمزگشایی شده از مدل را نمونهبرداری کنیم، این امر به طور موثری به مدل امکان میدهد تا چگالی مقادیر y را نیز ثبت کند. این قابلیت برای مدلسازی و درک موقعیتهای تصادفی یا دارای نویز، که در سیستمهای پیچیده واقعی بسیار رایج هستند، از اهمیت بالایی برخوردار است.
الگوبرداری از توزیع چگالی
یکی از قابلیتهای برجسته RLM، توانایی آن در ثبت دقیق توزیعهای احتمال (یعنی چگالیها) مقادیر y با نمونهبرداری چند باره از خروجی مدل است. این قابلیت حتی در طول زمانهای مختلف نیز به طرز چشمگیری دقیق عمل میکند. این توانایی تخمین چگالی، بسیار مفید است زیرا فراتر از صرفاً پیشبینیهای نقطهای (point predictions) میرود که فقط یک مقدار واحد را ارائه میدهند. با مدلسازی توزیع کامل نتایج ممکن، ما به بینشی عمیقتر در مورد تغییرپذیری ذاتی و دامنه پتانسیل مقادیر MIPS per GCU دست مییابیم. این امر به ما کمک میکند تا نوسانات و عدم قطعیتهای موجود در عملکرد سیستم را بهتر درک کنیم و تصمیمات آگاهانهتری بگیریم.
این قابلیت به ما امکان میدهد تا هر دو نوع عدم قطعیت را به طور موثر ثبت کنیم: اولاً، عدم قطعیت aleatoric که به تصادفی بودن ذاتی در سیستم اشاره دارد (مانند نوسانات تصادفی در تقاضای بار کاری) و ثانیاً، به طور بالقوه نشانگرهای معرفتی (epistemic indicators) را شناسایی کنیم که نشاندهنده عدم قطعیت ناشی از مشاهدات محدود یا ویژگیهای ناکافی در دادهها هستند. این تمایز حیاتی است، زیرا به ما درک کاملتری از رفتار سیستم ارائه میدهد. با درک این دو بعد از عدم قطعیت، میتوانیم مدلهای قویتری بسازیم که هم واقعیتهای محیطی را در نظر میگیرند و هم نقاط ضعف دادههای آموزشی را مشخص میکنند، که در نهایت به بهبود قابلیت اطمینان پیشبینیها منجر میشود.
RLM تخمینهای چگالی را ارائه میدهد که به طرز چشمگیری با توزیع دستورالعملهای هدف در هر ثانیه در طول زمان همخوانی دارد، همانطور که توسط منحنیهای چگالی رگرسور (3D) و نمودار تخمین چگالی هسته (KDE) هدف (صفحه XY) نشان داده شده است.
تعیین عدم قطعیت
یکی دیگر از مزایای مهم RLM، همبستگی بین عدم قطعیت پیشبینی مدل و خطای مربعات باقیمانده (residual squared error) است. این همبستگی به ما امکان میدهد تا اعتماد مدل به پیشبینیهای خود را به صورت کمی بیان کنیم. هنگامی که مدل در مورد پیشبینی خود مطمئن نیست، توزیع پیشبینی شده گستردهتر خواهد بود که به وضوح نشان میدهد این پیشبینیها باید با احتیاط بیشتری مورد بررسی قرار گیرند و ممکن است نیاز به اعتبارسنجی بیشتری داشته باشند.
این قابلیت برای ما حیاتی است، زیرا به ما امکان میدهد تا درک کنیم چه زمانی میتوانیم بیشتر به پیشبینیهای مدل رگرسور تکیه کنیم و چه زمانی به طور بالقوه باید به روشهای جایگزین کندتر اما دقیقتر، مانند شبیهسازیهای کامل بستهبندی سطل (bin-packing) در مدیریت خوشههای محاسباتی، بازگردیم. این بینش برای تصمیمگیریهای عملی در محیطهای پویا و پیچیده، که سرعت و دقت هر دو از اهمیت بالایی برخوردارند، بسیار ارزشمند است و به اپراتورها کمک میکند تا ریسکها را به طور موثرتری مدیریت کرده و عملکرد کلی سیستم را بهینه سازند.
چپ: عدم قطعیت پیشبینی با خطای رگرسور همبستگی دارد. راست: نمودار KDE پیشبینیهای RLM به طور موثری نقاط هدف را ثبت میکند.
رگرسیون تقریباً بینقص و کمهزینه
فراتر از قابلیتهای مهم ثبت چگالی و تعیین عدم قطعیت، مدل RLM ما به عنوان یک مدل کارآمد و با نیاز به منابع محاسباتی کم عمل میکند. این مدل توانسته است پیشبینی رگرسیون نقطهای (pointwise regression) بسیار دقیقی را در مجموعهای متنوع از وظایف انجام دهد که نشاندهنده دقت و کارایی بالای آن است. ما در تحقیقات خود، نمودارهای پراکندگی را ارائه میدهیم که نشاندهنده همبستگی رتبه اسپیرمن تقریباً بینقصی هستند.
این همبستگی بالا، همسویی قوی بین رتبهبندیهای پیشبینی شده توسط RLM و رتبهبندیهای واقعی MIPS per GCU را نشان میدهد. این بدان معناست که مدل نه تنها مقادیر را با دقت پیشبینی میکند، بلکه قادر به حفظ ترتیب و اولویتبندی صحیح عملکردها نیز هست. این قابلیت برای سناریوهایی که رتبهبندی نسبی مهمتر از مقدار دقیق است (مثلاً در بهینهسازی و زمانبندی منابع)، بسیار حیاتی است. علاوه بر این، مدل میتواند به صورت چند مرحلهای (few-shot) با وظایف پیشبینی متنوع در سرورهای متمایز سازگار شود، که آن را به یک پیشبینیکننده جهانی و بسیار قابل انطباق برای سیستم Borg تبدیل میکند.
این انعطافپذیری و دقت بالا، RLM را به ابزاری قدرتمند برای بهینهسازی مداوم عملکرد سیستم و پاسخگویی به نیازهای در حال تغییر زیرساختهای محاسباتی تبدیل میکند. توانایی آن در یادگیری از دادههای متنوع و سازگاری با سناریوهای جدید با حداقل آموزش اضافی، آن را به یک راهحل مقیاسپذیر و پایدار برای چالشهای پیشبینی در سیستمهای بزرگ تبدیل کرده است.
نمودار پراکندگی بین پیشبینی RLM (محور x) و مقدار واقعی هدف y (محور y) در چندین وظیفه رگرسیون. legend، رتبه اسپیرمن (⍴) را نشان میدهد.
منابع و مسیرهای آینده
ما در این پژوهش نشان دادیم که مدل زبان رگرسیون (RLM) رمزگذار-رمزگشای نسبتاً ساده ما، به طور موثری بر روی ورودیهای غنی و غیرجدولی آموزش میبیند. این آموزش منجر به ارائه پیشبینیهای بسیار دقیق و قابلیت سازگاری سریع و کارآمد با وظایف جدید میشود. این رویکرد قوی و مقیاسپذیر، نتایج معیارهای مختلف را مستقیماً از متن خام پیشبینی میکند و به طور قابل توجهی وابستگی به فرآیند پرزحمت مهندسی ویژگی دستی را کاهش میدهد. این پیشرفت، راه را برای توسعه هم شبیهسازهای سیستم جهانی و هم مکانیسمهای پاداش پیچیدهتر در آینده هموار میکند.
با مدلسازی بازخوردهای عددی متنوع، RLMها قادر به عملیاتی کردن مفهوم «تجربه» هستند که در مقاله ”عصر تجربه” مطرح شده است. این قابلیت، مسیر را برای پیشرفتهای آینده در یادگیری تقویتی برای مدلهای زبان هموار میسازد و به آنها امکان میدهد تا از تعاملات پیچیدهتر با محیطهای عملیاتی بیاموزند. این رویکرد نویدبخش توسعه سیستمهای هوشمندی است که میتوانند به طور خودکار از دادههای دنیای واقعی بیاموزند و عملکرد خود را در طول زمان بهبود بخشند.
برای کسب اطلاعات بیشتر و دسترسی به جزئیات فنی این پژوهش، میتوانید به مقاله کامل ما مراجعه کنید. همچنین، برای استفاده از این مدل و شروع کار با آن در پروژههای خود، کد منبع باز نیز در دسترس عموم قرار گرفته است تا جامعه تحقیقاتی بتواند از آن برای موارد استفاده مختلف بهرهبرداری کند.
تشکر و قدردانی
این تحقیق ارزشمند توسط اعضای اصلی تیم، یاش آخائوری (از دانشگاه کرنل و Google Research)، برایان لواندوفسکی (از Google Platforms)، و زینگیو (ریچارد) سانگ (از Google DeepMind) انجام شد. ما از مشارکتهای ارزشمند چنگ-هسی لین، آدریان ریس، گرانت سی. فوربس، آریسا وونگپانیچ، بانگدینگ یانگ، محمد اس. عبدالفتاح، و سگی پرل کمال تشکر را داریم که هر یک نقش مهمی در پیشبرد این پروژه ایفا کردند.
ما همچنین مایل هستیم از همکاران پیشین خود در طول این مسیر تحقیقاتی گسترده و طولانی قدردانی کنیم. این افراد شامل اسکار لی، چانسو لی، داییی پنگ، یوتیان چن، تونگ نگوین، کیو یی ژانگ، یورگ بورنشاین، یینگجی میائو، اریک تانگ، دارا بهری، و مانگپو فوتیلیمتانا هستند که با ایدهها و تلاشهای خود به بنیانگذاری این کار کمک کردند.
ما از میخال لوکاسیک، اوری آلون، امیر یزدانبخش، شائو-هوا سان، کوانگ-هوئی لی، زی وانگ، شینین چن، جیون ها، آویرال کومار، جاناتان لای، که ژو، رونگ-شی تان، و دیوید اسمالینگ برای بحثهای مفید و روشنگرشان سپاسگزاریم که به غنای این تحقیق افزودند. در نهایت، از ییلی ژنگ، سفین هودا، آصف آهارونی، اسریناد بوجاناپالی، دیوید لو، مارتین دیکسون، دانیل گولوین، دنی ژو، کلر کوی، اد چی، و بنوا شیلینگز برای حمایت مستمر و بیدریغشان در طول این پروژه صمیمانه تشکر میکنیم. ما همچنین از اولنا بوگدانوف برای طراحی انیمیشن جذاب این پست تشکر ویژه داریم.
منبع مقاله: https://research.google/blog/simulating-large-systems-with-regression-language-models/