مقدمه: انقلاب در مهندسی یادگیری ماشین
ظهور یادگیری ماشین (ML) منجر به توسعه برنامههای کاربردی با کارایی بالا در طیف وسیعی از سناریوهای دنیای واقعی شده است، از طبقهبندی جدولی گرفته تا حذف نویز تصویر. با این حال، ساخت این مدلها برای مهندسان یادگیری ماشین یک تلاش طاقتفرسا باقی مانده است که نیازمند آزمایشهای تکراری گسترده و مهندسی داده است. برای سادهسازی این جریانهای کاری پرتقاضا، تحقیقات اخیر بر روی استفاده از مدلهای زبان بزرگ (LLM) به عنوان عاملهای مهندسی یادگیری ماشین (MLE) متمرکز شدهاند.
این عاملها با بهرهگیری از مهارتهای کدنویسی و استدلال ذاتی خود، وظایف ML را به عنوان چالشهای بهینهسازی کد مفهومسازی میکنند. آنها سپس راهحلهای کد بالقوه را بررسی میکنند و در نهایت، کدهای اجرایی (مانند یک اسکریپت پایتون) را بر اساس توضیحات وظیفه و مجموعهدادههای ارائه شده تولید میکنند. این رویکرد به طور بالقوه میتواند زمان و تلاش مورد نیاز برای توسعه سیستمهای ML پیچیده را به شدت کاهش دهد.
علیرغم پیشرفتهای اولیه امیدوارکننده، عاملهای MLE کنونی با محدودیتهای متعددی مواجه هستند که کارایی آنها را محدود میکند. اولاً، اتکای شدید آنها به دانش LLM موجود اغلب منجر به سوگیری نسبت به روشهای آشنا و پرکاربرد میشود (مانند کتابخانه scikit-learn برای دادههای جدولی)، و رویکردهای احتمالی برتر و خاص وظیفه را نادیده میگیرند. این میتواند مانع از دستیابی به عملکرد بهینه در سناریوهای خاص شود و نوآوری را محدود کند.
علاوه بر این، این عاملها معمولاً یک استراتژی اکتشافی را به کار میبرند که کل ساختار کد را به طور همزمان در هر تکرار اصلاح میکند. این اغلب باعث میشود که عاملها زودتر از موعد بر روی مراحل دیگر (مانند انتخاب مدل یا تنظیم ابرپارامتر) تمرکز کنند، زیرا آنها فاقد ظرفیت اکتشاف عمیق و تکراری در اجزای خاص خط لوله، مانند آزمایش کامل گزینههای مختلف مهندسی ویژگی، هستند. این رویکردهای کلی، مانع از بهینهسازی دقیق و هدفمند میشوند.
معرفی MLE-STAR: رویکردی نوین در مهندسی یادگیری ماشین
در مقاله اخیر ما، MLE-STAR را معرفی میکنیم، یک عامل مهندسی یادگیری ماشین جدید که جستجوی وب و پالایش هدفمند بلوکهای کد را یکپارچه میکند. برخلاف جایگزینها، MLE-STAR با جستجو در وب برای یافتن مدلهای مناسب برای ایجاد یک پایه قوی، چالشهای ML را حل میکند. سپس این پایه را با آزمایش اینکه کدام قسمتهای کد مهمتر هستند، با دقت بهبود میبخشد. MLE-STAR همچنین از یک روش جدید برای ترکیب چندین مدل با هم برای نتایج حتی بهتر استفاده میکند. این رویکرد بسیار موفقیتآمیز است – این سیستم در 63% از رقابتهای Kaggle در MLE-Bench-Lite مدال کسب کرد که به طور قابل توجهی از جایگزینها بهتر عمل کرد.
برای تولید کد اولیه راهحل، MLE-STAR از جستجوی وب برای بازیابی رویکردهای مرتبط و بالقوه پیشرفتهای که میتواند برای ساخت یک مدل موثر باشد، استفاده میکند. برای افزایش راهحل، MLE-STAR یک بلوک کد خاص را که یک جزء متمایز خط لوله ML را نشان میدهد، مانند مهندسی ویژگی یا ساخت مجموعه، استخراج میکند. سپس بر روی بررسی استراتژیهای متناسب با آن جزء تمرکز میکند و تلاشهای قبلی را به عنوان بازخورد منعکس میکند.

عاملهای مهندسی یادگیری ماشین (ML) برای حل چالشهای متنوع یادگیری ماشین با تحلیل توضیحات وظیفه و مجموعه دادههایی که میتوانند شامل حالات مختلفی باشند، ساخته شدهاند. هدف نهایی آنها یافتن بهترین راهحل برای مشکل داده شده است.
برای شناسایی بلوک کد با بیشترین تأثیر بر عملکرد، MLE-STAR یک مطالعه ابلیشن انجام میدهد که سهم هر جزء ML را ارزیابی میکند. این فرآیند پالایش تکرار میشود و بلوکهای کد مختلف را اصلاح میکند. این چرخه بازخورد مداوم به MLE-STAR امکان میدهد تا بهینهسازیهای دقیق و هدفمندی را در هر مرحله از خط لوله ML اعمال کند، که این امر به پیشرفت قابل توجهی در عملکرد نهایی منجر میشود.

نمای کلی. (الف) MLE-STAR با استفاده از جستجوی وب برای یافتن و گنجاندن مدلهای خاص وظیفه در یک راهحل اولیه آغاز میشود. (ب) برای هر مرحله پالایش، یک مطالعه ابلیشن برای شناسایی بلوک کد با بیشترین تأثیر بر عملکرد انجام میدهد. (ج) بلوک کد شناسایی شده سپس بر اساس طرحهای پیشنهادی LLM که استراتژیهای مختلف را با استفاده از بازخورد آزمایشهای قبلی بررسی میکنند، پالایش تکراری میشود. این فرآیند انتخاب و پالایش بلوکهای کد هدف تکرار میشود، جایی که راهحل بهبود یافته از (ج) نقطه شروع مرحله پالایش بعدی در (ب) میشود.
علاوه بر این، ما یک روش جدید برای تولید مجموعهها (ensembles) ارائه میدهیم. MLE-STAR ابتدا چندین راهحل کاندید را پیشنهاد میکند. سپس، به جای تکیه بر یک مکانیسم رأیگیری ساده بر اساس نمرات اعتبارسنجی، MLE-STAR این کاندیداها را به یک راهحل واحد و بهبود یافته با استفاده از یک استراتژی مجموعه پیشنهادی توسط خود عامل ادغام میکند. این استراتژی مجموعه به طور تکراری بر اساس عملکرد استراتژیهای قبلی پالایش میشود. این رویکرد انحصاری برای مجموعهسازی، قابلیتهای MLE-STAR را در سنتز و بهینهسازی چندین مدل به طور همزمان به شدت تقویت میکند.

راهحلهای ترکیبی: MLE-STAR استراتژیهای ترکیبی خود را در تلاشهای متوالی بهبود میبخشد و به طور کارآمد چندین راهحل تولید شده موازی را در یک راهحل واحد و بهبود یافته ترکیب میکند.
ماژولهای افزایشدهنده استحکام و کنترلهای اضافی
در نهایت، MLE-STAR سه ماژول اضافی را برای افزایش استحکام خود در خود جای داده است: (الف) یک عامل اشکالزدایی (debugger)، (ب) یک بررسیکننده نشت داده (data leakage checker)، و (ج) یک بررسیکننده استفاده از داده (data usage checker). برای عامل اشکالزدایی، اگر اجرای یک اسکریپت پایتون خطایی را ایجاد کند که منجر به یک رخداد (مانند ردیابی پشته) شود، MLE-STAR از یک ماژول اشکالزدایی برای تلاش در جهت تصحیح استفاده میکند. این تضمین میکند که حتی در مواجهه با کدهای ناقص یا نادرست، سیستم قادر به بازیابی و ادامه کار باشد.
در مورد بررسیکننده نشت داده، ما مشاهده کردهایم که اسکریپتهای پایتون تولید شده توسط LLM خطر معرفی نشت داده را دارند، به عنوان مثال، با دسترسی نامناسب به اطلاعات از یک مجموعه داده تست در طول آمادهسازی دادههای آموزش. برای رفع این مشکل، ما یک عامل بررسیکننده را معرفی کردهایم که اسکریپت راهحل را قبل از اجرای آن تجزیه و تحلیل میکند. این پیشگیری فعالانه به حفظ یکپارچگی مدل و جلوگیری از نتایج گمراهکننده کمک میکند. جلوگیری از نشت داده، از اهمیت بالایی در حفظ اعتبار و قابل اعتماد بودن مدلهای ML برخوردار است.
در مورد بررسیکننده استفاده از داده، ما متوجه شدهایم که اسکریپتهای تولید شده توسط LLM گاهی اوقات از استفاده از تمام منابع داده ارائه شده غفلت میکنند و صرفاً بر فرمتهای ساده مانند CSV تمرکز میکنند. برای اطمینان از استفاده از تمام دادههای مرتبط ارائه شده، MLE-STAR شامل یک عامل بررسیکننده استفاده از داده است. این عامل وظیفه دارد تا مطمئن شود که هیچ دادهای که میتواند برای بهبود عملکرد مدل مفید باشد، نادیده گرفته نمیشود و بهینهسازی مدل را به حداکثر میرساند.
ارزیابیها و نتایج: برتری MLE-STAR در رقابتها
برای اعتبارسنجی اثربخشی آن، ما ارزیابیهای جامعی از MLE-STAR با استفاده از رقابتهای Kaggle در MLE-Bench-Lite انجام دادیم. در اینجا، ما از یک عامل اضافی استفاده کردیم که توضیحات وظیفه و راهحل نهایی را به عنوان ورودی میگیرد و کدی را خروجی میدهد که شامل بارگذاری نمونه تست و ایجاد یک فایل ارسالی است. این چارچوب ارزیابی دقیق، امکان مقایسه عادلانه با سایر عاملها را فراهم میکند و قابلیتهای واقعی MLE-STAR را نشان میدهد.

نتایج اصلی از MLE-Bench-Lite. امتیازات نشاندهنده میانگین درصد موفقیت در رقابتهای Kaggle در MLE-Bench-Lite است.
نتایج تجربی ارائه شده در شکل بالا نشان میدهد که MLE-STAR، که تنها به حداقل تلاش انسانی نیاز دارد (مانند تعریف اعلانهای اولیه که قابل تعمیم به هر وظیفهای هستند)، به طور قابل توجهی از جایگزینهای قبلی، از جمله آنهایی که نیاز به کار دستی برای جمعآوری استراتژیها از Kaggle دارند، بهتر عمل میکند. به طور خاص، MLE-STAR به دستاورد قابل توجهی در هر مدال دست مییابد و آن را از 25.8% به 63.6% در مقایسه با بهترین عملکرد پایه بهبود میبخشد. این امر نشاندهنده کارایی و قدرت بالای رویکرد نوآورانه MLE-STAR است.
تحلیل عمیق دستاوردهای MLE-STAR
برای درک منابع بهبود عملکرد MLE-STAR، چندین تحلیل از دیدگاههای مختلف انجام دادیم. در اینجا، ما (الف) انواع مدلهای ML که MLE-STAR استفاده میکند، (ب) چگونگی گسترش MLE-STAR با مداخله انسانی، و (ج) چگونگی بهبود عملکرد MLE-STAR توسط بررسیکنندههای اضافی نشت داده و استفاده از داده را بررسی کردیم.
استفاده از مدل: استفاده از مدل توسط دو عامل MLE را در نظر بگیرید. AIDE عمدتاً از ResNet برای طبقهبندی تصویر استفاده میکند. با این حال، ResNet، که در سال 2015 منتشر شد، اکنون منسوخ شده تلقی میشود و میتواند منجر به عملکرد نامطلوب شود. در مقابل، MLE-STAR عمدتاً از مدلهای جدیدتر و رقابتی مانند EfficientNet یا ViT استفاده میکند که منجر به افزایش عملکرد مشاهده شده میشود. این نشاندهنده توانایی MLE-STAR در ادغام آخرین پیشرفتها در زمینه ML است.

چپ: استفاده از مدل (درصد) در مسابقات طبقهبندی تصویر. راست: نمایش مداخله انسانی: MLE-STAR کد آموزشی یک مدل را بر اساس یک توضیحات مدل دستی ادغام میکند.
مداخله انسانی: MLE-STAR به راحتی مدلهای حتی جدیدتر را با حداقل مداخله انسانی میپذیرد. در حالی که MLE-STAR به طور خودکار یک توضیحات مدل با استفاده از جستجوی وب میسازد، یک گسترش طبیعی شامل استفاده از تخصص انسانی برای این ساختار است. با افزودن دستی یک توضیحات مدل برای RealMLP، MLE-STAR با موفقیت کد آموزشی آن را در چارچوب ادغام میکند، مدلی که قبلاً بازیابی نشده بود. این قابلیت انعطافپذیری و امکان شخصیسازی، ارزش MLE-STAR را برای کاربردهای تخصصی افزایش میدهد.
سوء رفتار LLM و تصحیحات: ما مشاهده کردیم که در حالی که کد تولید شده توسط LLM به درستی اجرا میشد، محتوای آن گاهی اوقات غیرواقعی بود و رفتارهای توهمی از خود نشان میداد. به عنوان مثال، شکل زیر (چپ) یک رویکرد غیرعملی را نشان میدهد که در آن دادههای تست با استفاده از آمارهای خودشان پیشپردازش میشوند. از آنجا که دادههای تست باید دستنخورده باقی بمانند، تصحیح در کد ضروری است، که MLE-STAR برای شناسایی چنین مشکلاتی و پالایش اسکریپت تولید شده در صورت شناسایی مشکل، از یک بررسیکننده نشت داده استفاده میکند.

چپ: بررسیکننده نشت داده MLE-STAR، پیشپردازش مناسب را تضمین میکند. راست: بررسیکننده استفاده از داده MLE-STAR، اطلاعاتی را که قبلاً استفاده نشدهاند، شناسایی و ادغام میکند.
ما همچنین مشاهده کردیم که LLMها اغلب اسکریپتهایی را تولید میکنند که برخی از منابع داده ارائه شده را نادیده میگیرند. برای رفع این مشکل، MLE-STAR از یک بررسیکننده استفاده از داده استفاده میکند که توضیحات وظیفه را دوباره بررسی میکند تا اطمینان حاصل شود که تمام دادههای داده شده مورد استفاده قرار میگیرند. همانطور که در (راست) نشان داده شده است، این طراحی به MLE-STAR امکان میدهد تا دادههایی را که قبلاً نادیده گرفته شدهاند، در خود جای دهد. این ماژولهای کنترلی حیاتی، به MLE-STAR امکان میدهند تا کدهای تولید شده توسط LLM را به بهترین شکل ممکن تنظیم و بهینهسازی کند و از هرگونه نقص یا سوءاستفاده از داده جلوگیری نماید.
نتیجهگیری: آینده مهندسی یادگیری ماشین با MLE-STAR
ما MLE-STAR را پیشنهاد کردیم، یک عامل مهندسی یادگیری ماشین جدید که برای وظایف مختلف ML طراحی شده است. ایده اصلی ما استفاده از جستجوی وب برای بازیابی مدلهای مؤثر و سپس بررسی استراتژیهای مختلف با هدف اجزای خاص خط لوله ML برای بهبود راهحل است. اثربخشی MLE-STAR با کسب مدال در 63% (36% از آنها مدال طلا هستند) از رقابتهای Kaggle در MLE-Bench-Lite تأیید شده است. این نتایج برجسته، پتانسیل بالای این عامل را در خودکارسازی و بهینهسازی فرآیندهای ML نشان میدهد.
با خودکارسازی وظایف پیچیده ML، MLE-STAR میتواند موانع ورود برای افراد و سازمانهایی که به دنبال بهرهبرداری از ML هستند را کاهش دهد و به طور بالقوه نوآوری را در بخشهای مختلف تقویت کند. علاوه بر این، از آنجا که مدلهای پیشرفته به طور مداوم بهروزرسانی و بهبود مییابند، انتظار میرود عملکرد راهحلهای تولید شده توسط MLE-STAR به طور خودکار افزایش یابد. این به این دلیل است که چارچوب ما از یک موتور جستجو برای بازیابی مدلهای مؤثر از وب برای تشکیل راهحلهای خود استفاده میکند. این قابلیت انطباق ذاتی تضمین میکند که MLE-STAR با پیشرفت زمینه ML، راهحلهای بهتری را ارائه میدهد.
در نهایت، توسعهدهندگان و محققان اکنون میتوانند پروژههای یادگیری ماشین خود را با استفاده از پایگاه کد متنباز جدید MLE-STAR که با Agent Development Kit (ADK) ساخته شده است، تسریع بخشند. این دسترسی به کد منبع، همکاری و نوآوری بیشتر را در جامعه ML امکانپذیر میسازد، و افقهای جدیدی را برای کاربردهای ML در آینده میگشاید.