هفته گذشته، مارک زاکربرگ اعلام کرد که متا قصد دارد به هوش مصنوعی فراتر از تواناییهای انسانی دست یابد. به نظر میرسد او فرمولی برای دستیابی به این هدف دارد، و اولین جزء آن استعداد انسانی است: زاکربرگ گزارشها حاکی از آن است که تلاش کرده تا محققان برجسته را با پیشنهادهای صدها میلیون دلاری به آزمایشگاههای فرا هوش مصنوعی متا جذب کند. اما جزء دوم این فرمول، خود هوش مصنوعی است. زاکربرگ اخیراً در یک تماس برای اعلام درآمد شرکت گفته بود که آزمایشگاههای فرا هوش مصنوعی متا بر ساخت هوش مصنوعی خودبهبوددهنده تمرکز خواهند کرد—سیستمهایی که میتوانند خود را به سطوح بالاتری از عملکرد برسانند.
امکان خودبهبودبخشی، هوش مصنوعی را از سایر فناوریهای انقلابی متمایز میکند. کریسپر نمیتواند هدفگیری توالیهای DNA خود را بهبود بخشد، و راکتورهای همجوشی نمیتوانند چگونگی تجاریسازی فناوری را کشف کنند. اما مدلهای زبانی بزرگ (LLMها) میتوانند تراشههایی که بر روی آنها اجرا میشوند را بهینه کنند، به طور ارزان و کارآمد LLMهای دیگر را آموزش دهند، و حتی شاید ایدههای اصیلی برای تحقیقات هوش مصنوعی ارائه دهند. و آنها قبلاً در تمام این زمینهها پیشرفتهایی داشتهاند.
به گفته زاکربرگ، خودبهبوددهی هوش مصنوعی میتواند جهانی را به ارمغان بیاورد که در آن انسانها از کارهای روزمره رها شده و میتوانند بالاترین اهداف خود را با حمایت همدمهای هوش مصنوعی درخشان و فوقالعاده مؤثر دنبال کنند. اما به گفته کریس پینتر، مدیر سیاستگذاری در سازمان غیرانتفاعی تحقیقات هوش مصنوعی METR، خودبهبوددهی خطری اساسی را نیز ایجاد میکند. او میگوید اگر هوش مصنوعی توسعه قابلیتهای خود را تسریع کند، میتواند به سرعت در هک کردن، طراحی سلاحها و دستکاری افراد بهتر شود. برخی محققان حتی گمان میکنند که این چرخه بازخورد مثبت میتواند به یک “انفجار هوش” منجر شود، که در آن هوش مصنوعی به سرعت خود را فراتر از سطح تواناییهای انسانی پرتاب میکند.
اما لازم نیست یک “دومر” (فرد بدبین به آینده) باشید تا پیامدهای هوش مصنوعی خودبهبوددهنده را جدی بگیرید. OpenAI، Anthropic، و Google همگی به تحقیقات خودکار هوش مصنوعی در چارچوبهای ایمنی هوش مصنوعی خود اشاره میکنند، در کنار دستهبندیهای خطر آشناتر مانند سلاحهای شیمیایی و امنیت سایبری. جف کلون، استاد علوم کامپیوتر در دانشگاه بریتیش کلمبیا و مشاور ارشد تحقیقاتی در Google DeepMind، میگوید: «من فکر میکنم این سریعترین مسیر برای رسیدن به هوش مصنوعی قدرتمند است. شاید مهمترین چیزی باشد که باید به آن فکر کنیم.»
همینطور، کلون میگوید، خودکارسازی تحقیق و توسعه هوش مصنوعی میتواند مزایای عظیمی داشته باشد. ما انسانها به تنهایی ممکن است نتوانیم نوآوریها و بهبودهایی را که به هوش مصنوعی اجازه میدهد روزی با مشکلات عظیمی مانند سرطان و تغییرات آب و هوایی مقابله کند، ابداع کنیم. در حال حاضر، نبوغ انسانی همچنان موتور اصلی پیشرفت هوش مصنوعی است؛ در غیر این صورت، متا به سختی چنین پیشنهادهای گزافی را برای جذب محققان به آزمایشگاه فرا هوش خود ارائه میداد. اما هوش مصنوعی در حال حاضر نیز در حال کمک به توسعه خود است، و قرار است در سالهای آینده نقش بیشتری در این زمینه ایفا کند. در ادامه، پنج روشی که هوش مصنوعی در حال بهبود خود است را بررسی میکنیم.
۱. افزایش بهرهوری
امروزه، مهمترین کمکی که مدلهای زبانی بزرگ (LLMها) به توسعه هوش مصنوعی میکنند، ممکن است عادیترین آنها نیز باشد. تام دیویدسون، محقق ارشد در Forethought، یک سازمان غیرانتفاعی تحقیقات هوش مصنوعی، میگوید: «بزرگترین مورد، کمک در کدنویسی است.» ابزارهایی که به مهندسان کمک میکنند نرمافزار را سریعتر بنویسند، مانند Claude Code و Cursor، در صنعت هوش مصنوعی محبوب هستند: سوندار پیچای، مدیرعامل گوگل، در اکتبر ۲۰۲۴ ادعا کرد که یک چهارم کدهای جدید شرکت توسط هوش مصنوعی تولید شده است، و Anthropic اخیراً روشهای گستردهای را که کارکنانش از Claude Code استفاده میکنند، مستند کرده است. اگر مهندسان به دلیل این کمک کدنویسی بهرهورتر باشند، میتوانند سیستمهای هوش مصنوعی جدید را سریعتر طراحی، آزمایش و مستقر کنند.
اما مزیت بهرهوری که این ابزارها به ارمغان میآورند، نامشخص است: اگر مهندسان زمان زیادی را صرف تصحیح خطاهای ایجاد شده توسط سیستمهای هوش مصنوعی کنند، ممکن است حتی اگر زمان کمتری را صرف نوشتن دستی کد کنند، کار بیشتری انجام ندهند. مطالعه اخیر METR نشان داد که توسعهدهندگان هنگام استفاده از دستیارهای کدنویسی هوش مصنوعی حدود ۲۰٪ بیشتر طول میکشد تا وظایف را تکمیل کنند. البته نیت راش، یکی از اعضای تیم فنی METR که در این مطالعه مشارکت داشت، خاطرنشان میکند که این مطالعه تنها توسعهدهندگان بسیار با تجربه را که روی پایگاههای کد بزرگ کار میکنند، بررسی کرده است. نتایج آن ممکن است برای محققان هوش مصنوعی که اسکریپتهای سریع برای اجرای آزمایشها مینویسند، صادق نباشد.
راش میگوید، انجام یک مطالعه مشابه در آزمایشگاههای پیشرفته میتواند به ارائه تصویری بسیار واضحتر از اینکه آیا دستیارهای کدنویسی محققان هوش مصنوعی را در خط مقدم بهرهورتر میکنند یا نه، کمک کند—اما این کار هنوز انجام نشده است. در همین حال، تنها اکتفا به حرف مهندسان کافی نیست: توسعهدهندگانی که METR آنها را بررسی کرده بود، فکر میکردند که ابزارهای کدنویسی هوش مصنوعی باعث شدهاند کارآمدتر شوند، در حالی که این ابزارها در واقع آنها را به طور قابل توجهی کند کرده بودند. این نشان میدهد که ارزیابی واقعی تأثیر این ابزارها نیازمند بررسیهای دقیقتر و عینیتری است تا صرفاً تکیه بر تصورات کاربران.
۲. بهینهسازی زیرساختها
نوشتن سریع کد، اگر مجبور باشید ساعتها، روزها یا هفتهها منتظر اجرای آن باشید، مزیت چندانی ندارد. آموزش LLM به خصوص، فرآیندی به طرز دردناکی کند است و پیچیدهترین مدلهای استدلالی ممکن است دقایق زیادی طول بکشد تا یک پاسخ واحد تولید کنند. ازالیا میرحسینی، استادیار علوم کامپیوتر در دانشگاه استنفورد و دانشمند ارشد در Google DeepMind، میگوید که این تأخیرها تنگناهای اصلی برای توسعه هوش مصنوعی هستند. او میگوید: «اگر بتوانیم هوش مصنوعی را سریعتر اجرا کنیم، میتوانیم نوآوری بیشتری داشته باشیم.»
به همین دلیل است که میرحسینی از هوش مصنوعی برای بهینهسازی تراشههای هوش مصنوعی استفاده کرده است. در سال ۲۰۲۱، او و همکارانش در گوگل یک سیستم هوش مصنوعی غیر LLM ساختند که میتوانست مکان اجزای مختلف را بر روی یک تراشه کامپیوتری برای بهینهسازی کارایی تعیین کند. اگرچه برخی محققان دیگر نتوانستند نتایج این مطالعه را تکرار کنند، اما میرحسینی میگوید که مجله Nature این مقاله را بررسی کرده و اعتبار کار را تأیید کرده است—و او خاطرنشان میکند که گوگل از طرحهای این سیستم برای چندین نسل از تراشههای هوش مصنوعی سفارشی خود استفاده کرده است.
اخیراً، میرحسینی LLMها را برای حل مشکل نوشتن کرنلها، یعنی توابع سطح پایینی که نحوه اجرای عملیات مختلف مانند ضرب ماتریس در تراشهها را کنترل میکنند، به کار برده است. او دریافته است که حتی LLMهای عمومی نیز میتوانند، در برخی موارد، کرنلهایی بنویسند که سریعتر از نسخههای طراحی شده توسط انسان اجرا میشوند. این پیشرفت قابل توجهی در کاهش زمان پردازش و افزایش کارایی سیستمهای هوش مصنوعی است.
در جای دیگری در گوگل، دانشمندان سیستمی ساختند که از آن برای بهینهسازی بخشهای مختلف زیرساخت LLM شرکت استفاده کردند. این سیستم که AlphaEvolve نام دارد، LLM Gemini گوگل را برای نوشتن الگوریتمهایی برای حل برخی مشکلات، ارزیابی آن الگوریتمها و درخواست از Gemini برای بهبود موفقترین آنها، و تکرار این فرآیند چندین بار، ترغیب میکند. AlphaEvolve رویکردی جدید برای اجرای مراکز داده طراحی کرد که ۰.۷٪ از منابع محاسباتی گوگل را صرفهجویی کرد، بهبودهای بیشتری در طراحی تراشه سفارشی گوگل ایجاد کرد و یک کرنل جدید طراحی کرد که آموزش Gemini را ۱٪ تسریع بخشید.
این ممکن است یک بهبود کوچک به نظر برسد، اما در یک شرکت عظیم مانند گوگل، به معنای صرفهجویی عظیم در زمان، پول و انرژی است. ماتج بالوگ، دانشمند محقق ارشد در Google DeepMind که پروژه AlphaEvolve را رهبری میکرد، میگوید که او و تیمش این سیستم را فقط روی یک جزء کوچک از کل خط لوله آموزش Gemini آزمایش کردند. او میگوید که استفاده گستردهتر از آن میتواند منجر به صرفهجوییهای بیشتری شود. این قابلیت خودبهبوددهی در زیرساختها، میتواند به صورت تصاعدی به پیشرفت هوش مصنوعی کمک کند و سرعت نوآوری را به شدت افزایش دهد.
۳. خودکارسازی آموزش
LLMها به طور مشهور نیازمند دادههای فراوان هستند، و آموزش آنها در هر مرحله پرهزینه است. در برخی حوزههای خاص—برای مثال، زبانهای برنامهنویسی غیرمعمول—دادههای واقعی بسیار کمیاب هستند و آموزش مؤثر LLMها دشوار است. یادگیری تقویتی با بازخورد انسانی، تکنیکی که در آن انسانها به پاسخهای LLM امتیاز میدهند و سپس LLMها با استفاده از آن امتیازات آموزش میبینند، برای ایجاد مدلهایی که مطابق با استانداردهای و ترجیحات انسانی رفتار میکنند، کلیدی بوده است، اما به دست آوردن بازخورد انسانی کند و گران است.
به طور فزایندهای، LLMها برای پر کردن این شکافها استفاده میشوند. اگر با مثالهای فراوان تغذیه شوند، LLMها میتوانند دادههای مصنوعی قابل قبولی را در حوزههایی که قبلاً آموزش ندیدهاند، تولید کنند و آن دادههای مصنوعی میتوانند برای آموزش استفاده شوند. همچنین LLMها میتوانند به طور مؤثر برای یادگیری تقویتی استفاده شوند: در رویکردی به نام “LLM به عنوان قاضی”، LLMها، به جای انسانها، برای امتیازدهی به خروجی مدلهایی که در حال آموزش هستند، به کار گرفته میشوند. این رویکرد برای چارچوب تأثیرگذار “هوش مصنوعی قانونمند” که توسط محققان Anthropic در سال ۲۰۲۲ پیشنهاد شد، کلیدی است، که در آن یک LLM با بازخورد از LLM دیگری برای کمتر مضر بودن آموزش میبیند.
کمبود داده مشکلی به خصوص حاد برای عاملهای هوش مصنوعی (AI agents) است. عاملهای مؤثر باید قادر به اجرای برنامههای چند مرحلهای برای انجام وظایف خاص باشند، اما نمونههای موفق تکمیل وظایف گام به گام به صورت آنلاین کمیاب هستند، و استفاده از انسان برای تولید نمونههای جدید پرهزینه خواهد بود. برای غلبه بر این محدودیت، میرحسینی و همکارانش در استنفورد اخیراً یک تکنیک را آزمایش کردهاند که در آن یک عامل LLM یک رویکرد گام به گام ممکن را برای یک مشکل معین تولید میکند، یک LLM قاضی هر مرحله را از نظر اعتبار ارزیابی میکند، و سپس یک عامل LLM جدید بر اساس آن مراحل آموزش میبیند. میرحسینی میگوید: «شما دیگر محدود به داده نیستید، زیرا مدل میتواند به صورت دلخواه تجربیات بیشتری را تولید کند.»
۴. تکامل طراحی عاملها
یکی از زمینههایی که LLMها هنوز مشارکت عمدهای در آن نداشتهاند، طراحی خود LLMها است. LLMهای امروزی همگی بر اساس ساختار شبکه عصبی به نام ترانسفورمر بنا شدهاند که در سال ۲۰۱۷ توسط محققان انسانی پیشنهاد شد، و بهبودهای قابل توجهی که از آن زمان تاکنون در این معماری صورت گرفته نیز توسط انسانها طراحی شدهاند. این نشان میدهد که در سطح معماری اصلی، هنوز خلاقیت انسانی نقش پررنگی دارد.
اما ظهور عاملهای LLM (LLM agents) یک دنیای طراحی کاملاً جدید برای کاوش ایجاد کرده است. عاملها برای تعامل با دنیای خارج به ابزارها و دستورالعملهایی برای استفاده از آنها نیاز دارند، و بهینهسازی این ابزارها و دستورالعملها برای تولید عاملهای مؤثر ضروری است. کلون میگوید: «انسانها زمان زیادی را صرف نقشهبرداری از همه این ایدهها نکردهاند، بنابراین میوههای آسانتری برای چیدن وجود دارد. آسانتر است که یک سیستم هوش مصنوعی را برای چیدن آنها ایجاد کنیم.»
کلون به همراه محققان استارتاپ ساکانا AI، سیستمی به نام “ماشین داروین گودل” (Darwin Gödel Machine) ایجاد کردند: یک عامل LLM که میتواند به صورت تکراری پرامپتها، ابزارها و سایر جنبههای کد خود را برای بهبود عملکرد وظیفه خود تغییر دهد. ماشین داروین گودل نه تنها از طریق خوداصلاحی به امتیازات وظیفهای بالاتری دست یافت، بلکه با تکامل خود، موفق شد تغییرات جدیدی را پیدا کند که نسخه اصلی آن قادر به کشف آنها نبود. این سیستم وارد یک حلقه واقعی خودبهبوددهی شده بود که قابلیتهای آن را به طور مداوم و بدون دخالت مستقیم انسان افزایش میداد.
۵. پیشبرد تحقیقات
اگرچه LLMها سرعت بخشهای متعددی از خط لوله توسعه LLM را افزایش میدهند، انسانها ممکن است برای مدت طولانی همچنان برای تحقیقات هوش مصنوعی ضروری باقی بمانند. بسیاری از کارشناسان به “ذوق تحقیقاتی” یا توانایی بهترین دانشمندان برای انتخاب سوالات و جهتگیریهای تحقیقاتی جدید و امیدوارکننده، هم به عنوان یک چالش خاص برای هوش مصنوعی و هم به عنوان یک عنصر کلیدی در توسعه هوش مصنوعی اشاره میکنند. این ذوق و شهود انسانی هنوز فراتر از تواناییهای مدلهای فعلی است.
اما کلون میگوید که ذوق تحقیقاتی ممکن است به اندازه برخی محققان برای هوش مصنوعی چالشبرانگیز نباشد. او و محققان ساکانا AI در حال کار بر روی یک سیستم سرتاسر برای تحقیقات هوش مصنوعی هستند که آن را “دانشمند هوش مصنوعی” (AI Scientist) مینامند. این سیستم، ادبیات علمی را جستجو میکند تا سوال تحقیقاتی خود را تعیین کند، آزمایشهایی را برای پاسخ به آن سوال اجرا میکند و سپس نتایج خود را مینویسد.
یکی از مقالاتی که این سیستم در اوایل سال جاری نوشت، که در آن یک استراتژی آموزشی جدید با هدف بهبود توانایی شبکههای عصبی در ترکیب مثالها از دادههای آموزشی خود ابداع و آزمایش شد، به صورت ناشناس و با رضایت سازماندهندگان کارگاه، به کارگاهی در کنفرانس بینالمللی یادگیری ماشین (ICML)—یکی از معتبرترین کنفرانسها در این زمینه—ارائه شد. استراتژی آموزشی در نهایت کار نکرد، اما مقاله به اندازهای امتیاز بالا از سوی داوران دریافت کرد که صلاحیت پذیرش را کسب کند (لازم به ذکر است که کارگاههای ICML استانداردهای پذیرش پایینتری نسبت به کنفرانس اصلی دارند). در مورد دیگری، کلون میگوید، دانشمند هوش مصنوعی ایدهای تحقیقاتی را ارائه داد که بعدها به طور مستقل توسط یک محقق انسانی در پلتفرم X (توییتر سابق) پیشنهاد شد و توجه زیادی از سوی دانشمندان دیگر را به خود جلب کرد. این نشاندهنده توانایی هوش مصنوعی در تولید ایدههای نوآورانه است.
کلون میگوید: «ما در حال حاضر در لحظه GPT-1 دانشمند هوش مصنوعی هستیم. در چند سال کوتاه، این سیستم مقالاتی را خواهد نوشت که در کنفرانسها و مجلات برتر داوریشده جهان پذیرفته خواهند شد. این سیستم اکتشافات علمی جدیدی انجام خواهد داد.» این پیشبینی به پتانسیل عظیم هوش مصنوعی در تسریع روند کشفیات علمی اشاره دارد، که میتواند تأثیرات عمیقی بر حوزههای مختلف علم و فناوری داشته باشد.
آیا فرا هوش در راه است؟
با تمام این اشتیاق برای خودبهبوددهی هوش مصنوعی، به نظر میرسد که در ماهها و سالهای آینده، مشارکتهای هوش مصنوعی در توسعه خودش تنها افزایش خواهد یافت. اگر به گفته مارک زاکربرگ گوش کنیم، این میتواند به معنای آن باشد که مدلهای فرا هوشمند، که از تواناییهای انسانی در بسیاری از زمینهها پیشی میگیرند، در همین نزدیکی هستند. با این حال، در واقعیت، تأثیر هوش مصنوعی خودبهبوددهنده هنوز نامشخص است.
قابل توجه است که AlphaEvolve آموزش سیستم LLM اصلی خود، Gemini، را تسریع بخشیده است – اما این سرعت ۱٪ ممکن است به طور قابل مشاهدهای سرعت پیشرفت هوش مصنوعی گوگل را تغییر ندهد. بالوگ، محقق AlphaEvolve، میگوید: «این هنوز یک حلقه بازخورد بسیار کند است. آموزش Gemini زمان قابل توجهی میبرد. بنابراین، شاید بتوانید آغازهای هیجانانگیز این چرخه سودمند را ببینید، اما هنوز هم یک فرآیند بسیار کند است.»
اگر هر نسخه بعدی Gemini، آموزش خود را ۱٪ اضافی تسریع بخشد، این شتابها با هم ترکیب میشوند. و از آنجا که هر نسل متوالی توانمندتر از نسل قبلی خواهد بود، باید بتواند سرعت آموزش را حتی بیشتر افزایش دهد—ناگفته نماند تمام روشهای دیگری که ممکن است برای بهبود خود ابداع کند. در چنین شرایطی، طرفداران فرا هوش استدلال میکنند که یک انفجار هوش نهایی اجتنابناپذیر به نظر میرسد.
با این حال، این نتیجهگیری، یک مشاهده کلیدی را نادیده میگیرد: نوآوری با گذشت زمان دشوارتر میشود. در روزهای اولیه هر زمینه علمی، کشفیات سریع و آسان به دست میآیند. آزمایشها و ایدههای واضح زیادی برای بررسی وجود دارد که هیچ کدام قبلاً امتحان نشدهاند. اما با بلوغ علم یادگیری عمیق، یافتن هر بهبود اضافی ممکن است نیازمند تلاش به مراتب بیشتری از سوی انسانها و همکاران هوش مصنوعی آنها باشد. این احتمال وجود دارد که زمانی که سیستمهای هوش مصنوعی به تواناییهای تحقیقاتی در سطح انسانی دست یابند، انسانها یا سیستمهای هوش مصنوعی کمتر هوشمند، تمام میوههای آسانرس را چیده باشند.
بنابراین، تعیین تأثیر واقعی خودبهبوددهی هوش مصنوعی، چالشی بزرگ است. برای بدتر شدن اوضاع، سیستمهای هوش مصنوعی که بیشترین اهمیت را برای توسعه هوش مصنوعی دارند—آنهایی که در شرکتهای هوش مصنوعی پیشرو استفاده میشوند—احتمالاً پیشرفتهتر از آنهایی هستند که برای عموم منتشر شدهاند، بنابراین اندازهگیری قابلیتهای O3 ممکن است راه خوبی برای استنباط آنچه در OpenAI میگذرد، نباشد.
اما محققان خارجی تمام تلاش خود را میکنند—به عنوان مثال، با ردیابی سرعت کلی توسعه هوش مصنوعی برای تعیین اینکه آیا این سرعت در حال شتاب گرفتن است یا خیر. METR در حال نظارت بر پیشرفتها در تواناییهای هوش مصنوعی با اندازهگیری مدت زمانی است که طول میکشد تا انسانها وظایفی را انجام دهند که سیستمهای پیشرفته میتوانند خودشان تکمیل کنند. آنها دریافتهاند که مدت زمان وظایفی که سیستمهای هوش مصنوعی میتوانند به طور مستقل تکمیل کنند، از زمان انتشار GPT-2 در سال ۲۰۱۹، هر هفت ماه دو برابر شده است. از سال ۲۰۲۴، این زمان دوبرابر شدن به چهار ماه کاهش یافته است، که نشان میدهد پیشرفت هوش مصنوعی واقعاً در حال شتاب گرفتن است. ممکن است دلایل غیرجذابی برای این امر وجود داشته باشد: آزمایشگاههای هوش مصنوعی پیشرو با پول سرمایهگذاران پر شدهاند، که میتوانند آن را صرف استخدام محققان جدید و خرید سختافزار جدید کنند. اما کاملاً محتمل است که خودبهبوددهی هوش مصنوعی نیز در این امر نقش داشته باشد.
این فقط یک شواهد غیرمستقیم است. اما دیویدسون، محقق Forethought، میگوید دلایل خوبی برای انتظار این وجود دارد که هوش مصنوعی پیشرفت خود را، حداقل برای مدتی، فوقالعاده تسریع خواهد کرد. کار METR نشان میدهد که تأثیر “میوههای آسان” در حال حاضر محققان انسانی را کند نمیکند، یا حداقل سرمایهگذاری فزاینده به طور مؤثر هرگونه کندی را جبران میکند. اگر هوش مصنوعی به طور قابل توجهی بهرهوری این محققان را افزایش دهد، یا حتی بخشی از کار تحقیقاتی را خود بر عهده بگیرد، این تعادل به نفع شتاب تحقیقات تغییر خواهد کرد. دیویدسون میگوید: «من فکر میکنم قویاً انتظار میرود که دورهای وجود داشته باشد که پیشرفت هوش مصنوعی تسریع شود. سوال بزرگ این است که این روند تا کجا ادامه خواهد داشت.»
منبع: https://www.technologyreview.com/2025/08/06/1121193/five-ways-that-ai-is-learning-to-improve-itself/