معرفی ThinkAct توسط NVIDIA AI: استدلال دید-زبان-عمل از طریق برنامه‌ریزی نهفته بصری تقویت‌شده – مارک‌تک‌پست

مقدمه عوامل هوش مصنوعی تجسم‌یافته امروزه با چالش‌های بزرگی در تفسیر دستورالعمل‌های پیچیده و عملکرد قاطعانه در محیط‌های پویا روبرو هستند. این عوامل باید بتوانند نه تنها ورودی‌های چندوجهی را...

فهرست مطالب

مقدمه

عوامل هوش مصنوعی تجسم‌یافته امروزه با چالش‌های بزرگی در تفسیر دستورالعمل‌های پیچیده و عملکرد قاطعانه در محیط‌های پویا روبرو هستند. این عوامل باید بتوانند نه تنها ورودی‌های چندوجهی را درک کنند، بلکه برای اهداف بلندمدت نیز برنامه‌ریزی کرده و با شرایط غیرقابل پیش‌بینی سازگار شوند. در گذشته، مدل‌های VLA که مستقیماً ورودی‌های بصری و زبانی را به اقدامات رباتیک تبدیل می‌کردند، اغلب در انجام وظایف پیچیده و نیازمند استدلال عمیق با محدودیت‌هایی مواجه می‌شدند. این محدودیت‌ها شامل ناتوانی در برنامه‌ریزی برای آینده دور و دشواری در تعمیم‌پذیری به سناریوهای جدید بود.

روش‌های نوین‌تر تلاش کرده‌اند تا با ادغام استدلال “زنجیره‌ای از فکر” (CoT) یا بهینه‌سازی مبتنی بر یادگیری تقویتی، این نواقص را برطرف کنند. با این حال، این رویکردها نیز اغلب با چالش‌هایی نظیر مقیاس‌پذیری و پایه‌گذاری دقیق ورودی‌های بصری در محیط‌های واقعی مواجه بوده‌اند. این مسائل به ویژه در وظایف دستکاری رباتیک که دارای تنوع بصری بالا و افق زمانی طولانی هستند، خود را نشان می‌دهند، چرا که این وظایف نیازمند سطحی از استدلال و برنامه‌ریزی هستند که روش‌های موجود به دشواری می‌توانند آن را ارائه دهند.

در پاسخ به این نیازها، ThinkAct توسط محققانی از NVIDIA و دانشگاه ملی تایوان معرفی شده است. این چارچوب پیشرفته، یک رویکرد نوآورانه برای استدلال دید-زبان-عمل (VLA) ارائه می‌دهد که با مفهوم “برنامه‌ریزی نهفته بصری تقویت‌شده” (reinforced visual latent planning) تقویت شده است. ThinkAct به عوامل هوش مصنوعی این امکان را می‌دهد که قبل از انجام اقدامات فیزیکی، در یک فضای انتزاعی بصری “فکر” کنند و برنامه‌ریزی دقیقی انجام دهند. این قابلیت برنامه‌ریزی پیش‌ازعمل، یک پل حیاتی بین استدلال چندوجهی سطح بالا و کنترل دقیق رباتیک سطح پایین ایجاد می‌کند و به طور چشمگیری قابلیت‌های ربات‌ها را در محیط‌های پیچیده افزایش می‌دهد.

چارچوب ThinkAct

چارچوب ThinkAct با یک معماری دو سیستمی طراحی شده است که به طور تنگاتنگی با یکدیگر همکاری می‌کنند تا استدلال پیچیده و کنترل دقیق ربات را ممکن سازند. این طراحی ماژولار امکان می‌دهد تا هر جزء وظیفه خود را بهینه انجام دهد.

معماری دو سیستمی

ThinkAct از دو مؤلفه اصلی تشکیل شده است. اول، **مدل زبان بزرگ چندوجهی (MLLM) استدلالی** که مسئول استدلال گام به گام بر اساس صحنه‌های بصری و دستورالعمل‌های زبانی است. این مدل، یک “برنامه نهفته بصری” (visual plan latent) را تولید می‌کند که نیت سطح بالا و بافت برنامه‌ریزی را کدگذاری می‌کند. دوم، **مدل عمل** که یک سیاست مبتنی بر ترانسفورمر است و توسط برنامه نهفته بصری شرطی می‌شود. این مدل وظیفه اجرای مسیر رمزگشایی‌شده را به عنوان اقدامات ربات در محیط بر عهده دارد.

کامیک-کان ۲۰۲۵: تمام خبرهای فیلم و سریال که باید بدانید

این طراحی امکان **عملیات ناهمزمان** را فراهم می‌کند: MLLM “فکر می‌کند” و برنامه‌ها را با سرعت کمتری تولید می‌کند، در حالی که ماژول عمل، کنترل دقیق را با فرکانس بالاتری انجام می‌دهد. این ناهمزمانی بسیار مهم است زیرا به مدل زبان بزرگ اجازه می‌دهد تا محاسبات سنگین استدلالی خود را بدون ایجاد تأخیر در اجرای اقدامات رباتیک انجام دهد.

برنامه‌ریزی نهفته بصری تقویت‌شده

یک نوآوری اصلی در ThinkAct، رویکرد یادگیری تقویتی (RL) است که از **پاداش‌های بصری هم‌راستا با عمل** بهره می‌برد. این سیستم پاداش‌دهی، نقش حیاتی در هدایت MLLM به سمت تولید برنامه‌هایی دارد که نه تنها از نظر منطقی صحیح هستند، بلکه به طور فیزیکی نیز قابل اجرا توسط ربات می‌باشند. این پاداش‌ها شامل دو بخش اصلی هستند: **پاداش هدف** که مدل را به هم‌راستایی موقعیت‌های شروع و پایان با مسیرهای نمایشی تشویق می‌کند، و **پاداش مسیر** که مسیر بصری پیش‌بینی شده را با استفاده از فاصله Dynamic Time Warping (DTW) به دقت با نمایش‌های متخصص همخوانی می‌دهد. پاداش کلی `r` این پاداش‌های بصری را با یک امتیاز صحت فرمت ترکیب می‌کند، که MLLM را به سمت تولید برنامه‌هایی سوق می‌دهد که به اقدامات رباتیک قابل قبول فیزیکی تبدیل می‌شوند.

خط لوله آموزش

روش آموزش چند مرحله‌ای ThinkAct شامل فرآیندهای گام به گامی است. ابتدا، **بهینه‌سازی با نظارت (SFT)** با استفاده از داده‌های حاشیه‌نویسی شده برای آموزش پیش‌بینی مسیر، استدلال و قالب‌بندی پاسخ‌ها انجام می‌شود. سپس، **بهینه‌سازی تقویتی** (با GRPO) برای تشویق استدلال با کیفیت بالا با حداکثرسازی پاداش‌های بصری هم‌راستا با عمل اعمال می‌شود. در نهایت، **سازگاری عمل** با استفاده از یادگیری تقلید انجام می‌گیرد، که از خروجی برنامه نهفته مدل MLLM منجمد شده برای هدایت کنترل در محیط‌های متنوع استفاده می‌کند.

استنتاج

در زمان استنتاج، با مشاهده یک صحنه و یک دستورالعمل زبانی، ماژول استدلال یک برنامه نهفته بصری تولید می‌کند. این برنامه نهفته سپس ماژول عمل را برای اجرای یک مسیر کامل شرطی می‌کند. این قابلیت، عملکرد قوی را حتی در محیط‌های جدید و قبلاً دیده‌نشده فراهم می‌سازد، که از این جهت ThinkAct را از بسیاری از مدل‌های سنتی متمایز می‌کند.

تصاویر و مشخصات بیشتری از سری پیکسل 10 گوگل لو رفت؛ پشتیبانی از Qi2

نتایج تجربی

ThinkAct در مجموعه‌ای از معیارهای دستکاری ربات و استدلال تجسم‌یافته، عملکردی فراتر از مدل‌های پیشین از خود نشان داده است. این نتایج نه تنها بر کارایی و دقت چارچوب تأکید دارند، بلکه توانایی آن در تعمیم‌پذیری به وظایف و محیط‌های جدید را نیز برجسته می‌سازند.

بنچمارک‌های دستکاری ربات

آزمایش‌ها در بنچمارک‌های **SimplerEnv** و **LIBERO** برتری ThinkAct را به اثبات رسانده‌اند. در SimplerEnv، ThinkAct با ۱۱ تا ۱۷ درصد عملکرد بهتری نسبت به مدل‌های پایه قوی نشان داده و در LIBERO نیز به بالاترین نرخ موفقیت کلی (۸۴.۴٪) دست یافته است. این عملکرد برتر در چالش‌های مختلف، توانایی آن را در تعمیم و سازگاری با مهارت‌های جدید و چیدمان‌های ناشناخته تأیید می‌کند.

بنچمارک‌های استدلال تجسم‌یافته

در بنچمارک‌های **EgoPlan-Bench2**، **RoboVQA** و **OpenEQA**، ThinkAct دقت برنامه‌ریزی چندمرحله‌ای و با افق زمانی طولانی‌مدت را به طور قابل توجهی افزایش داده است. همچنین، این مدل به نمرات BLEU و QA مبتنی بر LLM پیشرفته‌ای دست یافته که نشان‌دهنده درک معنایی بهبود یافته برای وظایف پاسخ به سؤالات بصری است.

سازگاری با تعداد داده کم (Few-Shot Adaptation)

ThinkAct توانایی **سازگاری مؤثر با تعداد داده کم** را دارد. حتی با تنها ۱۰ نمایش، این مدل دستاوردهای قابل توجهی در نرخ موفقیت نسبت به روش‌های دیگر به دست آورده است، که قدرت برنامه‌ریزی هدایت‌شده با استدلال را برای یادگیری سریع مهارت‌ها یا محیط‌های جدید برجسته می‌کند.

خودبازتابی و تصحیح

فراتر از موفقیت در انجام وظایف، ThinkAct **رفتارهای نوظهوری** مانند **تشخیص خطا** (مثلاً افتادن اشیا) را نشان می‌دهد. این قابلیت برای پایداری سیستم در محیط‌های پویا حیاتی است. همچنین، ThinkAct دارای قابلیت **بازبرنامه‌ریزی خودکار** است؛ سیستم می‌تواند به طور خودکار برنامه‌های خود را بازنگری کند تا از خطاها بازیابی شده و وظیفه را به پایان برساند. این توانایی، به لطف استدلال بر اساس توالی ورودی‌های بصری اخیر حاصل می‌شود و انعطاف‌پذیری ThinkAct را در برابر اختلالات غیرمنتظره به شدت افزایش می‌دهد.

سم آلتمن: برای سؤال‌های پزشکی به ChatGPT اعتماد نمی‌کنم

مطالعات ابلیشن و تحلیل مدل

مطالعات ابلیشن بینش‌های ارزشمندی را در مورد اجزای حیاتی ThinkAct ارائه می‌دهند. هر دو پاداش **هدف** و **مسیر** برای برنامه‌ریزی ساختاریافته و تعمیم‌پذیری ضروری هستند؛ حذف هر یک از آن‌ها عملکرد را به طور قابل توجهی کاهش می‌دهد. همچنین، اتکا تنها به پاداش‌های سبک پرسش و پاسخ، قابلیت استدلال چندمرحله‌ای را محدود می‌کند. ThinkAct تعادلی بین استدلال (کند) و عمل (سریع) برقرار می‌کند و عملکرد قوی را بدون نیاز به محاسبات بیش از حد ممکن می‌سازد. این رویکرد به مدل‌های MLLM کوچک‌تر نیز تعمیم می‌یابد و توانایی‌های قوی را حفظ می‌کند.

جزئیات پیاده‌سازی

ستون فقرات اصلی ThinkAct، **Qwen2.5-VL 7B MLLM** است. مجموعه‌داده‌های مورد استفاده برای آموزش شامل ویدئوهای متنوعی از نمایش‌های ربات و انسان (مانند Open X-Embodiment و Something-Something V2) به علاوه مجموعه‌داده‌های پرسش و پاسخ چندوجهی (مانند RoboVQA، EgoPlan-Bench و غیره) است. ThinkAct از یک رمزگذار بینایی (DINOv2)، یک رمزگذار متن (CLIP) و یک Q-Former برای اتصال خروجی استدلال به ورودی سیاست عمل استفاده می‌کند. آزمایش‌های گسترده در محیط‌های واقعی و شبیه‌سازی شده، مقیاس‌پذیری و پایداری این چارچوب را تأیید می‌کنند.

ویدئوی توضیحی در مورد دستکاری رباتیک با ThinkAct

نتیجه‌گیری

ThinkAct از NVIDIA، استاندارد جدیدی را برای **عوامل هوش مصنوعی تجسم‌یافته** تعیین می‌کند. این چارچوب ثابت می‌کند که **برنامه‌ریزی نهفته بصری تقویت‌شده**—جایی که عوامل “قبل از اقدام فکر می‌کنند”—عملکردی قوی، مقیاس‌پذیر و تطبیق‌پذیر را در وظایف پیچیده استدلال و دستکاری ربات در دنیای واقعی ارائه می‌دهد. طراحی دو سیستمی آن، شکل‌دهی پاداش و نتایج تجربی قوی، راه را برای ربات‌های هوشمند و عمومی باز می‌کند که قادر به برنامه‌ریزی با افق زمانی طولانی، سازگاری با تعداد داده کم و خودتصحیحی در محیط‌های متنوع هستند.

**منبع:** Paper & Project

دیگر هیچ مقاله‌ای را از دست ندهید

محتوای کاملاً انتخاب شده، مطالعات موردی، به‌روزرسانی‌های بیشتر.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مدیریت حرفه‌ای شبکه‌های اجتماعی با رسا وب آفرین

  • افزایش تعامل و دنبال‌کننده در اینستاگرام و تلگرام

  • تولید محتوا بر اساس الگوریتم‌های روز شبکه‌های اجتماعی

  • طراحی پست و استوری اختصاصی با برندینگ شما

  • تحلیل و گزارش‌گیری ماهانه از عملکرد پیج

  • اجرای کمپین تبلیغاتی با بازده بالا

محبوب ترین مقالات

آماده‌اید کسب‌وکارتان را دیجیتالی رشد دهید؟

از طراحی سایت حرفه‌ای گرفته تا کمپین‌های هدفمند گوگل ادز و ارسال نوتیفیکیشن هوشمند؛ ما اینجاییم تا در مسیر رشد دیجیتال، همراه شما باشیم. همین حالا با ما تماس بگیرید یا یک مشاوره رایگان رزرو کنید.