LSM-2: یادگیری از داده‌های حسگر پوشیدنی ناقص

انقلاب در نظارت بر سلامت با داده‌های پوشیدنی دستگاه‌های پوشیدنی با فراهم آوردن داده‌های فیزیولوژیکی و رفتاری چندوجهی و پیوسته – از سیگنال‌های قلبی و الگوهای خواب گرفته تا سطح...

فهرست مطالب

انقلاب در نظارت بر سلامت با داده‌های پوشیدنی

دستگاه‌های پوشیدنی با فراهم آوردن داده‌های فیزیولوژیکی و رفتاری چندوجهی و پیوسته – از سیگنال‌های قلبی و الگوهای خواب گرفته تا سطح فعالیت و شاخص‌های استرس – نظارت بر سلامت را متحول کرده‌اند. به دلیل پیشرفت در فناوری حسگرها، ضبط حجم زیادی از داده‌ها به طور فزاینده‌ای امکان‌پذیر شده است، اما هزینه برچسب‌گذاری همچنان بالا است و نیاز به حاشیه‌نویسی‌های بلادرنگ کاربر یا مطالعات بالینی پرزحمت دارد. یادگیری خود-نظارت‌شده (SSL) با استفاده مستقیم از داده‌های بدون برچسب برای یادگیری ساختارهای زیربنایی، مانند روابط فیزیولوژیکی ظریف، این محدودیت را برطرف می‌کند. هنگامی که SSL در مقیاس بزرگ به کار گرفته می‌شود، می‌تواند امکان ایجاد مدل‌های بنیادی را فراهم کند که نمایش‌های غنی و قابل تعمیم را برای طیف گسترده‌ای از وظایف سلامتی پایین‌دست تولید می‌کنند.

با این حال، هنگام به کارگیری SSL در حوزه پوشیدنی‌ها، یک محدودیت بحرانی وجود دارد: روش‌های پیشرفته SSL فرض می‌کنند که داده‌ها کامل و بدون وقفه هستند – امری که در جریان‌های حسگر پوشیدنی در دنیای واقعی، که شکاف‌ها به ناچار به دلیل برداشتن دستگاه، شارژ، شل شدن متناوب، آرتیفکت‌های حرکتی، حالت‌های صرفه‌جویی در باتری، یا نویز محیطی رخ می‌دهند و ما آن را “ناقص بودن” می‌نامیم، نادر است. در واقع، ما متوجه شدیم که هیچ نمونه‌ای از میان 1.6 میلیون پنجره یک‌روزه ما، 0% ناقصی نداشته است. از لحاظ تاریخی، چالش داده‌های تکه تکه شده محققان را مجبور کرده است که به روش‌های تکمیل داده برای پر کردن بخش‌های از دست رفته، یا فیلتر کردن تهاجمی برای حذف نمونه‌های دارای داده ناقص، تکیه کنند. هیچ یک از این روش‌ها راه حل بهینه‌ای نیستند، زیرا اولی ممکن است سوگیری‌های ناخواسته را معرفی کند، در حالی که دومی داده‌های ارزشمند را از بین می‌برد.

تصویری از داده‌های حسگر پوشیدنی ناقص

داده‌های از دست رفته در ضبط‌های حسگر پوشیدنی فراگیر هستند. حالت‌های رایج نقص در نمونه یک‌روزه از داده‌های حسگر پوشیدنی چندوجهی در بالا مشخص شده‌اند. ما اشاره می‌کنیم که هیچ نمونه‌ای از میان 1.6 میلیون پنجره یک‌روزه ما 0% نقص نداشته است.

معرفی LSM-2: رویکردی نوین برای داده‌های ناقص

در مقاله “LSM-2: یادگیری از داده‌های حسگر پوشیدنی ناقص“، ما Adaptive and Inherited Masking (AIM) را ارائه می‌کنیم، یک چارچوب آموزشی SSL جدید که مستقیماً از داده‌های ناقص یاد می‌گیرد. AIM به جای اینکه شکاف‌های داده را به عنوان اندازه‌گیری‌های نادرست که باید پر شوند، در نظر بگیرد، مستقیماً از ضبط‌های ناقص با در نظر گرفتن نقص به عنوان یک مصنوع طبیعی از داده‌های دنیای واقعی یاد می‌گیرد. با استفاده از AIM، ما یک مدل حسگر بزرگ (LSM-2) را توسعه می‌دهیم که مدل بنیادی قبلی ما برای داده‌های حسگر پوشیدنی (LSM-1، ارائه شده در ICLR ‘25) را بهبود می‌بخشد. ما نشان می‌دهیم که LSM-2 عملکرد قوی‌ای را حتی زمانی که حسگرها خراب می‌شوند یا پنجره‌های زمانی حذف می‌شوند، به دست می‌آورد و تخریب قابل توجهی کمتر از مدل‌های آموزش‌دیده بر روی داده‌های تکمیل شده از خود نشان می‌دهد.

این مدل پیشرفته نه تنها کارایی بالاتری در پردازش داده‌های ناقص دارد، بلکه به طور چشمگیری پایداری خود را در برابر شرایط واقعی و غیرایده‌آل داده‌برداری از حسگرهای پوشیدنی اثبات می‌کند. این رویکرد نوآورانه، مسیر را برای کاربردهای گسترده‌تر هوش مصنوعی در زمینه سلامت هموار می‌کند و به دستگاه‌های پوشیدنی اجازه می‌دهد تا در شرایط چالش‌برانگیز نیز اطلاعات دقیق و قابل اعتمادی را ارائه دهند.

تمرکز AIM بر یادگیری مستقیم از داده‌های ناقص، یک تغییر پارادایم اساسی در پردازش سیگنال‌های حسگر پوشیدنی است. این بدان معناست که دیگر نیازی به تکیه بر روش‌های پرهزینه و بالقوه سوگیرانه برای “تمیز کردن” داده‌ها قبل از آموزش مدل نیست. در عوض، مدل به گونه‌ای طراحی شده است که ذاتاً نقص و پراکندگی را به عنوان بخشی طبیعی از ورودی درک کند و از آن بیاموزد، که به نتایج قوی‌تر و قابل اعتمادتر منجر می‌شود.

محققان گوگل LSM-2 را با ماسک‌گذاری تطبیقی و موروثی (AIM) معرفی کردند: امکان یادگیری مستقیم از داده‌های ناقص پوشیدنی

AIM با ماسک‌گذاری تطبیقی و موروثی

در قلب نوآوری AIM، رویکرد منحصربه‌فرد آن برای مدیریت شکاف‌های اجتناب‌ناپذیر در داده‌های حسگر دنیای واقعی قرار دارد. برخلاف روش‌های سنتی SSL که داده‌های ناقص را دور می‌اندازند یا تلاش می‌کنند مقادیر از دست رفته را پر کنند، AIM این شکاف‌ها را به عنوان ویژگی‌های طبیعی داده‌های پوشیدنی در آغوش می‌گیرد. AIM به عنوان یک توسعه از چارچوب پیش‌آموزش خودرمزگذار ماسک‌شده (MAE)، با بازسازی نمونه‌های ورودی ماسک‌شده، ساختار زیربنایی داده‌های حسگر را یاد می‌گیرد. این رویکرد به مدل اجازه می‌دهد تا روابط پیچیده در داده‌ها را حتی در حضور اطلاعات از دست رفته، درک کند.

با این حال، در حالی که روش‌های سنتی MAE به نسبت ماسک‌گذاری ثابتی برای حذف کارآمد توکن‌های ماسک‌شده (یعنی تعداد ثابتی از توکن‌های ماسک‌شده از طریق رمزگذار عبور نمی‌کنند و در نتیجه پیچیدگی محاسباتی کاهش می‌یابد) متکی هستند، تکه‌تکه شدن داده‌های حسگر غیرقابل پیش‌بینی است و منجر به تعداد متغیری از توکن‌های ماسک‌شده می‌شود. AIM با جفت کردن حذف توکن با ماسک‌گذاری توجه، این چالش اساسی داده‌های پوشیدنی را برطرف می‌کند. در طول پیش‌آموزش، مجموعه توکن‌هایی که باید ماسک شوند، شامل مواردی است که از داده‌های حسگر پوشیدنی به ارث رسیده و در آن ذاتی هستند، به علاوه مواردی که عمداً برای هدف آموزشی بازسازی ماسک شده‌اند. این ترکیب هوشمندانه، مدل را قادر می‌سازد تا هم با نقص‌های طبیعی و هم با نقص‌های مصنوعی به طور همزمان مقابله کند.

AIM ابتدا حذف را به تعداد ثابتی از توکن‌های ماسک‌شده اعمال می‌کند و کارایی محاسباتی پیش‌آموزش را با کاهش طول دنباله پردازش شده توسط رمزگذار بهبود می‌بخشد. سپس AIM هر توکن ماسک‌شده باقی‌مانده – چه به طور طبیعی از دست رفته باشد و چه بخشی از وظیفه بازسازی – را به صورت تطبیقی از طریق ماسک‌گذاری توجه در بلوک ترنسفورمر رمزگذار مدیریت می‌کند. در طول تنظیم دقیق و ارزیابی وظایف تمایزدهنده، که در آن توکن‌های ماسک‌شده صرفاً شامل شکاف‌های داده‌ای طبیعی هستند، AIM از ماسک‌گذاری توجه برای تمام توکن‌های ماسک‌شده استفاده می‌کند. از طریق این رویکرد ماسک‌گذاری دوگانه، و با در نظر گرفتن توکن‌های طبیعی و مصنوعی ماسک‌شده به عنوان معادل، AIM به مدل آموزش می‌دهد که با تکه‌تکه شدن متغیر ذاتی حسگرهای پوشیدنی کار کند. این توانایی تطبیق، LSM-2 را به ابزاری بی‌نظیر برای کاربردهای عملی تبدیل می‌کند.

تصویری از پیش‌آموزش و ارزیابی AIM

پیش‌آموزش (A) و ارزیابی (B) AIM برای LSM-2. در طول پیش‌آموزش، AIM از ماسک مصنوعی برای یادگیری بازسازی و از ماسک موروثی برای مدل‌سازی نقص‌های دنیای واقعی استفاده می‌کند. سپس، در طول ارزیابی، می‌توانیم از جاسازی آگاه از نقص برای پیش‌بینی اهداف سلامتی، مانند فشار خون بالا، مستقیماً از داده‌های حسگر ذاتاً تکه تکه شده استفاده کنیم.

آموزش و ارزیابی مدل

ما از مجموعه داده‌ای با 40 میلیون ساعت داده پوشیدنی که از بیش از 60,000 شرکت‌کننده در دوره مارس تا مه 2024 نمونه‌برداری شده‌اند، استفاده می‌کنیم. این مجموعه داده به طور کامل ناشناس یا غیرقابل شناسایی شد تا اطمینان حاصل شود که اطلاعات شرکت‌کنندگان حذف شده و حریم خصوصی حفظ می‌شود. افراد از انواع ساعت‌ها و ردیاب‌های هوشمند Fitbit و Google Pixel استفاده می‌کردند و رضایت خود را برای استفاده از داده‌هایشان برای تحقیق و توسعه محصولات و خدمات جدید سلامتی و تندرستی اعلام کردند. از افراد خواسته شد تا جنسیت، سن و وزن خود را به صورت خودگزارشی ارائه دهند. این حجم عظیم از داده‌ها، زمینه لازم برای آموزش یک مدل قدرتمند و تعمیم‌پذیر را فراهم آورد.

برای پیش‌آموزش LSM-2، ما از تکنیک SSL AIM معرفی شده در بخش قبلی استفاده می‌کنیم. AIM یک هدف آموزشی بازسازی ماسک‌شده را پیاده‌سازی می‌کند و یاد می‌گیرد که داده‌های به طور طبیعی از دست رفته را درک کند و داده‌های به طور مصنوعی ماسک‌شده را تکمیل کند. این چارچوب یکپارچه به LSM-2 اجازه می‌دهد تا ساختار زیربنایی (از جمله نقص) ذاتی در داده‌های حسگر پوشیدنی را یاد بگیرد. این روش آموزش باعث می‌شود که مدل به جای نادیده گرفتن نواقص، آنها را به عنوان بخشی از واقعیت داده‌ها در نظر بگیرد و از این طریق قابلیت‌های یادگیری خود را بهبود بخشد.

دفاع در برابر تزریق پرامپت با کوئری‌های ساختاریافته (StruQ) و بهینه‌سازی ترجیحی (SecAlign)

ما مجموعه‌ای از وظایف پایین‌دستی را برای ارزیابی مدل پیش‌آموزش‌شده، با استفاده از ابرداده‌هایی که در کنار سیگنال‌های حسگر برای اهداف تحقیق و توسعه جمع‌آوری شده بودند، تنظیم می‌کنیم. این وظایف شامل فعالیت‌های حاشیه‌نویسی‌شده توسط کاربر از مجموعه‌ای از 20 دسته مختلف (مانند دویدن، اسکی، قایق‌رانی و بازی گلف) و تشخیص‌های خودگزارشی فشار خون بالا و اضطراب است. این داده‌ها به مجموعه‌های تنظیم دقیق و ارزیابی تقسیم شدند که در آن داده‌های هر فرد فقط در مجموعه تنظیم یا ارزیابی بود و نه هر دو. داده‌های افراد استفاده شده در مرحله پیش‌آموزش نیز در مراحل تنظیم دقیق یا ارزیابی گنجانده نشدند.

قابلیت‌های مولد LSM-2 از طریق وظایف تکمیل تصادفی، درون‌یابی زمانی، برون‌یابی زمانی (پیش‌بینی)، و تکمیل حسگر، که در کار LSM-1 ما توضیح داده شده‌اند، ارزیابی می‌شوند. سودمندی جاسازی‌های LSM-2 از طریق پروب خطی در تعدادی از وظایف تمایزدهنده ارزیابی می‌شود. به طور خاص، ما قابلیت کاربرد جاسازی‌های LSM-2 را برای وظایف طبقه‌بندی باینری فشار خون بالا، طبقه‌بندی باینری اضطراب، و تشخیص فعالیت 20 کلاسه اندازه‌گیری می‌کنیم. ما توانایی LSM-2 را در مدل‌سازی فیزیولوژی از طریق وظایف رگرسیون سن و BMI ارزیابی می‌کنیم.

نتایج کلیدی و پیشرفت‌های LSM-2

مدل LSM-2 مبتنی بر AIM تطبیق‌پذیری قابل توجهی را نشان می‌دهد و از مدل قبلی خود، LSM-1، در سه حوزه کلیدی پیشی می‌گیرد: طبقه‌بندی شرایط و فعالیت‌های سلامتی (مانند فشار خون بالا، اضطراب، و تشخیص فعالیت 20 کلاسه)، بازسازی داده‌های از دست رفته (مانند بازیابی سیگنال‌های حسگر از دست رفته)، و پیش‌بینی معیارهای سلامت پیوسته (مانند BMI با همبستگی بهبود یافته). مقایسه‌های اضافی با خطوط پایه نظارت‌شده و پیش‌آموزش‌دیده را می‌توانید در مقاله ما بیابید. این نتایج نشان می‌دهد که AIM یک جهش مهم در پردازش داده‌های ناقص به ارمغان آورده است.

عملکرد برتر LSM-2 در این زمینه‌ها حاکی از توانایی آن در استخراج الگوهای معنادار حتی از مجموعه‌های داده‌ای است که به طور ذاتی ناقص و ناهمگون هستند. این ویژگی برای کاربردهای بالینی و تحقیقاتی که داده‌های حسگر پوشیدنی اغلب در شرایط غیرکنترل‌شده جمع‌آوری می‌شوند و ممکن است حاوی شکاف‌ها یا نویز باشند، بسیار حیاتی است. این مدل می‌تواند به پزشکان و محققان کمک کند تا بینش‌های دقیق‌تری را از داده‌های بیماران به دست آورند و تصمیم‌گیری‌های بهتری داشته باشند.

علاوه بر این، توانایی LSM-2 در بازسازی دقیق داده‌های از دست رفته، ارزش آن را به عنوان یک ابزار تشخیصی و نظارتی افزایش می‌دهد. این بدان معناست که حتی در صورت قطعی یا نقص موقتی حسگر، مدل می‌تواند اطلاعات از دست رفته را با دقت قابل قبولی تخمین بزند و یک دید جامع از وضعیت سلامتی فرد را حفظ کند. این قابلیت، اطمینان‌پذیری سیستم‌های پایش سلامت مبتنی بر هوش مصنوعی را به طور چشمگیری بهبود می‌بخشد و پتانسیل کاربردهای آن را در سناریوهای زندگی واقعی گسترش می‌دهد.

تصویری از مقایسه LSM-2 و LSM-1

LSM-2 نقص‌های دنیای واقعی را بدون تکمیل داده مدل‌سازی می‌کند و به آن امکان می‌دهد خطای بازسازی کمتری (چپ) و امتیازات طبقه‌بندی بالاتری (راست) را در مقایسه با LSM-1 به دست آورد.

پایداری در برابر داده‌های ناقص و مقیاس‌پذیری

LSM-2 در سناریوهای واقع‌بینانه‌ای که حسگرها خراب می‌شوند یا داده‌ها ناقص هستند، برتری می‌یابد. شکل زیر وضعیت‌هایی را شبیه‌سازی می‌کند که در آن تمام فیدهای حسگر یا داده‌های مربوط به کل بخش‌هایی از روز ممکن است از دست رفته باشند. این امر واقعیت را بازتاب می‌دهد که دستگاه‌های پوشیدنی مختلف ممکن است دارای مجموعه‌های حسگر متفاوتی باشند، یا اینکه یک فرد ممکن است دستگاه خود را تنها برای بخش‌هایی از روز استفاده کند. در اینجا ما دریافتیم که LSM-2 مبتنی بر AIM در مقایسه با LSM-1 در برابر این حذف‌ها مقاوم‌تر عمل می‌کند. این پایداری به مدل اجازه می‌دهد تا در محیط‌های کاربری پیچیده و متغیر، عملکرد خود را حفظ کند.

تعداد کاربر ماهانه جمینای گوگل به ۴۵۰ میلیون و AI Overviews به ۲ میلیارد نفر رسید: جهش خیره‌کننده گوگل در عصر هوش مصنوعی

قابلیت LSM-2 برای مدیریت موثر داده‌های ناقص و جزئی، آن را از نسل‌های قبلی مدل‌ها متمایز می‌کند. در گذشته، این چالش‌ها اغلب منجر به از دست دادن داده‌های ارزشمند یا نیاز به روش‌های پرهزینه برای بازیابی اطلاعات می‌شد. اما با رویکرد AIM، LSM-2 می‌تواند از اطلاعات موجود نهایت استفاده را ببرد و حتی در غیاب داده‌های کامل نیز بینش‌های دقیقی ارائه دهد. این امر به ویژه برای کاربردهای طولانی‌مدت پایش سلامت، که در آن جمع‌آوری داده‌های بی‌وقفه اغلب غیرممکن است، اهمیت دارد.

علاوه بر پایداری، LSM-2 بهبود مقیاس‌پذیری را در بین کاربران، حجم داده، محاسبات و اندازه مدل در مقایسه با LSM-1 نشان می‌دهد. در حالی که مدل قبلی نشانه‌هایی از فلات‌گیری را نشان می‌دهد، LSM-2 با داده‌های بیشتر همچنان بهبود می‌یابد و هنوز به اشباع نرسیده است. این ویژگی به این معنی است که LSM-2 پتانسیل رشد و بهبود مداوم را با افزایش حجم داده‌ها و منابع محاسباتی دارد، که آن را به یک راه‌حل آینده‌نگر برای تحقیقات و توسعه در حوزه سلامت پوشیدنی تبدیل می‌کند.

تصویری از پایداری LSM-2 در برابر داده‌های ناقص

LSM-2 در برابر داده‌های از دست رفته مقاوم‌تر از LSM-1 است و کمتر از عملکرد اصلی خود (خط نقطه‌چین) نسبت به مدل قبلی خود، هنگامی که تمام فیدهای حسگر یا دوره‌هایی از روز حذف می‌شوند، تخریب می‌شود.

تصویری از مقیاس‌پذیری LSM-2

LSM-2 مقیاس‌پذیری بهبود یافته‌ای را نسبت به LSM-1 در بین سوژه‌ها، داده‌ها، محاسبات و اندازه مدل نشان می‌دهد.

نتیجه‌گیری: آینده هوش مصنوعی پوشیدنی

مدل بنیادی LSM-2، که با AIM پیش‌آموزش دیده است، نشان‌دهنده پیشرفت در جهت فناوری سلامت پوشیدنی مفیدتر و قابل استفاده‌تر است. اساساً، AIM به LSM-2 آموزش می‌دهد که شکاف‌های طبیعی در جریان‌های حسگر دنیای واقعی را درک و از آنها بهره‌برداری کند تا بینش‌های قابل اعتمادی از داده‌های ناقص به دست آورد. این نوآوری به این معنی است که هوش مصنوعی پوشیدنی سرانجام می‌تواند واقعیت نامرتب داده‌های حسگر را بپذیرد، یکپارچگی داده‌ها را حفظ کند، و در عین حال از تمام اطلاعات موجود استفاده کند.

این رویکرد نه تنها بار پردازش داده‌های اولیه را کاهش می‌دهد، بلکه قابلیت اعتماد و دقت نتایج را نیز در کاربردهای عملی افزایش می‌دهد. با قابلیت تطبیق با نقص‌های ذاتی در داده‌ها، LSM-2 می‌تواند به ابزاری قدرتمند برای پیش‌بینی و مدیریت شرایط سلامتی، ارائه توصیه‌های شخصی‌سازی شده برای بهبود تندرستی و حتی کمک به تحقیقات پزشکی در مقیاس بزرگ تبدیل شود. این پیشرفت‌ها، مسیر را برای سیستم‌های هوش مصنوعی پوشیدنی هوشمندتر و کارآمدتر هموار می‌کند.

با این مدل، مرزهای آنچه از دستگاه‌های پوشیدنی و داده‌های جمع‌آوری شده از آنها انتظار می‌رود، گسترش می‌یابد. پتانسیل LSM-2 برای ارائه بینش‌های عمیق‌تر و دقیق‌تر از سلامت فردی، حتی با وجود چالش‌های رایج در جمع‌آوری داده، نویدبخش آینده‌ای است که در آن فناوری به طور یکپارچه‌تر و موثرتر در زندگی روزمره ما ادغام شده و به ما در مدیریت بهتر سلامتی‌مان کمک می‌کند.

تشکر و قدردانی

تحقیقات توصیف‌شده در اینجا کار مشترک گوگل ریسرچ، گوگل هلث، گوگل دیپ‌مایند، و تیم‌های همکار است. محققان زیر در این کار مشارکت داشته‌اند: مکسول ا. خو، گیریش نارایاناسوامی، کومار آیوش، دیمیتریس اسپاتیس، شون لیائو، شیام تیلور، احمد متوالی، ا. علی حیدری، یووی ژانگ، جیک گریسون، سامی عبدالجفار، ژوهای خو، کن گو، جیکوب سانشاین، مینگ-ژر پو، یون لیو، تیم آلتوف، شریکانت نارایانان، پوشمیت کُلی، مارک مالوترا، شوتاک پاتل، یوزهه یانگ، جیمز م. ریگ، شین لیو، و دانیل مک‌دافی. همچنین از شرکت‌کنندگانی که داده‌های خود را برای این مطالعه اهدا کردند، تشکر می‌کنیم.

منبع مقاله: LSM-2: Learning from incomplete wearable sensor data

دیگر هیچ مقاله‌ای را از دست ندهید

محتوای کاملاً انتخاب شده، مطالعات موردی، به‌روزرسانی‌های بیشتر.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مدیریت حرفه‌ای شبکه‌های اجتماعی با رسا وب آفرین

  • افزایش تعامل و دنبال‌کننده در اینستاگرام و تلگرام

  • تولید محتوا بر اساس الگوریتم‌های روز شبکه‌های اجتماعی

  • طراحی پست و استوری اختصاصی با برندینگ شما

  • تحلیل و گزارش‌گیری ماهانه از عملکرد پیج

  • اجرای کمپین تبلیغاتی با بازده بالا

محبوب ترین مقالات

آماده‌اید کسب‌وکارتان را دیجیتالی رشد دهید؟

از طراحی سایت حرفه‌ای گرفته تا کمپین‌های هدفمند گوگل ادز و ارسال نوتیفیکیشن هوشمند؛ ما اینجاییم تا در مسیر رشد دیجیتال، همراه شما باشیم. همین حالا با ما تماس بگیرید یا یک مشاوره رایگان رزرو کنید.