Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 1

LSM-2: Прорыв в обучении на неполных данных с помощью адаптивного маскирования

Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 1

Google Researchers Introduced LSM-2 с Adaptive and Inherited Masking (AIM): Прямое Обучение на Неполных Данных Носимых Устройств

Система носимых устройств меняет подход к мониторингу здоровья, позволяя непрерывно собирать физиологические и поведенческие данные, такие как частота сердечных сокращений, активность, температура и проводимость кожи. Однако данные, полученные от этих устройств, часто бывают неполными из-за сбоев в работе сенсоров, снятия устройства, зарядки, артефактов движения и других помех. Это создает серьезные проблемы для самоконтролируемого обучения (SSL) и основ моделей, которые, как правило, требуют полных и регулярных потоков данных. Традиционные методы часто полагаются на имputation данных или отбрасывание неполных наблюдений, что может привести к смещению или потере ценной информации.

Проблема: Неполнота Данных Носимых Устройств

Фрагментация данных — это серьезная проблема. В одном наборе данных из 1,6 миллиона образцов носимых данных за день ни один из образцов не был полностью полным; неполнота данных повсюду и часто структурирована в длинные пробелы, а не в простые случайные пропуски.

Причины Неполноты

Распространенные причины включают:

  • Выключенное устройство (зарядка или не надето)
  • Выборочная деактивация сенсоров (для экономии энергии или в зависимости от операции)
  • Артефакты движения или шум окружающей среды
  • Сигналы, выходящие за пределы допустимого диапазона или физиологически невозможные, отфильтровываются на этапе предварительной обработки

Влияние на Моделирование

Многие клинически значимые физиологические паттерны (например, циркадные ритмы, вариабельность сердечного ритма) требуют анализа длинных последовательностей, где неполнота данных почти гарантирована.

Adaptive and Inherited Masking (AIM): Технический Подход

Ключевые Концепции

AIM объединяет два типа маскирования для надежного обучения:

  • Унаследованная маска: Отмечает токены, соответствующие реальной неполноте в сенсорных данных.
  • Искусственная маска: Случайно маскирует наблюдаемые токены, чтобы предоставить цели для восстановления в процессе самоконтролируемого предобучения.

Эти маски комбинируются и обрабатываются через структуру энкодера-декодера на основе трансформеров, что позволяет модели:

  • Обучаться напрямую на неполных данных без явной имputation.
  • Динамически адаптироваться к реальным пропускам данных во время вывода.
  • Создавать представления, устойчивые к частичным и систематическим пробелам в данных.

Стратегии Маскирования для Предобучения

AIM использует несколько стратегий:

  • Случайная имputation: Удаление 80% токенов для имитации шума сенсора.
  • Темпоральные срезы: Удаление 50% временных окон (все сенсоры пропущены в случайные периоды).
  • Срезы сенсоров: Удаление 50% сенсорных каналов на протяжении всего дня (моделирование периодов отключения сенсоров).

AIM сочетает в себе эффективность маскирования dropout (удаление из вычислений) и гибкость маскирования внимания (поддержка динамически изменяющейся неполноты), позволяя модели масштабироваться на длинные входные последовательности (дневные >3000 токенов).

Данные и Подробности Предобучения

Модель была обучена на 40 миллионах часов многомодальных сенсорных данных, собранных от 60,440 участников с марта по май 2024 года. Сенсоры включали:

  • Фотоплетизмография (PPG)
  • Акселерометр
  • Электродермическая активность (EDA)
  • Температура кожи
  • Алтиметр

Каждое устройство предоставляло агрегированные данные за минуту на протяжении 24 часов, участники представляли широкий диапазон возрастов (18–96), полов и классов ИМТ.

Оценка и Результаты

Задачи Низшего Уровня

Задачи низшего уровня включали:

  • Метаболическое исследование (прогноз гипертонии, тревожности; n=1250 помеченных пользователей)
  • Распознавание активности (20 классов активности, 104086 событий)

Качественные Результаты

LSM-2 с AIM оценивалась по:

  • Классификация: бинарная гипертония, тревожность и распознавание 20 классов активности
  • Регрессия: возраст и ИМТ
  • Генеративные задачи: восстановление пропущенных данных сенсоров (случайная имputation, временные/сигнальные пробелы)

Заключение

LSM-2 с Adaptive and Inherited Masking представляет собой значительный шаг вперед в использовании ИИ для получения медицинских данных на основе реальных данных сенсоров. Прямо решая проблемы структурированной неполноты и объединяя генеративные и дискриминационные возможности в одной эффективной и надежной модели, этот подход закладывает важный фундамент для будущего носимой и медицинской ИИ в условиях реальных, несовершенных данных.

Обратите внимание на публикацию и технические детали. Все заслуги за это исследование принадлежат исследователям данного проекта.

Новости в сфере искусственного интеллекта