Общие системы ИИ, такие как GPT OpenAI, зависят от больших объемов обучающих данных для повышения точности и производительности модели. Исследовательские или медицинские приложения ИИ, которым часто не хватает как обучающих данных, так и вычислительной мощности, могут использовать новую модель, разработанную для повышения эффективности, релевантности и точности выходных данных ИИ для более специализированных сценариев.
Большие предварительно обученные языковые модели (PLM) используют все более крупные наборы данных, такие как Wikipedia, для обучения и оптимизации моделей машинного обучения (ML) для выполнения определенной задачи. Хотя точность и производительность больших PLM, таких как ChatGPT, со временем улучшились, большие PLM не работают хорошо в ситуациях, когда большие наборы данных недоступны или не могут быть использованы из-за ограничений вычислений.
Проще говоря, необходимо новое решение на основе ИИ для эффективного использования МО в исследовательских, медицинских и других приложениях, где отсутствуют огромные объемы информации для адекватного обучения существующих моделей ИИ.
Чтобы решить эту проблему, группа компьютерных ученых из Агентства по научным технологиям и исследованиям (A*STAR) в Сингапуре недавно разработала метод совместного вливания знаний, который эффективно обучает модель МО с меньшими объемами обучающих данных. В этом случае исследователи создали модель, которая более точно определяет позицию или мнение за или против определенной цели, такой как продукт или политический кандидат , на основе контекста твита, коммерческого обзора или других языковых данных.
Группа опубликовала свое исследование в журнале Big Data Mining and Analytics 28 августа.
«Определение позиции по своей сути является задачей с низкими ресурсами из-за разнообразия целей и ограниченной доступности аннотированных данных. Несмотря на эти проблемы, определение позиции имеет решающее значение для мониторинга социальных сетей , проведения опросов и информирования стратегий управления», — сказал Ян Мин, старший научный сотрудник Центра исследований передового ИИ (CFAR) в A*STAR и первый автор статьи. «Улучшение методов на основе ИИ для определения позиции с низкими ресурсами имеет важное значение для обеспечения эффективности и надежности этих инструментов в реальных приложениях».
Меньшие наборы данных для обучения могут оказать глубокое влияние на точность моделей прогнозирования ИИ. Например, цель «нарушение закона» в Википедии ссылается на хэви-метал песню Judas Priest, а не на истинное определение термина: действовать незаконным образом. Этот тип ошибочных данных для обучения может серьезно повлиять на производительность моделей МО.
Чтобы повысить точность определения позиции с помощью ИИ, которая зависит от меньших наборов обучающих данных, исследовательская группа сосредоточилась на механизмах совместной модели для: проверки знаний из разных источников и более эффективного изучения выборочных признаков.
«Большинство систем ИИ полагаются на предварительно обученные модели, разработанные с использованием огромных, заранее определенных наборов данных, которые могут устареть, что приведет к снижению производительности. Наш предлагаемый метод решает эту проблему путем интеграции проверенных знаний из нескольких источников, гарантируя, что модель останется актуальной и эффективной», — сказал Мин.
«Предварительно обученные большие языковые модели дополнительно требуют обширных аннотированных данных для обучения из-за их крупномасштабных параметров. Наш метод представляет собой коллаборативный адаптер, который включает минимальное количество обучаемых параметров, … повышая эффективность обучения и улучшая возможности изучения признаков», — сказал Мин.
Команда также поставила перед собой задачу повышения эффективности оптимизации крупных PLM-систем путем поэтапного внедрения алгоритма оптимизации.
Для проверки своей модели исследователи провели эксперименты на трех общедоступных наборах данных обнаружения позы: VAST , P-Stance и COVID-19-Stance . Затем производительность модели команды сравнивалась с производительностью, достигнутой моделями TAN, BERT, WS-BERT-Dual и другими моделями ИИ.
Измеренная с помощью оценок F1, точности модели МО, новая модель обнаружения позиции исследовательской группы для данных обучения с низкими ресурсами постоянно показывала более высокие результаты, чем другие модели ИИ, использующие все три набора данных, с оценками F1 от 79,6% до 86,91%. Оценка F1 70% или выше в настоящее время считается хорошей.
Новая модель определения позиции значительно повышает практичность ИИ в более специализированных исследовательских условиях и предоставляет шаблон для дополнительной оптимизации в будущем.
«Наша главная цель — эффективное обучение в реальных приложениях с низкими ресурсами. В отличие от крупных компаний, занимающихся ИИ, которые сосредоточены на разработке общих моделей искусственного интеллекта (AGI), наша цель — создать более эффективные методы ИИ, которые принесут пользу как общественности, так и исследовательскому сообществу», — сказал Джои Тяньи Чжоу, главный научный сотрудник CFAR и соавтор статьи.
В исследовании также принял участие Айвор В. Цанг из Центра передовых исследований искусственного интеллекта (CFAR) и Института высокопроизводительных вычислений (IHPC) Агентства по научным технологиям и исследованиям (A*STAR) в Сингапуре.