Исследователи внедряют генеративный ИИ для анализа сложных табличных данных

Новости сегодня - Исследователи внедряют генеративный ИИ для анализа сложных табличных данных

Новый инструмент упрощает для пользователей баз данных выполнение сложного статистического анализа табличных данных без необходимости знать, что происходит за кулисами.

GenSQL, генеративная система искусственного интеллекта для баз данных, может помочь пользователям делать прогнозы, обнаруживать аномалии, угадывать пропущенные значения, исправлять ошибки или генерировать синтетические данные всего несколькими нажатиями клавиш.

Например, если бы система использовалась для анализа медицинских данных пациента, у которого всегда было высокое кровяное давление , она могла бы уловить показатель кровяного давления, который является низким для этого конкретного пациента, но в остальном находился бы в пределах нормы.

GenSQL автоматически интегрирует табличный набор данных и генеративную вероятностную модель ИИ , которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.

Более того, GenSQL можно использовать для создания и анализа синтетических данных, которые имитируют реальные данные в базе данных . Это может быть особенно полезно в ситуациях, когда конфиденциальные данные не могут быть переданы, например, медицинские карты пациентов, или когда реальные данные разрозненны.

Этот новый инструмент создан на основе SQL — языка программирования для создания и обработки баз данных, который был представлен в конце 1970-х годов и используется миллионами разработчиков по всему миру.

«Исторически SQL научил деловой мир тому, что может делать компьютер. Им не нужно было писать специальные программы, им просто нужно было задавать вопросы базе данных на языке высокого уровня.

«Мы считаем, что когда мы перейдем от простого запроса данных к постановке вопросов о моделях и данных, нам понадобится аналогичный язык, который научит людей задавать последовательные вопросы, которые можно задать компьютеру, имеющему вероятностную модель данных», — говорит Викаш Мансингхка, старший автор статьи, посвященной GenSQL, а также главный научный сотрудник и руководитель проекта вероятностных вычислений на кафедре мозга и когнитивных наук Массачусетского технологического института.

Исследование опубликовано в журнале Proceedings of the ACM on Programming Languages.

Когда исследователи сравнили GenSQL с популярными подходами на основе ИИ для анализа данных, они обнаружили, что он не только быстрее, но и дает более точные результаты. Важно, что вероятностные модели, используемые GenSQL, объяснимы, поэтому пользователи могут читать и редактировать их.

«Изучая данные и пытаясь найти какие-то значимые закономерности, просто используя несколько простых статистических правил, можно упустить важные взаимодействия. На самом деле вы хотите уловить корреляции и зависимости переменных, которые могут быть довольно сложными, в модели.

«С помощью GenSQL мы хотим предоставить возможность большому количеству пользователей запрашивать свои данные и модели, не зная всех деталей», — добавляет ведущий автор Матье Юо, научный сотрудник кафедры мозговых и когнитивных наук и участник проекта вероятностных вычислений.

К ним в работе присоединились аспиранты Массачусетского технологического института Матин Гавами и Александр Лью; научный сотрудник Кэмерон Фрир; Ульрих Шехтель и Зейн Шелби из Digital Garage; Мартин Ринард, профессор кафедры электротехники и компьютерных наук Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и Ферас Саад, доцент Университета Карнеги-Меллона.

Исследование было недавно представлено на конференции ACM по проектированию и реализации языков программирования ( PLDI 2024 ).

Объединение моделей и баз данных

SQL, что означает язык структурированных запросов, — это язык программирования для хранения и обработки информации в базе данных. В SQL люди могут задавать вопросы о данных, используя ключевые слова, например, суммируя, фильтруя или группируя записи базы данных.

Однако запрос модели может дать более глубокое понимание, поскольку модели могут фиксировать, что данные подразумевают для отдельного человека. Например, женщина-разработчик, которая задается вопросом, недоплачивают ли ей, вероятно, больше заинтересована в том, что данные о зарплате подразумевают для нее лично, чем в тенденциях из записей базы данных.

Исследователи заметили, что SQL не обеспечивает эффективного способа внедрения вероятностных моделей ИИ, но в то же время подходы, использующие вероятностные модели для вывода выводов, не поддерживают сложные запросы к базе данных.

Чтобы заполнить этот пробел, они создали GenSQL, позволяющий выполнять запросы как к набору данных, так и к вероятностной модели, используя простой, но мощный формальный язык программирования.

Пользователь GenSQL загружает свои данные и вероятностную модель, которые система автоматически интегрирует. Затем он может выполнять запросы к данным, которые также получают входные данные от вероятностной модели, работающей за кулисами. Это не только позволяет выполнять более сложные запросы, но и может давать более точные ответы.

Например, запрос в GenSQL может быть таким: «Насколько вероятно, что разработчик из Сиэтла знает язык программирования Rust?» Простой просмотр корреляции между столбцами в базе данных может упустить тонкие зависимости. Включение вероятностной модели может охватить более сложные взаимодействия.

Плюс, вероятностные модели, которые использует GenSQL, можно проверять, поэтому люди могут видеть, какие данные использует модель для принятия решений. Кроме того, эти модели предоставляют меры калиброванной неопределенности вместе с каждым ответом.

Например, при такой калиброванной неопределенности, если кто-то запросит у модели прогнозируемые результаты различных методов лечения рака для пациента из группы меньшинства, которая недостаточно представлена ​​в наборе данных, GenSQL сообщит пользователю, что это неопределенно, и насколько это неопределенно, вместо того, чтобы самоуверенно пропагандировать неправильное лечение.

Более быстрые и точные результаты

Чтобы оценить GenSQL, исследователи сравнили свою систему с популярными базовыми методами, использующими нейронные сети. GenSQL был в 1,7–6,8 раз быстрее этих подходов, выполняя большинство запросов за несколько миллисекунд и предоставляя более точные результаты.

Они также применили GenSQL в двух тематических исследованиях: в одном из них система выявила неправильно маркированные данные клинических испытаний, а в другом — сгенерировала точные синтетические данные, отражающие сложные взаимосвязи в геномике.

Далее исследователи хотят применить GenSQL более широко для проведения крупномасштабного моделирования человеческих популяций. С помощью GenSQL они могут генерировать синтетические данные для вывода выводов о таких вещах, как здоровье и зарплата, контролируя, какая информация используется в анализе.

Они также хотят сделать GenSQL более простым в использовании и более мощным, добавив в систему новые оптимизации и автоматизацию. В долгосрочной перспективе исследователи хотят позволить пользователям делать запросы на естественном языке в GenSQL. Их цель — в конечном итоге разработать эксперта по искусственному интеллекту, похожего на ChatGPT, с которым можно было бы поговорить о любой базе данных, который обосновывает свои ответы с помощью запросов GenSQL.

Исследователи внедряют генеративный ИИ для анализа сложных табличных данных

Понравилась новость - поделитесь с Друзьями!

Новости партнеров:

Рубрика: IT, Наука, Новости

Вам могло бы понравиться:

В России создали ИИ для выявления мошенников в цифровых каналах обслуживания В России создали ИИ для выявления мошенников в цифровых каналах обслуживания
Стартап ИИ Perplexity подтверждает интерес к покупке TikTok Стартап ИИ Perplexity подтверждает интерес к покупке TikTok
Тепловая стабилизация проводящего полимера упрощает производство биоэлектроники Тепловая стабилизация проводящего полимера упрощает производство биоэлектроники
The Sims FreePlay: Полный гид по игре, которая оживляет мечты The Sims FreePlay: Полный гид по игре, которая оживляет мечты

Оставить комментарий

Вы должны Войти, чтобы оставить комментарий.

©2015 - 2025 Актуальные Новости Сегодня. Все права защищены.
При копировании материалов активная гиперссылка на этот сайт ОБЯЗАТЕЛЬНА!