Искусственный интеллект ответит на вопросы по новостям дня

Вероятно, в скором времени об утренних новостях людям будут рассказывать компьютеры, которые только что их сами прочитали.

Вероятно, в скором времени об утренних новостях людям будут рассказывать компьютеры, которые только что их сами прочитали.
Фотография Global Look Press.

С чего начинается день современного человека? Как правило, с того, что он смотрит, читает или слушает новости. Но, возможно, скоро этим будет заниматься искусственный интеллект, который затем расскажет о главных событиях своего хозяину.

Возможно, скоро день человека будет начинаться с того, что он будет обсуждать произошедшее в своё отсутствие с компьютером. Искусственный интеллект (ИИ) уже научился "читать" новостные ленты и отвечать на вопросы о новостных статьях.

По крайней мере, на сегодняшний день создание систем ИИ, которые смогут извлекать данные из существующих информационных хранилищ человечества, является одной из самых больших целей компьютерной науки.

Учёные отмечают, что давно хотят добиться того, чтобы компьютер смог понять документ так, чтобы впоследствии без труда ответить на ряд вопросов по нему. Но пока это недостижимо, так как системы машинного обучения нуждаются в базах данных, снабжённых комментариями человека.

Чтобы приблизиться к цели, в прошлом году команда учёных проекта DeepMind компании Google использовала статьи с сайта DailyMail и CNN. По ним они обучали алгоритм чтению и пониманию коротких историй. Исследователи использовали краткое изложение в верхней части статьи, чтобы научить алгоритм искать ключевые моменты текста.

Сейчас группа исследователей во главе с Крисом Мэннингом (Chris Manning) из Стэндфордского университета разработала алгоритм, который превзошёл предыдущие показания, превосходя результат на десять процентов по статьям CNN и на восемь процентов по заметкам Daily Mail. В целом алгоритм набрал 70 баллов из 100 возможных.

Улучшения удалось добиться за счёт упрощения модели работы DeepMind. "Некоторые вещи просто вызывали ненужные осложнения, — говорит Мэннинг. — Вы избавляетесь от этого, и показатели сразу ползут вверх".

"Это имеет место быть. Делая что-то сложнее, вы не всегда получаете хороший результат", — говорит Роберт Фредеркинг (Robert Frederking) из Университета Карнеги–Меллона.

Создатели ИИ всё время ищут компромисс: если алгоритм является сложным, он, соответственно, может справляться с более обширным объёмом данных, но для хорошего выполнения работы ему нужен больший архив входящей информации, объясняет Фредеркинг. Более простые ИИ могут тренироваться быстрее на небольшом объёме данных.

По словам Мэннинга, из одного конкретного набора данных компьютер не сможет узнать многого. Так, учёные из DeepMind подготовили сотни тысяч статей для ИИ и использовали программу для их просмотра, но проблем избежать не удалось. Система присвоила одинаковые ярлыки существительным и местоимениям, упоминавшимся в текстах.

Новая база данных от учёных Стэндфордского университета расширила "хранилище", вместив в себя новые существительные и новые местоимения. Увеличение маркированных слов помогло улучшить навыки чтения ИИ.

Специалисты отмечают, что их главная цель состоит в том, чтобы выяснить, какая глубина понимания языка, собственно, требуется для анализа текста ИИ.

Преимущество использования статей Daily Mail и CNN было в том, что их там было очень много, говорит Джулия Хоккенмайер (Julia Hockenmaier) из Иллинойского университета в Урбана-Шампейн. Чем больше текстов узнаёт алгоритм, тем "умнее" он становится.

Но прежде, чем мы пустим ИИ в свободное плавание и позволим ему собирать данные из текстов, нужно решить ещё несколько проблем, предупреждает Фредеркинг. "Трудно пока определить, какую информацию оставлять, а какую выкидывать, — объясняет учёный. – Если вы не будете осторожны, то ИИ будет уверен в том, чего на самом деле не было".

Препринт статьи, описывающей результаты исследования, был опубликован на сайте arXiv.org.

Добавим, что "Вести.Наука" рассказывали о новой компьютерной программе, которая лучше человека определяет место по фотографии.