Проверкой фактов на подлинность займется новый алгоритм

График, изображающий степень правдивости тезисов, связанных с географией, историей и развлечениями. Верные тезисы располагаются рядом с диагональю, цвет отображает уверенность в правдивости

График, изображающий степень правдивости тезисов, связанных с географией, историей и развлечениями. Верные тезисы располагаются рядом с диагональю, цвет отображает уверенность в правдивости
(иллюстрация Giovanni Ciampaglia).

Группа исследователей из США разработала алгоритм, который сможет самостоятельно проверять факты на подлинность. Учёные утверждают, что в век поиска информации в Сети такие технологии помогут избежать дезинформации.

Специалисты по цифровым сетям из Университета Индианы разработали новый вычислительный метод, который сможет справиться с непростой для человека задачей — проверкой фактов на подлинность.

Во время первых экспериментов с этим методом учёные создали простую вычислительную систему проверки фактов, которая присваивает баллы правдивости тезисам, касающимся истории, географии и развлечений, а также случайным предложениям, найденным в тексте известной онлайн-энциклопедии "Википедии".

В ходе нескольких экспериментов автоматизированная система последовательно выставляла оценки тезисам в зависимости от уверенности в правильности утверждений.

"Результаты оказались захватывающими и обнадёживающими, – делится сотрудник центра комплексных сетей и системных исследований при Университете Индианы Джованни Лука Чампалья (Giovanni Luca Ciampaglia), возглавлявший исследование. – Мы живём в эпоху информационной перегрузки, которая порождает обильную дезинформацию, неподтверждённые слухи и теории заговора, объём которых подрывает авторитет журналистов и общественности.

Наши эксперименты указывают на то, что многие абстрактные сложные задачи, с которыми сталкивается человек при анализе сетевого контента, можно решить вычислительно, и проверка истинности — одна из таких задач".

В качестве источника информации для эксперимента команда обратилась к "Википедии" из-за разносторонности и открытости ресурса. Хотя данные из статей "Википедии" не всегда точны на 100%, предыдущие исследования показали, что онлайн-энциклопедия почти так же надёжна, как и традиционные энциклопедии, но при этом охватывает больше областей знаний.

Учёные взяли фактическую информацию из инфобоксов на сайте и составили график верности трёх миллионов концепций и 23 миллионов связей между ними. Связи между двумя понятиями можно было назвать фактическими заявлениями (пример: "Сократ – человек" или "Париж – столица Франции", "Рим – столица Италии"). Команда применила свой алгоритм, чтобы ответить на простые вопросы, относящиеся к географии, истории и развлечениям. Например, программа соотносила национальности и государства, президентов и их супругов, оскароносных режиссёров и их фильмы, с которыми они выиграли награду.

Затем учёные использовали алгоритм для проверки фактов в отрывках из основного текста "Википедии", которые ранее были помечены человеком как истинные или ложные. В итоге они обнаружили положительную корреляцию между оценкой истинности, произведённую с помощью алгоритма.

Примечательно, что вычислительный метод оказался способен оценить правдивость даже той информации, что не содержится непосредственно в инфобоксах.

"Алгоритм, "измеряющий" правдивость тезисов, полагается также на косвенные связи между понятиями. – объясняет Чампалья. – Наш метод основывается на графиках, которые позволяют раскрыть эти косвенные связи".

Учёные намереваются провести дополнительные эксперименты с использованием графики, которая будет включать в себя информацию и из других источников человеческого знания (например, с открытой базы Freebase, созданной корпорацией Google).

По словам Чампалья, чем больше информации можно будет добавить в базы данных алгоритма, тем лучше будет итоговый результат.

"Дезинформация ставит под угрозу общественное мнение относительно огромного круга глобальных проблем социума, – комментирует соавтор исследования Филиппо Менцер (Filippo Menczer). – С увеличением зависимости от Интернета как источника информации, наш мир начинает нуждаться в инструментах, способных побороть дезинформацию, каждый день настигающую нас. Вычислительные фактологические алгоритмы могут стать частью решения этой проблемы".

Результаты исследования были опубликованы в журнале PLoS ONE.