27 февраля 2018 15:04 Евгения Ефимова

Создан инструмент для поиска в научных трудах изображений, использованных повторно

Никакого плагиата даже в научных иллюстрациях: новый алгоритм поможет выявить повторное использование изображений.
Фото Global Look Press.

Новое компьютерное программное обеспечение позволяет анализировать тысячи документов и быстро выявлять дубликаты изображений. Ожидается, что алгоритм поможет редакторам научных изданий находить плагиат и сфальсифицированные исследования.

Новое компьютерное программное обеспечение позволяет обнаружить повторно использованные изображения в огромном количестве научно-исследовательских работ.

Группа под руководством Дэниэла Акуньи (Daniel Acuna), специалиста в области машинного обучения из Сиракузского университета, сообщила о создании особого алгоритма, который был использован для обработки сотни тысяч биомедицинских документов в поисках дубликатов изображений. На основе своих результатов учёные спрогнозировали, что 0,6% работ содержат "фальсифицированные" снимки.

Ещё в 2015 году специалисты начали создавать алгоритм. Впоследствии они использовали его для извлечения более чем 2,6 миллиона изображений из 760 тысяч научных статей. Среди иллюстраций были, к примеру, микроснимки клеток и тканей.

После сбора изображений программа изучила снимки, концентрируя своё внимание на отдельных областях (где было больше всего цвета и градаций серого), чтобы получить для каждого фото или иллюстрации характерные цифровые "отпечатки пальцев".

Устранив различные особенности (указатели на иллюстрациях, легенды и другие компоненты), учёные получили порядка двух миллионов снимков.

Отметим, что исследователи брали изображения из научных работ, у которых, например, был одни и те же первые авторы. Это уменьшило вычислительную нагрузку на компьютеры, сравнивающие каждое конкретное изображение с другими из собранной базы.

Из двух миллионов полученных изображений учёные затем изучили порядка 3750 отмеченных снимков, чтобы выяснить, являются ли дубликаты свидетельством намеренного обмана или нет.

Оказалось, что алгоритм вполне может "поймать" недобросовестных авторов, использующих в своих материалах иллюстрации, уже опубликованные в научных трудах. Согласно предположению авторов, около 0,6% научных публикаций содержат фальсифицированные изображения.

Исследователи не могли оценить точность работы алгоритма, отмечает Хани Фарид (Hany Farid) из Дартмутского колледжа, так как не было никакой базы данных известных дубликатов или не дубликатов научных изображений, на которой можно было бы потренироваться и проверить инструмент.

Если редакторы научных журналов будут иметь подобное ПО в своём арсенале, то в будущем им будет намного проще выявлять перед публикацией изображения, использованные неоднократно. В настоящее время это требует больших усилий и сильно зависит от профессионализма конкретного человека.

Как отмечают авторы работы в своей статье, порой учёные вполне уместно используют изображения повторно. Например, если необходимо сравнить старые и новые методы. Но иногда речь может идти о недобросовестном подходе – использовании старых иллюстраций среди новых данных. Редакторам будет легче разобраться в том, какой перед ними случай повторного использования, если сначала машина отыщет среди массива трудов дубликаты изображений.

По словам Акуньи, работа его группы показала, что для этих целей вполне возможно использовать разработанный ими алгоритм. Алгоритм выявит дубликаты иллюстрации, даже если условно новое изображение несколько отличается от оригинала (например, было перевёрнуто, обрезано, изменено в размерах).

Такой инструмент несомненно помог бы бороться со статьями, дублирующими результаты уже опубликованных исследований, и плагиатом. Тем не менее Акунья и его коллеги пока не собираются предоставлять публичный доступ к своей программе. Учёные опасаются, что неотработанная технология может спровоцировать ложные обвинения в адрес авторов исследований, использующих повторные изображения в своих работах.

Разработчики планируют сначала испытать алгоритм, поработав в сотрудничестве с редакторами журналов и организаций, которые занимаются расследованием случаев исследовательской недобросовестности (например, поиском псевдоисследований, не имеющих научной ценности).

Так, Акунья уже обсуждал работу алгоритма с Лорен Квалькенбуш (Lauran Qualkenbush), директором Службы исследовательской добросовестности при Северо-западном университете (Чикаго).

По её словам, было бы чрезвычайно полезно использовать подобную технологию в интересах науки. Она надеется протестировать алгоритм, разработанный командой Акуньи, в ближайшее время.

Сегодня многие журналы проверяют некоторые изображения, но относительно немногие автоматизировали этот процесс. Например, в известном издании Nature проводится выборочная проверка небольшого числа изображений в представленных к публикации статьях.

Некоторые журналы следуют примеру изданий Journal of Cell Biology и The EMBO Journal, сотрудники которых просматривают большинство изображений в предоставленных статьях. Такой процесс занимает много времени. Автоматизированный подход (особенно с учётом прогресса технологий анализа изображений) мог бы ускорить и упростить работу экспертов.

Чтобы лучше выявлять повторное использование изображений в научной литературе, издательским организациям необходимо создать общую базу данных всех опубликованных изображений, с которыми можно было бы сравнивать новые статьи, представленные для публикации, считает Акунья и его коллеги.

Прецедент уже существует: в 2010 году научные издательства совместно работали над отраслевым сервисом, целью которого была борьба с плагиатом. Благодаря объединению научных издательств был создан сервис CrossCheck. Он сравнивает научные тексты и использует программное обеспечение iThenticate для обнаружения плагиата. Сервис с тех пор был переименован в Similarity Check.

На сегодня планов по созданию общеиздательской системы для проверки изображений нет. Отчасти причина в том, что технологии ещё недостаточно развиты. Но, по словам специалистов, следить за разработками в этой области необходимо. Возможно, именно новый алгоритм поможет специалистам создать подобный сервис.

Описание нового инструмента представлено в статье, опубликованной на сайте bioRxiv.

Ранее авторы проекта "Вести.Наука" (nauka.vesti.ru) рассказывали о том, что европейские лидеры призывают открыть доступ ко всем научным публикациям к 2020 году. Некоторые не стали дожидаться этого срока: НАСА намерены открыть доступ ко всем своим исследованиям в ближайшее время. Также мы рассказывали о семи правилах успешной публикации по версии эксперта журнала Nature.