23 декабря 2015 10:18 Дарья Загорская

Роботы будут самостоятельно обучаться с помощью YouTube

Новая программа может составить инструкцию, например, для приготовления яичницы, после сканирования и анализа нескольких видео на ресурсе YouTube
(фото Cornell University).

Команда исследователей разработала программу, которая с помощью информации, полученной на ресурсе YouTube, составляет подробные инструкции, которые могут быть использованы роботами, например, для приготовления яичницы. В будущем, разумеется.

Для того чтобы научиться чему-то новому, будь то кулинарный рецепт, ремонт электрического чайника или картина акварелью, современные пользователи Интернета часто прибегают к помощи ресурса YouTube. Другие люди с большой охотой выкладывают туда свои видеоролики, чтобы кому-то помочь или просто показать, что они умеют.

Команда исследователей из Корнелльского университета (Cornell University) в сотрудничестве со специалистами из Стэнфорда доказала, что получить ценные знания из YouTube может не только человек, но и робот.

Современная робототехника неуклонно стремится к тому, чтобы призвать роботов служить человеку во всевозможных областях, в частности для выполнения работ по дому или для помощи людям с ограниченными возможностями. Но для того чтобы сделать их максимально полезными, необходимо заложить в их "мозг" умение получать информацию из общедоступных источников, анализировать её и выстраивать последовательность действий, которая приведёт к желаемому результату.

Предыдущие разработки в этой области предполагали, что в процессе обучения роботы сканируют картинки, а человек объясняет, что именно видит машина. Уникальность новой платформы, которая получила название Robowatch, состоит в том, что машина становится абсолютно автономной.

Столкнувшись с незнакомой задачей, компьютерный мозг отправляет запрос на YouTube, чтобы получить доступ к коллекции видео на эту тему. Ведущий автор исследования Озан Сенер (Ozan Sener) отмечает в пресс-релизе университета, что недостатка в информации по базовым навыкам точно не будет. Например, ресурс содержит около 180 тысяч видео о том, как приготовить омлет или 281 тысячу видео о том, как завязать галстук-бабочку.

Компьютер сканирует каждый ролик кадр за кадром, отмечая для себя часто появляющиеся объекты, а также считывает субтитры, выделяя в них повторяющиеся слова. Используя эти маркеры, "мозг" выстраивает определённую последовательность действий, создавая подробную инструкцию в фотографиях с комментариями.

Алгоритм также включает в себя подпрограммы для выявления неподходящих роликов, которые соответствуют ключевым словам, но не обучают. Например, если ввести запрос о приготовлении пищи, скорее всего, будет попадаться реклама кухонных принадлежностей или даже мультфильм Рататуй.

В основу работы Robowatch легла масштабная вычислительная система Robo Brain. Последняя понимает человеческую речь и постоянно обучается, используя источники информации в сети Интернет, а также передаёт полученные знания роботам.

Результаты разработок группы Сенера были представлены на Международной конференции по компьютерному зрению ICCV.

В ближайшем будущем авторы Robowatch планируют расширить список ресурсов, которыми может пользоваться их программа и, для начала, добавить в её актив "Википедию".