Для того чтобы научиться чему-то новому, будь то кулинарный рецепт, ремонт электрического чайника или картина акварелью, современные пользователи Интернета часто прибегают к помощи ресурса YouTube. Другие люди с большой охотой выкладывают туда свои видеоролики, чтобы кому-то помочь или просто показать, что они умеют.
Команда исследователей из Корнелльского университета (Cornell University) в сотрудничестве со специалистами из Стэнфорда доказала, что получить ценные знания из YouTube может не только человек, но и робот.
Современная робототехника неуклонно стремится к тому, чтобы призвать роботов служить человеку во всевозможных областях, в частности для выполнения работ по дому или для помощи людям с ограниченными возможностями. Но для того чтобы сделать их максимально полезными, необходимо заложить в их "мозг" умение получать информацию из общедоступных источников, анализировать её и выстраивать последовательность действий, которая приведёт к желаемому результату.
Предыдущие разработки в этой области предполагали, что в процессе обучения роботы сканируют картинки, а человек объясняет, что именно видит машина. Уникальность новой платформы, которая получила название Robowatch, состоит в том, что машина становится абсолютно автономной.
Столкнувшись с незнакомой задачей, компьютерный мозг отправляет запрос на YouTube, чтобы получить доступ к коллекции видео на эту тему. Ведущий автор исследования Озан Сенер (Ozan Sener) отмечает в пресс-релизе университета, что недостатка в информации по базовым навыкам точно не будет. Например, ресурс содержит около 180 тысяч видео о том, как приготовить омлет или 281 тысячу видео о том, как завязать галстук-бабочку.
Компьютер сканирует каждый ролик кадр за кадром, отмечая для себя часто появляющиеся объекты, а также считывает субтитры, выделяя в них повторяющиеся слова. Используя эти маркеры, "мозг" выстраивает определённую последовательность действий, создавая подробную инструкцию в фотографиях с комментариями.
Алгоритм также включает в себя подпрограммы для выявления неподходящих роликов, которые соответствуют ключевым словам, но не обучают. Например, если ввести запрос о приготовлении пищи, скорее всего, будет попадаться реклама кухонных принадлежностей или даже мультфильм Рататуй.
В основу работы Robowatch легла масштабная вычислительная система Robo Brain. Последняя понимает человеческую речь и постоянно обучается, используя источники информации в сети Интернет, а также передаёт полученные знания роботам.
Результаты разработок группы Сенера были представлены на Международной конференции по компьютерному зрению ICCV.
В ближайшем будущем авторы Robowatch планируют расширить список ресурсов, которыми может пользоваться их программа и, для начала, добавить в её актив "Википедию".