Российские разработчики "заставили" людей смотреть друг другу в глаза во время видеоконференций

Новый алгоритм "заставит" людей смотреть в глаза друг другу.

Новый алгоритм "заставит" людей смотреть в глаза друг другу.
Фотография Global Look Press.

Всегда приятно общаться с человеком, если он смотрит тебе прямо в глаза. Но взгляд человека, разговаривающего с нами, например, по Skype, как правило, направлен вниз или в сторону, поскольку на экран смотреть проще, чем прямо в камеру. Новая система от учёных Сколтеха решает эту проблему.

Российские учёные из Сколковского института технологий разработали алгоритм, позволяющий изменять направление взгляда человека на изображениях или на видео в режиме реального времени.

Многие замечали, что во время разговоров, например, по Skype собеседники обычно смотрят на экран, а не в камеру, из-за чего взгляд человека направлен вниз или в сторону. С подобной проблемой сталкиваются и телевизионные дикторы, которые должны одновременно читать текст и смотреть прямо на зрителей.

Обычно для решения этой проблемы (в литературе оно носит название "коррекция взгляда") прибегают к помощи дорогостоящих технических средств.

Система исследователей из Группы компьютерного зрения Сколтеха, работающей под руководством профессора Виктора Лемпицкого, использует лишь обыкновенную цифровую камеру ноутбука или смартфона и не требует никаких дополнительных устройств.

В основе технологии лежит применение глубоких нейронных сетей — метода машинного обучения, позволившего за последние несколько лет добиться выдающихся результатов в таких сферах, как обработка текстовых данных, распознавание речи и компьютерное зрение.

Так, сначала в кадре при помощи специального алгоритма Deep Warp локализуется область глаз и вычисляется набор характерных точек органа зрения. Эти данные вместе с углом, на который нужно скорректировать направление взгляда, поступают на вход глубокой нейросети.

"Результатом работы модели является так называемое "поле смещений", то есть деформация, которую нужно применить ко входному изображению глаза, чтобы получить скорректированное. Отсюда и название метода ー DeepWarp, что означает "глубокая деформация", — объясняет автор исследования Ярослав Ганин. Иными словами, программа рассчитывает, как нужно изменить изображение глаз человека, чтобы казалось, будто он смотрит прямо на собеседника.

 

По словам Лемпицкого, эта работа является продолжением другого проекта, который идёт уже третий год. "Сейчас нам удалось значительно улучшить метод за счёт применения алгоритмов глубокого обучения. До этого мы могли корректировать взгляд только на фиксированный угол. Теперь же мы можем перенаправлять взгляд не только на произвольный угол, но и в произвольном направлении", — отмечает он.

Исследователи говорят, что дальнейшим направлением их работы будет ускорение созданной программы. "Сейчас алгоритм работает в режиме реального времени на графическом процессоре, а нам бы хотелось получить сравнимое время на любом стареньком ноутбуке без потери качества и универсальности модели, — добавляет соавтор исследования Диана Сунгатуллина.

Результаты исследования, описанные в препринте статьи, учёные представят в октябре на 14-ой Европейской Конференции по Компьютерному Зрению (European Conference on Computer Vision).