"Яндекс" поможет робомобилям справиться со сдвигом данных

"Яндекс" выложил в свободный доступ набор данных, который должен помочь создать более совершенные алгоритмы для самоуправляемых автомобилей. А именно — сделать так, чтобы они успешнее справлялись с так называем "сдвигом данных", проблемой, возникающей при внезапной смене условий на дороге.

"Яндекс" опубликовал часть данных, собранных его беспилотным подразделением. 1600 часов движения робомобилей, разбитых на 600 000 размеченных отрезков из поездок по дорогам России, Израиля и США в хорошую погоду, в снег и в дождь.

Такой массив данных (а уверяют, что это теперь самый большой набор из общедоступных) компания выложила в открытый доступ для конкурса Shifts Challenge, который "Яндекс" проведет вместе с учёными из Оксфорда и Кембриджа. И, как говорят в компании, самая главная задача конкурса – привлечь внимание к проблеме "сдвига данных" в машинном обучении.

"Сдвиг данных — это примерно следующее. Вот вы приехали в Лондон, а там движение с другой стороны, другие марки машин, немного другие ПДД, и вообще другой город. Вот это сдвиг данных — поначалу вы будете водить осторожно, неуверенно, потом вы быстро адаптируетесь и будет все хорошо. И мы примерно такое же хотим от наших машин: чтобы модели, обученные в одних условиях, так же хорошо работали в других условиях.

Проблема сдвига данных известна давно, и много кто над ней работал, но для ее решения требуются большие корпуса, большое количество данных с большим количество примеров настоящих сдвигов из жизни и для разных задач. Но, к сожалению, большинство датасетов, которые сейчас существуют, маленькие и в них синтетически созданные сдвиги. Этого для успешного решения проблемы не хватает".

Андрей Малинин
Старший исследователь Yandex Research

Для понимания масштабов опыта, которым обладают лидеры отрасли: "Яндекс" в марте этого года объявил, что его робомобили суммарно проехали 10 млн километров. Гугловская Waymo, которая начала беспилотные разработки существенно раньше, разменяла уже 30 млн. И им есть чем поделиться не только с менее крупными компаниями, но и друг с другом. Просто потому, что у каждой из компаний свой набор условий тестирования.

"У нас есть задача предсказания движения траектории других автомобилей, очень важная в беспилотном стеке. И мы можем видеть, что если мы возьмем за обучающую выборку только Москву летом, то качество предсказания траектории в других городах будет ниже. Мы пытаемся придумать другие алгоритмы машинного обучения, у которых качество на Тель-Авиве будет выше. Например, мы как раз разметили, какие сдвиги есть: погодные условия, время дня, города и т.д. У нас даже есть разметка — классификация разных траекторий: траектория ускоряющаяся, обгоняющая, такие вещи. Мне кажется, такой дотошной разметки нет у других датасетов, потому что они нацелены на другие задачи".

Андрей Малинин
Старший исследователь Yandex Research

В компании также подчеркивают, что все опубликованные данные обезличены: датасет содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и прочее), но не использует видео, где были бы видны номера машин или лица прохожих.

"Яндекс" не первым выкладывает в паблик свой массив накопленных данных с тренировок робомобилей. Это стало хорошим тоном в отрасли. Доступ к своим датасетам, предназначенным для обучения нейросетей беспилотных машин, ранее открыли гугловская "дочка" – компания Waymo, автопроизводители Ford и Audi, компания Aptiv Autonomous Mobility и сервис онлайн-заказа такси Lyft (он, правда, потом свое беспилотное подразделение продал).