Команда "Яндекса" разработала метод измерения предпочтений нейросетей

Команда исследователей разработала метод измерения предпочтений у ИИ-моделей. Об этом в эфире телеканала "Россия 24" рассказал руководитель группы ML-разработки Лаборатории ИИ "Яндекс" Радослав Нейчев.

Отвечая на вопрос, могут ли нейросети склоняться к тем или иным выводам без подсказки человека, эксперт отметил, что они создали специальный механизм и разработали подход, который заключается в тестировании "чистой" модели искусственного интеллекта.

"Во-первых, сделали некоторый механизм – бенчмарк – способ замерить предпочтения модели по некоторым направлениям. Потому что, если мы хотим понять, появились ли предпочтения, надо ответить на вопрос, а как мы вообще понимаем, что их нет или они есть. Подход какой? Есть модель, которую никто не трогал, наша индексовая и несколько внешних, и мы ее краской через бенчмарк прогоняем и смотрим. <…> Вот первый этап и наша цель показать, что да, мы можем измерить изменения предпочтению модели", – пояснил Нейчев.

По словам эксперта, второй этап будет направлен на то, чтобы показать возможность явного изменения этих предпочтений без внешнего влияния.

Ранее первый зампредседателя правления Сбербанка Александр Ведяхин заявил, что в данный момент в компании разрабатывают спецнастройки языковой ИИ-модели для исключения преступлений. По его словам, ответственность за совершение противоправных действий с использованием ИИ будет нести пользователь.