Эксперт Нейчев: нейросети "Яндекса" обладают "моральным компасом"

Современные нейросети обладают "моральным компасом", который призван защитить пользователей от неэтичных ответов. Об этом в эфире телеканала "Россия 24" рассказал руководитель группы ML-разработки Лаборатории ИИ "Яндекс" Радослав Нейчев.

Эксперт отметил, что в ИИ-модель можно зашить отдельные предпочтения или убеждения, так как с математической точки зрения это огромная формула, разделенная на миллиарды параметров, которые нетривиально связаны между собой. По его словам, если модель научить следовать инструкциям, то она будет делать это.

"Но если в нее не закладывать эти самые ограничения, какой-то "моральный компас", то ее точно так же можно спросить о каких-то абсолютно нехороших вещах, и она на голубом глазу ответила бы, если бы ее дополнительно не ограничивали, потому что она много чего знает и следует инструкциям человека. Так что вот этот механизм выравнивания обучения на обратной связи людей как раз-таки и вносит ограничения в модели", – рассказал Нейчев.

При этом эксперт признал, что устанавливаемые для нейросети ограничения можно обойти, если правильно переформулировать запрос и объяснить модели, что "это нормально".

Ранее Нейчев пояснил, что нейросети делают выводы скрытно от пользователя. Все начинается с генерации цепочки рассуждений.