Эксперт отметил, что в ИИ-модель можно зашить отдельные предпочтения или убеждения, так как с математической точки зрения это огромная формула, разделенная на миллиарды параметров, которые нетривиально связаны между собой. По его словам, если модель научить следовать инструкциям, то она будет делать это.
"Но если в нее не закладывать эти самые ограничения, какой-то "моральный компас", то ее точно так же можно спросить о каких-то абсолютно нехороших вещах, и она на голубом глазу ответила бы, если бы ее дополнительно не ограничивали, потому что она много чего знает и следует инструкциям человека. Так что вот этот механизм выравнивания обучения на обратной связи людей как раз-таки и вносит ограничения в модели", – рассказал Нейчев.
При этом эксперт признал, что устанавливаемые для нейросети ограничения можно обойти, если правильно переформулировать запрос и объяснить модели, что "это нормально".
Ранее Нейчев пояснил, что нейросети делают выводы скрытно от пользователя. Все начинается с генерации цепочки рассуждений.