28 июня 2017 17:06

Ольга Инькова: статистический метод дает основания утверждать, что "Тихий Дон" написан Шолоховым

Инькова

Сейчас неточную науку лингвистику пытаются приблизить к точной науке. Можно посчитать, сколько раз слово "кстати" встречается у Достоевского. При помощи статистических методов исследовали, какой процент в тексте "Тихого Дона" и в других произведениях Шолохова занимают его специфические выражения.

Долгие годы мне говорили, что в филологи идут те, кто ничего не понимает в точных науках — по остаточному принципу. Что филологи и филология никому не нужны и неинтересны. Отчасти из-за этой установки я не стала филологом, хотя мне до дрожи, до судорог нравилось разбираться в языковых нюансах. Ольге Иньковой-Манзотти повезло больше: она не только стала заниматься любимым делом, но и стала профессором университета в Женеве. Хотя, конечно, говорить о везении не совсем уместно, когда дело касается исследований и открытий. С профессором Иньковой-Манзотти мы обсудили точную науку лингвистику, Big Data, идиостиль Достоевского и Шолохова, ту часть лингвистики, которая занимается коммуникациями. А также перспективы замещения переводчиков компьютерами, и как скоро это произойдет.

- В первую очередь я бы хотела узнать о конференции, на которой ты побывала в Москве. Чем она важна и интересна, что к нам приехал уважаемый профессор из Швейцарии?

- Конференция называется "Диалог", и мне кажется, что название очень символично. Это конференция по компьютерной лингвистике и новым технологиям. Изначально она задумывалась ради изучения возможностей использования технологий для анализа русского языка. Сейчас же модны автоматический анализ и обработка текста, машинный перевод: это помогает решить много разных проблем. Собственно, благодаря обработке текста получилась всем сегодня известная Big Data, которая используется в самых неожиданных областях, например, в туризме. Потому что благодаря Big Data становится ясно, какая достопримечательность такого-то города чаще посещается местными жителями, а какая — туристами. И, исходя из этого, туроператоры могут построить и предложить туристические программы. Или можно узнать, в меню какого ресторана какое блюдо пользуется наибольшим успехом. Причем это высчитывается на основании миллионов нюансов - от запросов в Интернете до заказов билетов. И абсолютно разные механизмы позволяют получать и анализировать данные в огромных количествах, поэтому они и называются Big Data. На сегодня это, пожалуй, основное направление исследований по машинной, автоматической обработке текста. Это, конечно, далеко ушло от изначальной задачи конференции применять методы компьютерной лингвистики для анализа русского языка. Но диалог и заключается в том, что оставляется место для исследований, посвященных русскому языку с применением так называемых корпусных исследований, когда исследователю предоставляется возможность получить доступ к большому количеству текстов на русском языке и найти в них то, что ему интересно.

Создан Национальный корпус русского языка, содержащий тексты на русском языке со второй половины XVIII века по сегодняшний день. Причем, помимо основного – письменного – корпуса, есть устный подкорпус, газетный, мультимедийный, параллельный, поэтический.

- Корпус доступен простому обывателю?

- Всё находится в открытом доступе. Понятно, что в основном тексты рассчитаны на специалистов, занимающихся русским языком. Но если кто-то хочет узнать, как используется то или иное слово в русском языке или существует ли такая конструкция, такой оборот, он может зайти в русский корпус, набить в поиске искомое (как в Google) и посмотреть, сколько раз это слово там встречается. И не просто встречается, но кто в каком произведении его употреблял, современное ли это выражение или, наоборот, использовалось лишь в старых текстах. То есть это хороший инструмент не только для лингвистов. Конечно, там есть и более сложная система поиска, но если тебя заинтересовало выражение "попасть как кур в ощип", задав его, ты сразу увидишь контексты, в которых это выражение встречается в русском языке.

Особенно нас интересует возможность посмотреть не только как употребляются выражения, но и посчитать их. То есть сейчас в неточную науку лингвистику внедряются элементы, которые пытаются ее приблизить к точной науке. Так мы можем посчитать, сколько раз слово "кстати" встречается у Достоевского. Задав его поиск в Национальном корпусе, мы узнаем, что Достоевский очень любил слово "кстати", что из всех русских писателей, чьи произведения загружены в корпус, он занимает первое место по использованию слова "кстати". Можно, конечно, сказать, что это не так интересно и важно, но эти данные можно использовать для описания русского языка, его грамматики, лексики, синтаксиса. Или использовать для анализа художественных произведений, того, что называется идиостилем писателя — особенностями именно его стиля. Достоевский, как настоящий импрессионист, часто употреблял "кстати". Ему что-то пришло в голову – он тут же это сказал. И герои его — такие же. Толстой был просто "антикстати". Будто у него была программа в голове, и он ее прямолинейно излагал. Ему написать: "А, кстати, мне только что пришло в голову" - было невозможно. А в Конституции Российской Федерации слово "кстати" вообще не употребляется.

Иначе говоря, употребление некоторых слов дает нам информацию и о структуре текста. Продолжается бесконечный спор, написал ли "Тихий Дон" Шолохов или его сочинил кто-то другой. Разные гипотезы высказывались, было много исследований. А на конференции "Диалог" был сделан доклад, где при помощи статистических методов исследовалось, какой процент в тексте "Тихого Дона" и в других произведениях Шолохова занимают служебные словечки, союзы, специфические выражения. И по этим показателям получается, что "Тихий Дон" все-таки написан Шолоховым.

Понятно, что статистические данные должны быть использованы со знанием дела, за ними должен стоять тонкий лингвистический анализ. Но вместе они позволяют превратить лингвистические исследования в более объективные, более точные. Теперь нельзя сказать: "Я читал такую книжку, и мне встретился такой пример". Может быть, писатель использовал его единственный раз. Но, получив доступ к корпусам текстов, мы можем увидеть, что не случайность, а что, наоборот, случайность, потому что так больше никто не писал и не говорил. Это мог быть ляп, оговорка. Подтвердить факт принадлежности выражения к системе русского языка возможно только при получении представительной статистики. Но, конечно, до Big Data нам еще далеко...

Кроме того, раньше примеры надо было искать вручную. Скажем, для создания академического словаря русского языка была создана уникальная картотека с примерами, которые вручную отыскивались в произведениях авторов. Сейчас необходимость в ней отпала. Если ты пишешь статью про слово "впрочем", ты вбиваешь его в Русский национальный корпус, и тебе выводится тысяч 50 примеров с этим словом. Остается выбрать, какие из них наиболее доступные и короткие (потому что для словаря нужны короткие примеры). Дальше, вместо того, чтобы прочитать два тома какого-нибудь произведения в надежде встретить хотя бы три примера со словом "впрочем", ты движешься по нужным тебе параметрам. Это сильно облегчает эмпирическую работу по поиску материала для анализа.

На конференции "Диалог" также обсуждалось техническое направление, занимающееся созданием искусственного интеллекта, автоматической обработкой текста, созданием новый информационных ресурсов. И лингвисты, гуманитарии, искали с этим точки пересечения.

- Ты все так красиво рассказала, что невозможно не спросить совсем о другом. Я представляю себе, почему за границей интересуются российскими (а в прежние времена советскими) учеными — математиками, физиками, биологами. Чем же настолько интересным и важным надо заниматься филологу, чтобы оказаться в университете и стать профессором в Швейцарии?

- На самом деле пути господни неисповедимы, в этом очень много случайностей.

- То есть рецепта нет?

- Рецепта нет, кроме как оказаться в нужный момент в нужное время и с нужным образованием, позволяющим приспособиться к задачам, которые перед тобой стоят или могут возникнуть. В этом отношении я считаю, образование, которое мое поколение получило в Московском университете в разных областях, позволяло приспособиться в других странах. У меня уехали и смогли реализовать себя знакомые экономисты, физики, географы и, естественно, братья и сестры – филологи. Может, было такое поколение – уезжавшее.

- Да и сейчас, я знаю, Запад следит за учеными мозгами и старается перекупить их.

- Но это, как правило, в науках, имеющих прямой экономический выход. А тогда были интересны и филологи: наше образование и культурный багаж были несопоставимы с образованием, которое давалось на Западе. Наше глобальное образование можно критиковать, что нас учили "чему-нибудь и как-нибудь", но нас учили многому. Во-первых, если возникало желание в чем-то специализироваться, у нас был горизонт, мы могли выбрать, в чем нам бы хотелось специализироваться, и, пусть незначительный, но интеллектуальный багаж, позволявший углубиться в интересующий нас предмет. Были навыки работы, навыки анализа, позволявшие самим выучить недостающее. Мне никогда не преподавали историю русского языка. А в Швейцарии выяснилось, что один из курсов, который мне надо будет преподавать, — это история русского языка. "Ты как?" Я говорю: "Выучу". Взяла и выучила. То есть оказаться "в нужное время в нужный момент" - это там, где оказался некий вакуум, потому что людей наших специальностей никто не ждет. Их даже боятся, потому что как носители языка мы чувствуем русский язык лучше.

Во-вторых, мне удалось выбрать такую нишу в научных интересах, которая интересна не только, как говорится, широкому кругу узких специалистов, но, в первую очередь, студентам. А их сейчас мало чем можно удивить и привлечь. У них очень прикладные задачи: я буду вас слушать, если это надо рассказывать на экзамене. Но если им интересно, они ходят, они слушают, они пишут работы и даже диссертации! Очень мало таких случаев, когда студенты видят полезность лингвистики, где она может потом пригодиться. У нас многие курсы по выбору, и ты можешь оказаться в аудитории с нулем студентов. Надо найти такую тему, которая их может захватить, тогда есть шанс, что к тебе придут студенты, что они с тобой останутся по крайней мере на год. И мне кажется, я нашла свою нишу, тему, их интересующую.

- И интересует некоторое количество лет, как я понимаю?

- Да. Интересует уже некоторое количество лет.

- А можно озвучить, на чем ты специализируешься? Или это секрет?

- Все, что связано с коммуникацией. Сейчас это модно, и даже новые факультеты открываются. С моей точки зрения, правда, такая коммуникация несколько ни о чем. Гораздо важней, как устроен текст, чтобы твои знания помогли этот текст написать. Потому что очень мало людей, чувствующих текст. Вот они сели, взяли белый лист бумаги и – хоп! – написали красивый и хороший текст, отвечающий некоему жанру, некоей композиции, понятный слушателю или читателю. Так бывает очень редко, и мне нужно объяснить, как надо написать текст так, чтобы он был читаем и понятен. В Женевском университете даже есть курс для профессионалов, работающих в пресс-службах крупных компаний или международных организаций, которые чувствуют, что они не могут написать текст, но не понимают, почему. И наша задача им объяснить – почему. Такой курс – "Техника письменного общения" – длится год или два, если кто-то хочет углубленных знаний. За это время мы должны им объяснить, что такое общение, из чего состоит процесс общения, что есть говорящие, есть слушающие, есть язык, на котором они говорят. Потому что, когда мы говорим, мы говорим для чего-то, а не просто так сотрясаем воздух и не потому, что нам хочется произнести какие-то звуки. Что есть место и время, в котором они общаются. Все эти факторы и определяют то, как мы будем общаться. И, исходя из этих широких параметров, мы с ними анализируем структуру текста, где преломляются все эти параметры. Определяем, хочет слушающий быть объективным или субъективным, какие он будет выбирать выражения для этого, какие у него отношения с его потенциальным читателем.

Все это отражается на языке. Я всегда привожу такой пример. Вы на работе подходите к кабинету, а на двери написано: "Вернусь через 5 минут". Через 5 минут – это не трагично, потому что вы можете 5 минут простоять у двери, посматривая на часы. Но если написано, "вернусь через 2 часа", ситуация усложняется. Непонятно, с какого момента отсчитывать эти два часа. А я учу принимать во внимание такие моменты. Вечный пример общения, которому не хватает неких элементов, когда мы звоним по телефону и спрашиваем: "Ты где?" Потому что, исходя из того, где находится наш собеседник, мы будем с ним разговаривать по-разному. Если абонент дома, и вам надо ему дать задание выбросить помойное ведро или приготовить вам ужин – это один сюжет, а если он сидит на работе, коммуникация приобретет другой характер. Я объясняю, что внешние параметры определяют процесс общения. А дальше доходим до конкретики, анализируем структуру текста – с чего его надо начать, как построить, чем закончить в зависимости от того, с какой целью вы его пишете. Понятно, что деловое письмо будет отличаться от ваших размышлений или личного дневника.

- У людей, которые дают себе труд так делать.

- Конечно, у тех, кто задумываются над этим. Наша задача – научить их задумываться, сделать их письмо сознательным. Это непросто. Но потом они признаются, что после наших занятий неспособны читать газету, которую раздают в метро: там же бог знает что написано и очень плохим языком. А раньше было все понятно, или они просто не обращали на это внимание. В любом языке есть элементы, определяющие понятность текста, его ощущение. Мы читаем текст, и он для нас связанный, мы его можем понять и сказать, о чем он. А бывает прочли и не поняли. В газетах, как правило, такого не бывает, но иногда получаешь какое-нибудь письмо и совершенно непонятно, что хотел сказать человек.

Я пытаюсь студентам объяснить не технические вещи: как устроена фонетика русского языка, сколько гласных, и согласных. Это тоже интересно, но, скорее, относится для них к области "ненужных знаний" (есть такая рубрика в одной швейцарской газете). Ведь чтобы говорить на русском языке, необязательно знать, сколько в нем гласных и сколько согласных, зато нужно уметь построить фразу так, чтобы она была понимаемой, чтобы вызвала у твоего собеседника определенную реакцию. Потому что, когда ты говоришь с человеком, ты рассчитываешь получить реакцию. Даже деловое письмо можно написать по-разному, и важно не только содержание этого письма, но и то, как оно оформлено, красиво ли оно написано, с ошибками, без ошибок, как вы обращаетесь к своему собеседнику, какой у вас тон, вы требуете что-то или представляете так, что будете ему очень обязаны, если он вникнет в ваши проблемы (хотя, может быть, в душе вы хотели бы от него потребовать ответа и сказать все, что вы о нем думаете). Этому я и стараюсь учить своих студентов, и они на это очень отзываются, им интересно, хотя лингвистику они не очень любят, считая, что гораздо интересней заниматься литературой. Я их спрашиваю: а как вы можете проанализировать литературный текст и понять, что хорошего и важного сказал автор, если вы его не понимаете, не понимаете, как он устроен? Вы утверждаете, что вам нравится литература 20-го века, но она же очень непростая, она играет с языком. А чтобы понять, где игра, надо понять, что значит не-игра. Где норма, отклонением от которой будет игра с языком. И тут они начинают открывать глаза, уши и слушать.

- И все же, филология в общем и в частности твоя сфера – лингвистика – сегодня для многих не только загадочная, но и ненужная часть образования. И то, о чем ты говоришь тоже не нужно и не важно. Это мнение сейчас бытует везде, но особенно в России. Тем не менее, тебе удается получать гранты на родине. Что, насколько мне известно, весьма непросто. Чем тебе удалось заинтересовать грантодателей?

– Заинтересовать их удается двумя вещами. Российский фонд фундаментальных исследований очень любит междисциплинарность, то есть исследования на стыке разных дисциплин. И одно из таких направлений – проблематика конференции "Диалог" – стык информатики и лингвистики. Чем нам могут помочь информатики? С одной стороны, они помогают нам анализировать многие явления русского языка, а с другой создают новые информационные ресурсы, которые в дальнейшем помогут облегчить исследования, и, одновременно, являются уникальными по своей задумке. Но сделать это они могут только с нашей помощью, потому что информатики не в состоянии создать информационный лингвистический ресурс. Зато созданные ими при грантовой поддержке информации информационные технологии открывают неожиданные направления в лингвистических исследованиях, которые раньше зачастую проводились на весьма посредственном уровне.

- Можно привести пример для наглядности?

- Я занимаюсь сопоставительными исследованиями, сравниваю русский язык с каким-то другим языком, как правило, с романским – французским или итальянским. Почему это интересно? Потому что при сравнении всегда становится заметно то, что без сравнения не увидишь. Помнишь, как в скетче то ли Райкин, то ли Хазанов говорит: конечно, советские сапоги самые лучшие, если ты никогда не видел итальянских. Сравнивая, мы видим, что у нас в языке не лучше или хуже устроено, а устроено по-другому. И этот аспект крайне интересен. На конференции "Диалог" в этом году впервые была организована секция по параллельным корпусам – когда сравниваются тексты и их переводы. Это позволяет высвечивать крайне интересные языковые факты в изучаемом языке. В нашем случае в русском. Благодаря анализу перевода на французский язык или итальянский, мы видим то, чего раньше не замечали в русском. Это абсолютно новый подход к исследованию русского языка. Но мы сделали еще один шаг по сравнению с параллельными корпусами. В Институте проблем информатики Российской академии наук были созданы так называемые надкорпусные базы данных. Это такая надстройка над параллельным корпусом, позволяющая не просто найти примеры, но и зафиксировать твой анализ этих примеров.

Открываем параллельный подкорпус Национального корпуса, ищем слово "впрочем" и видим, что оно везде будет выделено красивым оранжевым цветом, но дальше мы должны искать, что ему соответствует в переводе. Это, естественно, занимает определенное количество времени. А в наших базах данных все уже размечено. Есть специальные разметчики, которые берут русский текст, ищут "впрочем" и выделяют, что ему соответствует в переводе. Больше того, мы эту информацию можем сохранять, что не дает сделать ни один из существующих корпусов. У них даже нет такой задачи. Второй момент. Мы можем задать систему важных для анализа данной языковой единицы критериев, описать употребление конкретной языковой единицы (например, слова "впрочем") в данной фразе и сделать то же самое для ее эквивалента в переводе. А дальше мы можем делать совершенно замечательные вещи. Мы можем сказать нашей базе данных: база, найди мне все случаи, когда слово "впрочем» переведено таким-то словом на французский. И база буквально через минуту выдает такую информацию. Других таких уникальных ресурсов, аналогов ей пока нет ни в одной стране. Но главное, анализируя наши аннотации, я вижу, что мы совершенно иначе подходим к тем проблемам, которые раньше решались очень плохо. И я считаю, что это одно из важных достижений. Мы даже не предполагали, что можно получить такие интересные результаты.

Во-вторых, при помощи этих уникальных информационных ресурсов мы предлагаем по-новому взглянуть на некоторые явления русского языка или исследовать такие области, которые еще вообще не были описаны. Конечно, о русском языке написано уже так много, что в нем трудно найти неизученные лакуны. Но все, что связано с организацией текста (в частности, письменного) пока описано плохо. И один из наших грантов, поддержанных Российским научным фондом, как раз посвящен тому, что мы назвали "логической организацией текста": как между собой связаны две стоящих рядом фразы, какие отношения между ними могут быть установлены говорящим. И как это может быть понято слушателем. Возьмем хорошо всем знакомые стихи Агнии Барто: "Наша Таня громко плачет, уронила в речку мячик". Даже маленький ребенок поймет, что Таня плачет, потому что мячик оказался в реке, а она не может его достать. Хотя никакого сигнала об этом нет. Мы можем сказать: "Петя не пришел, потому что заболел". Или: "Петя не пришел, он заболел". И так, и этак будет понятно. Но мы пытаемся проанализировать: в каких случаях слушающему нужны сигналы, а в каких нет. Когда это необходимо, а когда говорящий, наоборот, выражает отношение гораздо полнее, чем стоило бы. И почему он употребляет именно это словечко для выражения своего отношения. Например, мы можем сказать: "Прочитав письмо, она разрыдалась" или: "Едва лишь она прочитала письмо, как тут же зарыдала". Почему говорящий так многословно выражается во втором случае, когда он мог бы сказать все гораздо проще? Как функционирует язык?

- У меня несколько версий, "почему": во-первых, ему нужно увеличить текст…

- Да. В некоторых случаях текст нужно увеличить.

- Кроме того, это определенный эмоциональный фон.

- Да, в том смысле, что говорящий считает настолько важным, что она прямо тут же, едва успев дочитать, разрыдалась, что он всеми возможными средствами пытается это до своего читателя донести. Если он хочет выразить быструю смену событий, какие возможности ему дает русский язык, чтобы это сказать? Как раз сейчас мы анализируем определенную группу таких "логических" отношений: можно ли их вообще никак не выражать, какая существует минимальная единица для их выражения и какая единица наиболее частотная. Для этого нужна наша база данных.

- Я в последнее время использую противоположный стиль. Сжимаю текст. Часто ставлю точку, рублю фразы. Кто-то назвал его "мужским стилем". Но иногда это работает гораздо лучше, чем удлинение – сухая отстраненность от событий делает эмоции сильнее, чем километры "розовых соплей".

– Безусловно, но это другой сюжет. И здесь как раз важно знать, какова "мера". Если говорить о сопоставительных исследованиях, сравнивая английский язык с другими языками, мы обнаружим, что в английском языке отношения между двумя ситуациями выражаются специальными языковыми средствами гораздо реже, чем в русском, во французском или итальянском языках. Его сравнивали с разными языками и получили такую закономерность: английском примерно в два раза меньше слов, направляющих слушателя в интерпретации логической структуры текста, чем в русском.

- Ты несколько раз произнесла слово "мы". И в прошлый раз, когда мы встречались, ты говорила о работе с группой ученых. Как может быть командная работа в филологии?

- Поскольку все проекты междисциплинарные у нас есть две команды. Команда программистов, которым мы определяем задачи по разработке лингвистических ресурсов, рассказывая, как бы нам хотелось, чтобы они сделали, после чего они предлагают решения. А есть команда лингвистов, но они тоже решают очень разные задачи. Есть, например, молодежь, которая помогает наполнять наши базы данных, потому что их нельзя просто перекачать из параллельного корпуса русского языка. Все нужно разметить, проверить, и это тоже большой труд. Поскольку параллельные корпуса пока очень маленькие, еще одна команда занимается выравниваем параллельных текстов и загрузкой этих текстов в базу данных. Я бы сказала, они – промежуточный разряд между лингвистами и информатиками. А есть исследователи, которые определяют концепцию: как мы будем анализировать, какие критерии мы должны ввести в базу данных, чтобы потом эти единицы анализировать. И здесь действительно хорошо иметь команду, с которой ты можешь обсудить и сверить то, что ты предлагаешь: это хорошо, это правильно или, может быть, надо что-то скорректировать. А дальше следуют описания или теоретические исследования. Они, как правило, пишутся одним человеком, максимум, с соавтором…

Вообще, до того, как меня пригласили в эти проекты, я всегда работала одна. Для меня даже написать статью с кем-то в соавторстве — жанр был малопонятный. А с другой стороны, очень правильно поступают фонды, когда они просят, выделяя нам деньги, чтобы мы привлекали молодых ученых. Молодых ученых надо учить, прежде чем они станут не молодыми, а просто учеными, поэтому написание статей с ними имеет отчасти педагогическую задачу: ты его учишь, как надо писать. Так и я научилась писать. Меня правили, причем правили жестоко, и когда я писала дипломную работу, и первую, кандидатскую, диссертацию. И благодаря этой правке я поняла, как надо писать. Поэтому, пока ты не напишешь с начинающим ученым статью, а может, две или три, он не научится писать и не станет зрелым исследователем.

- У меня последний вопрос, эта тема уже промелькнула в нашем разговоре — о компьютерных переводах. С одной стороны, они становятся все доступнее, а с другой, по-прежнему отвратительного качества. Вроде и ученых много, и делаете вы много, но почему механические переводы не становятся приличнее?

- Для баз данных мы работаем с профессиональными переводами, и найти их – отдельная задача. А в одном из проектов у нас стоит как задача анализа качества машинного перевода в связи с маленькими словечками, такими, как "впрочем", "например", "вообще", которые нас направляют в интерпретации текста. Мы следим за тем, как машина справляется с их переводом, и видим, что на самом деле машина справляется очень плохо, потому что процесс человеческого общения – это очень сложная штука. Помимо информации, выраженной буквами и словами, там много несказанного. И человеческий мозг это понимает, а машина не всегда. Когда мы говорим любую простую фразу, например: "Петя поехал на вокзал, у него завтра жена уезжает", исходя из нашего представления о жизни, мы понимаем, что Петя поехал покупать ей билет, а машина этого не понимает. Машине нужно написать целую программку, объяснить ей, что если Петя едет на вокзал, а у него есть жена, и она уезжает, то для того, чтобы ей уехать, нужно купить билет. И Петя такой заботливый, что покупает билет. Что это делает не сама жена, хотя уезжает она, а Петя... и так далее. То есть машине нужно на нескольких страницах написать скрипт, который поможет ей понять, как это работает, и какое отношение между двумя ситуациями. Человеку этого всего не надо. Если задать вопрос: какой туда поставишь союз, какое там отношение, тебе ответят, причинное, конечно: Петя поехал на вокзал, потому что… Человек легко продолжит, а машина продолжить не может: машина не понимает половину того, что мы говорим. Это одна причина, почему плохо работает машинный перевод.

Второе. Как правило машинные переводы работают по принципу частотности. Они собирают все, что есть в сети, например, где употреблено слово "впрочем", и дальше считают: скажем, в 68% "впрочем" будет переводиться на французский язык так-то, а в остальных случаях еще какими-то единицами. Дальше она будет ставить наиболее частотный вариант везде, не учитывая контекста. Но это еще полбеды. Такие слова, как "при этом" или "не то чтобы" компьютер не воспринимает как слово, для него это два или три слова. И он его переводит по частям: "не", "то" и "чтобы". И тут уже совсем ничего не получается. Конечно, слово "самовар" он переведет, потому что никаких вариантов сеть не предложит. И слово "я" тоже переведет правильно местоимением первого лица. А с такими загадочными словечками как "не то чтобы" у него возникнут проблемы, потому что даже морфологическая разметка в русском корпусе считает их не за одно, а за три слова. А наша база данных размечает их как единое слово. Мало того, это слово еще может иметь второй кусочек, отделенный другими словами "не то чтобы я устала, но я себя плохо чувствую". И что это "но", связано с "не то чтобы" машина вообще не поймет и будет опять переводить отдельно. То есть проблема машинного перевода связана не с переводом отдельных слов, а с глобальной организацией и пониманием нашего текста. Поэтому все так плохо.

- И будет, видимо.

- И будет еще какое-то время плохо. Конечно, создаются роботы, и они очень умные, играют в шахматы, делают операции, но в создании искусственного интеллекта для интерпретации текста человечество продвинулось пока не очень сильно.

- Можем конкурировать.

- Можем легко конкурировать. Простой русский человек в каком-то отношении гораздо умнее любого умного робота.

- Спасибо, Господи, за малые милости!

общество новости