Google учит русский язык [ Редагувати ]

17 лютого 2006 11:05 за матеріалами: Подробиці

Новость о том, что Google начал распознавать морфологию русского языка, прошла как-то незаметно. Пока не существует ни официальной, ни полуофициальной, ни даже какой-либо достоверной информации об этом, безусловно, важном событии - только несколько заметок в блогах или даже просто в комментариях блогов. Оптимизаторские форумы в большинстве своем молчат или недоумевают, но можно предвидеть, что намечается что-то очень серьезное. При введении запроса на русском языке в Google.ru (не пытайтесь делать это на других серверах, например, Google.com - там это не работает) возвращаются результаты, в которых отчетливо наблюдается факт того, что Google распознает различные падежи, числа, формы глаголов и другие лингвистические прелести. Так, при запросе "уехать в канада" в результатах поиска выделяются различные словоформы как слова "канада"- "канаду", "канаде", "канады", так и слова "уехать" - "уехал", "уехали" и прочие.

Грешным делом сперва зародилось подозрение, что это всего лишь приспособленный под русский язык стемминг - технология, используемая для анализа английского языка. Но давайте для начала остановимся на различии в подходах к анализу различных языков.

Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков - различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть - во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например "что - ложь; чего - лжи". Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой - для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии. Следовательно, Гуглу было бы проще "прикрутить" русский стемминг к существующему стеммингу английского и нескольких других европейских языков, поддерживаемых Гуглом, чем разрабатывать и внедрять абсолютно новый алгоритм.

Так что же сегодня происходит на Гугле? Какая технология обработки русского языка используется? Давайте внимательнее присмотримся к тому, что творится в выдаче Гугла. При запросе таких слов, как "ты", "я", Гугл выдает результаты, в которых встречаются такие формы указанных слов, как "тебя", "меня" и так далее. Однако при запросе по слову "лгать" начинаются проблемы. Так, Яндекс выдает документы, которые содержат словоформы "лгут", "лжет", в то время как Гугл - нет. Еще более странные вещи обнаруживаются при просмотре кеша Гугла по найденным словам. Те слова, которые совпадают с заданной вами формулировкой, выделяются, в то время, как словоформы, не совпадающие с заданной формулировкой запроса, в кеше не выделяются. Более того, если на странице нет ни одного слова, совпадающего с заданной формулировкой запроса, выводится стандартное сообщение о том, что "данные слова были найдены в ссылках, ведущих на страницу". Конечно, можно списывать такие несостыковки на то, что алгоритм является еще сырым, тестируется, но, кажется, существующие факты свидетельствуют об одном - Google использует улучшенный стемминг для работы с русским языком, это пока не полноценный анализ русского языка с учетом морфологии.

Однако, с тем качеством, как реализована морфология Гугла сейчас, русским поисковикам опасаться пока нечего.

Знаменательно еще и то, что приблизительно в одно время с Гуглом о поддержке морфологии русского языка заявила еще одна поисковая машина, Exalead, которая не пользуется пока особой популярностью на западе, и еще менее известна у нас.

Неизвестно, остановятся ли разработчики на достигнутом, или будут совершенствовать систему, доводя ее до уровня работы Яндекса или Рамблера, но сам факт того, что Гугл, с его огромной базой проиндексированных документов, обширной системой сервисов, среди которых приобретающий все большую популярность почтовый сервис Gmail, Pay-Per-Click сервисы AdWords и AdSense, делает пусть пока не большие шаги в направлении русского рынка, говорит, как минимум, о том, что этот рынок находится в зоне его интересов, сообщает Content.com.ua

по темі

Prev Next

15 травня 2025 21:32 Ердоган став перемовником: чого справді прагне турецький лідер

"Якщо Ердоган буде успішним, Трамп приєднається до успіху, якщо переговори зірвуться - винуватим буде він, а не Трамп", - пояснив мені американський професор Майкл Гюнтер, автор однієї з небагатьох біографій Ердогана. З ним ми й обговорили, яким посередником може бути турецький лідер і чого він прагне насправді.

15 травня 2025 21:15 Малюк приголомшив Анкару: соцмережі вибухнули мемами

Медіа одразу перетворили коротке відео ходи Василя Малюка на окремий інфопривід. А соцмережі зарясніли мемами й жартівливими коментарями. Ось найцікавіші, на нашу думку, прояви народної творчості.

15 травня 2025 21:06 путін зірве терпець Європі й США: прогноз аналітиків

Чи стануть стамбульські перемовини останньою краплею в чаші терпіння західних партнерів? Думки аналітиків зібрала наша міжнародна оглядачка Світлана Чернецька.

13 травня 2025 08:34 Мирні переговори у Туреччині: чи приїдуть Трамп і путін

У Вашингтоні за подіями стежить наш спеціальний кореспондент Дмитро Анопченко, від нього дізнаємося всі подробиці.

11 травня 2025 18:51 Мир зірвано: чому Індія і Пакистан відкрили вогонь після угоди

Індія та Пакистан обмінялися звинуваченнями у порушенні режиму припинення вогню. Тиша тривала всього кілька годин. Вибухи пролунали у частині Кашміру, що під управлінням Індії. Хронологія подій у наступному сюжеті.

11 травня 2025 17:33 Зустріч "Коаліції охочих" у Києві: про що домовилися

"Коаліція охочих" підтримала безумовне й повне припинення вогню в Україні на 30 днів, що має розпочатися з 12 травня. Як минула зустріч лідерів країн напередодні в Києві? Знає Єлизавета Яковлева.

Google учит русский язык [ Редагувати ]

Вход