27-10-2012, 21:31

Все о словоформах

Наверняка, все знают, что русский язык считается одним из самых сложных. Очень часто наше интуитивное восприятие слов отличается от их формального употребления. Возьмем, к примеру, «лучший» - это словоформа слова «хороший», так как является его превосходной степенью. Ну, а «хороший» и «хорошо» зачастую считаются разными словами. Потому что «хороший» является прилагательным, а «хорошо» - наречием.

Если же говорить о словоформах в понимании машин, то их восприятие еще больше разнится с интуитивным. Давайте рассмотрим представление Яндекса о словоформах - насколько оно отличается от человеческого.

Машинные словоформы

В русском языке содержится более ста тысяч слов. Каждое из них имеет большое количество словоформ, а каждая из них, в свою очередь, имеет множество форм, изменяемых в рамках числа, рода, формы, падежа. Если разобрать любое прилагательное, то математическим путем можно выяснить, что оно имеет целых 129 словоформ. При этом большая половина этих слов имеет разные окончания. Сюда входят семь падежей, краткая форма, три рода, два числа, сравнительная и превосходная степень, одушевленность или неодушевленность.

Иногда в печатных морфологических словарях для экономии места на странице слова классифицируют согласно окончаниям в морфологические группы. Вот, например, у слов «умный» и «длинный» в одних словоформах одни и те же окончания. Для облегчения поиска группы пронумеровывают. Для одного слова указывают лишь его общее начало для всех словоформ и морфологическая группа.

Это относится и к электронным базам. Если сравнивать сохранение всех словоформ отдельно и группами, то в первом случае понадобится примерно 500 Мб памяти, а во втором всего 10 Мб. Конечно, 500 Мб – это совсем немного. Но не следует забывать, что морфологию для Яндекса писали около 10-ти лет назад. Тогда сервера были менее доступными, и такое количество памяти стоило весьма дорого.

Так как правила в русском языке не менялись, то и переписывать морфологию нужды не было. А если все-таки начать редактировать морфологию, то пойдет цепная реакция и придется менять еще и другие части кода.

Синонимы в поиске

Когда поисковая система выдает результат, жирным выделяются не только словоформы одного слова, но еще и синонимы. В такой ситуации не понятно, по какой причине поисковик выделил эти слова. Для того чтобы знать словоформы это или синонимы, в Яндексе можно воспользоваться оператором «+», который отключает подсветку синонимов. То есть если в строке поиска перед запросом поставить плюс, то в выдаче результатов жирным будут выделены только словоформы.

Сегодняшние базы писались на основе морфологического словаря Зализняка, в котором использовались морфологические группы. Но, к сожалению, некоторые моменты в группировке безнадежно устарели. Например, глаголы и их причастия и деепричастия (купить/купивший) - это словоформы, а глаголы совершенного и несовершенного (делать/сделать) вида - нет.

В некоторых случая база синонимов является весьма полезной. К примеру, при запросе Яндекс сам может поменять словоформы на более понятные для поискового восприятия.

О словоформах Google

По сравнению с российской, в английской морфологии словоформ не так много. Группировкой нескольких словоформ никто не занимался. Поэтому, скорее всего, разработчики Google при написании его русской версии не использовали морфологические группы.

Также, в отличие от Яндекса, если в Google совершить запрос по слову «сделанный», он не заменит его на «сделать». Еще, например, попытка отключить подсветку слова «сделать» по запросу «делать» успехом не увенчается, несмотря на то что Google зачастую подсвечивает только словоформы. Из этого можно сделать вывод, что для Google слова «сделать» и «делать» - словоформы, а не синонимы, как у Яндекса.

Это весьма интересно, т. к. получается, что у Google более правильная морфология, чем у Яндекса. Все это является следствием английского происхождения Google. Но неправильно утверждать, что морфология Google лучше, т. к. вопрос «у кого же выдача релевантнее», является весьма спорным.

Разница в выдаче

Яндекс воспринимает словоформы по-разному, в зависимости от того, подсветили ли вы их плюсом или нет. То есть какую-то часть словоформ морфология обнаруживает сразу. А остальное определяется из связей по типу синонимов. Также вполне возможен вариант, что Яндекс не разделяет морфологические и синонимиальные словоформы, а значит, и разницы в ранжировании не существует.

Сегодня программ, которые бы контролировали разницу выдачи, нет, так же, как и какой-либо общепринятой оценки. Сделать это вручную не представляется возможным. Поэтому мы не можем утверждать, что существует разница в ранжировании типов словоформ. Но мы можем сделать косвенные предположения, основываясь на результатах поиска.

Обычно при запросе машинных словоформ количество найденных страниц разнится не более чем на 1%. А если запрашивать словоформы-синонимы, это число составляет от 10% до 30%.

- «сделать фото с веб-камеры» - 23 млн.

- «сделал фото с веб-камеры» - 22 млн.

- «делать фото с веб-камеры» - 21 млн.

- «делал фото с веб-камеры» - 22 млн.

Давайте сравним разницу выдачи в Яндекс и Google. Если мы в обоих поисковиках введем одну и ту же фразу, воспользовавшись разными словоформами, то в Google разницы в выдаче практически не будет, в то время как Яндекс повторит выдачу лишь пары первых страниц, но их позиции все равно будут изменены.

Также, стоит отметить существование, так называемых, слов-исключений. Они подсвечиваются несколько необычно. Например, словоформа «покупать» от слова «купить» подсвечивается в независимости от наличия плюса. То есть, Яндекс ввел в поиске для этой словоформы исключение, хотя это разные слова для WordStat. Но опять же, если бы выдача для синонимов и словоформ была одинаковой, то и исключения бы делать не понадобилось. Например, на слово «купить» В WordStat приходится около 40 млн. показов в месяц. Естественно, что в таком случае имеет смысл улучшение его ранжирования. Но выгода пользователей в этом пока не ясна. Разработчики никак не аргументируют, каким образом появление прямой связи между «купить» и «покупать» улучшит выдачу. Давайте рассмотрим исключение, положительно повлиявшее на выдачу.

Это слова «варить» и «варка». Потому что по WordStat у «варить» около миллиона показов, а у «варка» - всего лишь до 100 тысяч. Но, в принципе, эти два слова можно рассматривать как аналогичные. Например, фразы «варка супа» и «как варить суп» - обе правильны. В такой ситуации польза для ранжирования является очевидной.

Исходя из таких данных, можно смело утверждать, что морфологические словоформы ранжируются выше, чем словоформы-синонимы.

Высокочастотные запросы

Подсветку синонимов можно отключить не только плюсом. У поисковой машины существует определенная граница, при пересечении которой синонимы в выдачу не включаются, чтобы не ухудшить ее. Например, мы наберем "гостиницы Москвы" – подсветки не будет. Если же "гостиницы Москвы центр" или "гостиницы Одессы", то она включится. Система работает в таком режиме, независимо от количества запросов. Можно предположить, что таким образом сказывается влияние количества страниц в индексе или релевантность первых страниц.

Основные правила

1. Глаголы совершенного и несовершенного вида не словоформы:

- действительно только для Яндекса;

- сделать≠делать;

- исключения: купить и покупать, выщипывать и выщипать, отправлять и отправить.

2. Глаголы, причастия и деепричастия являются словоформами друг друга:

- действительно только для Яндекса;

- сделать=сделаю=сделал=сделавший=сделанный=...

- исходя из того, что причастия склоняются по роду, числу и падежу, а также залогу, получается, что у глаголов по Яндексу больше 100 словоформ. А у слова «купить» их еще больше, т. к. есть исключения. Для улучшения ранжирования глаголов можно успешно использовать причастия. Словоформами слова «купить» являются причастия "купленный", "купившие".

3. Разные части речи не могут быть слоформами друг-друга:

- действительно как для Яндекса, так и для Google;

- покупать≠покупка≠покупатель;

- красавец≠красивый;

- сильный удар≠сильно ударить;

- исключения для Яндекса: «варить» и «варка», а также причастия, деепричастия и глаголы.

4. Все словоформы существительных одного рода:

- действительно как для Яндекса, так и для Google;

- красавец≠красавица;

- повар≠повариха.

5. Превосходная степень прилагательных - одна из словоформ:

- действительно только для Яндекса;

- красивый=красивейший=красивейшая=красивейшую=...

- хороший=лучший;

- надежный=надежнейший=...

- однако, прекрасный≠красивый - это просто синонимы

6. Сравнительная степень прилагательных - одна из словоформ:

- действительно как для Яндекса, так и для Google;

- красивый=красивее;

- надежный=надежнее;

- исключение для Google: хороший≠лучше. Эту словоформу Google относит к превосходной степени (лучший).

Зачастую Google группирует слова интуитивно, а не согласно официальным правилам русского языка. Этот момент можно проследить на словах «хороший» и «лучше». Остальные же прилагательные сравнительной степени относятся к обычной, а не превосходной форме.

Основываясь на всех перечисленных выше фактах, можно сделать вывод, что выдача поисковиком словоформ-синонимов ниже, нежели морфологических словоформ. В связи с этим при оптимизации посадочной страницы будьте более внимательны и, по возможности, используйте словоформы в машинном представлении. Это весьма актуально при составлении шаблона сайта, т. к. подобный прием изменит сотни или тысячи страниц.


 

Меню

 Пузомерка тИЦ & PR

 Проверка обратных ссылок

Подсчёт символов

Whois Домена

Симулятор бота (NEW)

Регистрация в поисковиках

Аналог Punto Switcher

Подсчёт процентов


<<
Календарь апдейтов >>

25.06.09 Ап тИЦ
24.06.09
Ап PR
10.06.09
Ап тИЦ
28.05.09
Ап PR
22.05.09
Ап тИЦ

все апдейты тут

Наш блог, Промо новичку

<< Партнеры >>




<< О wTools >>

На сайте вы найдете множество полезных сервисов для себя, таких как проверка тИЦ и PR, whois домена, симулятор бота, проверка беклинков и много других полезных инструментов.

Помимо этого мы стараемся публиковать новые статьи и новости, которые будут полезны любому вебмастеру и просто владельцу сайта. Спасибо что остаетесь с нами!.

Copyright © 2006-2007 by wTools.biz (Веб Инструменты).