АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ СЛОВ РУССКОГО ЯЗЫКА С ПОМОЩЬЮ ЭВМ С ПРИМЕНЕНИЕМ ЧАСТОТНОГО СЛОВАРЯ ОКОНЧАНИЙ СЛОВ В СВЕТЕ РАЗВИТИЯ ИДЕЙ К.Э.ЦИОЛКОВСКОГО О РЕШЕНИИ ЯЗЫКОВОЙ ПРОБЛЕМЫ
© С.В.Бойко
© Государственный музей истории космонавтики им. К.Э. Циолковского, г. Калуга
Секция "К.Э. Циолковский и проблемы профессиональной деятельности космонавтов"
2001 г.
В последнее время наблюдается рост объемов накопленной технической информации, успешная обработка которой традиционными методами становится невозможной. Возникает потребность в автоматизированной или автоматической обработке информации и как частный, наиболее трудный в реализации на ЭВМ случай в обработке текстовой информации. Наименее затронутой частью обработки текстовой информации является поиск фрагмента текста по поисковому образу с учетом грамматических вариаций слов в обрабатываемом тексте (слова могут встречать¬ся в различных формах).
Существующие методы текстового поиска могут быть классифицированы по следующим признакам: (
- использование регулярных выражений;
- использование семантического анализа групп и отдельных слов, в том числе:
- определение семантических взаимосвязей между близко расположенными словами, обладающее большими временными затратами;
- определение семантики слова с использованием словарей частей речи, обладающее большими затратами памяти.
В настоящем докладе предложен метод синтаксического анализа слов русского языка, позволяющий существенно сократить затраты памяти и время обработки текста. В данном виде анализа рассматривается только синтаксис слова, т.е. его строение из частей слова. В целях экономии памяти рассматриваются только окончания слов, так как в большинстве случаев приведение слова к начальной форме сводится к замене окончания.
Для обеспечения синтаксического анализа заранее создается база данных. С этой целью на некотором достаточно большом участке текста собирается статистика, представляющая варианты замен окончаний при переводе слов в начальную форму и их частоты, характеризующие вероятности замен.
Приведение слов к начальной форме производится следующим образом: по исходному окончанию с учетом собранной статистики составляется список окончаний начальной формы с указанием вероятности замены. Затем, для слов в обрабатываемом тексте, из списка замен выбираются наиболее вероятные варианты проведения замещения (в порядке уменьшения вероятности) так, чтобы в сумме обеспечить вероятность получения истинной начальной формы не ниже некоторой заданной.
При анализе текста, близкого по частотам вхождения окончаний с эталонным текстом, для рассматриваемых слов с заданной вероятностью будет получен список начальных форм, содержащий истинную начальную форму.