greenadine | Алгоритм семантического анализа Арисема (Reply)

Алгоритм семантического анализа Арисема - для

smilga и всех интересующихся.
(Речь идёт об алгоритме, разработанном и использующемся нашей фирмой Арисем. Эта довольно техническая заметка написана в дополнение к старой популярной статье о моей работе, незнакомым с сюжетом рекомендуется сначала прочитать её.)
Цель программы - выбрать из некоего набора документы (текстовые файлы различных форматов), посвящённые определённой тематике, релевантные (pertinents) по отношению к запросу пользователя, выраженному естественным языком.
Программа определяет релевантность, сравнивая запрос и документ. Это сравнение необходимо в 3х случаях:

при поиске информации в интернете (crawling) для подбора совокупности текстов на определённую тему,

при классификации документов в деревьях, где темы организованы иерархически (у нас их обычно сравнивают с категориями Yahoo)

и при полнотекстовом семантическом поиске в каком-то наборе документов (например, в одном из деревьев).

Когда документ попадает в систему, для него создается так называемый метатекст. Для этого используется база знаний (knowledge base), о которой необходимо сказать пару слов. Она входит в более глобальную базу SQL и содержит концепты, связи между концептами и лексику для каждого концепта. На сегодняшний день поддерживаются 5 языков (фр., анг., нем., исп. и итал.). Сеть концептов общая, лексика, соответственно, своя для каждого языка + флексии и правила их генерации. Концепты, в отличие от слов, недвусмыслены (для многозначных слов используются другие концепты в качестве контекста, дабы программа могла выбрать нужное значение), для каждого концепта можно определять неограниченное число лексикализаций (слов и выражений, выражающих его в тексте). Связи бывают, по сути, 2-х типов (гиперонимическая и ассоциативная) и служат для более полного учёта контекста (например, чтобы на запрос "собака" найти текст со словом "пудель", и для разрешения многозначности). База открытая, каждый клиент изменяет и дополняет её "под себя".
Когда возникает необходимость определить релевантность документа по отношению к запросу, программа сравнивает метатексты запроса и документа, рассчитывает их пересечение и выводит "оценку релевантности". В зависимости от порогов, определённых человеком, документ проходит семантический фильтр (запроса) или нет.