Алгоритм семантического анализа Арисема
Apr. 27th, 2003 05:59 pmАлгоритм семантического анализа Арисема - для
smilga и всех интересующихся.
(Речь идёт об алгоритме, разработанном и использующемся нашей фирмой Арисем. Эта довольно техническая заметка написана в дополнение к старой популярной статье о моей работе, незнакомым с сюжетом рекомендуется сначала прочитать её.)
Цель программы - выбрать из некоего набора документы (текстовые файлы различных форматов), посвящённые определённой тематике, релевантные (pertinents) по отношению к запросу пользователя, выраженному естественным языком.
Программа определяет релевантность, сравнивая запрос и документ. Это сравнение необходимо в 3х случаях:
Когда возникает необходимость определить релевантность документа по отношению к запросу, программа сравнивает метатексты запроса и документа, рассчитывает их пересечение и выводит "оценку релевантности". В зависимости от порогов, определённых человеком, документ проходит семантический фильтр (запроса) или нет.
(Речь идёт об алгоритме, разработанном и использующемся нашей фирмой Арисем. Эта довольно техническая заметка написана в дополнение к старой популярной статье о моей работе, незнакомым с сюжетом рекомендуется сначала прочитать её.)
Цель программы - выбрать из некоего набора документы (текстовые файлы различных форматов), посвящённые определённой тематике, релевантные (pertinents) по отношению к запросу пользователя, выраженному естественным языком.
Программа определяет релевантность, сравнивая запрос и документ. Это сравнение необходимо в 3х случаях:
- при поиске информации в интернете (crawling) для подбора совокупности текстов на определённую тему,
- при классификации документов в деревьях, где темы организованы иерархически (у нас их обычно сравнивают с категориями Yahoo)
- и при полнотекстовом семантическом поиске в каком-то наборе документов (например, в одном из деревьев).
Когда возникает необходимость определить релевантность документа по отношению к запросу, программа сравнивает метатексты запроса и документа, рассчитывает их пересечение и выводит "оценку релевантности". В зависимости от порогов, определённых человеком, документ проходит семантический фильтр (запроса) или нет.