Алгоритм семантического анализа Арисема
Apr. 27th, 2003 05:59 pmАлгоритм семантического анализа Арисема - для
smilga и всех интересующихся.
(Речь идёт об алгоритме, разработанном и использующемся нашей фирмой Арисем. Эта довольно техническая заметка написана в дополнение к старой популярной статье о моей работе, незнакомым с сюжетом рекомендуется сначала прочитать её.)
Цель программы - выбрать из некоего набора документы (текстовые файлы различных форматов), посвящённые определённой тематике, релевантные (pertinents) по отношению к запросу пользователя, выраженному естественным языком.
Программа определяет релевантность, сравнивая запрос и документ. Это сравнение необходимо в 3х случаях:
Когда возникает необходимость определить релевантность документа по отношению к запросу, программа сравнивает метатексты запроса и документа, рассчитывает их пересечение и выводит "оценку релевантности". В зависимости от порогов, определённых человеком, документ проходит семантический фильтр (запроса) или нет.
(Речь идёт об алгоритме, разработанном и использующемся нашей фирмой Арисем. Эта довольно техническая заметка написана в дополнение к старой популярной статье о моей работе, незнакомым с сюжетом рекомендуется сначала прочитать её.)
Цель программы - выбрать из некоего набора документы (текстовые файлы различных форматов), посвящённые определённой тематике, релевантные (pertinents) по отношению к запросу пользователя, выраженному естественным языком.
Программа определяет релевантность, сравнивая запрос и документ. Это сравнение необходимо в 3х случаях:
- при поиске информации в интернете (crawling) для подбора совокупности текстов на определённую тему,
- при классификации документов в деревьях, где темы организованы иерархически (у нас их обычно сравнивают с категориями Yahoo)
- и при полнотекстовом семантическом поиске в каком-то наборе документов (например, в одном из деревьев).
Когда возникает необходимость определить релевантность документа по отношению к запросу, программа сравнивает метатексты запроса и документа, рассчитывает их пересечение и выводит "оценку релевантности". В зависимости от порогов, определённых человеком, документ проходит семантический фильтр (запроса) или нет.
no subject
Забавно, я пришел в одном своем проекте (домашнем) к аналогичным вещам, только называл их чуть по другому (у меня то задачи проще, так что необессудьте ;).Вроде получается: вместо концептов классификаторы/рубрики, именованные (типовые) связи между ними и т.д.).
Я также встречал описания семантических баз данных, точно описанных в статье.
Интерсено, а что там в интерфейсе значат якори? :)
Посмотрев еще с минуту/другую, понял, что можно эти диаграммки рисовать на УМЛ со стереотипами (сем связи, да и объекты-понятия тоже можно).
Усе, чего то руки зачесались заимлементить сей алгоритм :))