Интеллектуальный исправитель ачипяток
Dec. 24th, 2003 02:13 pmУвидел опечатку "чудто" и вспомнил идею, которую мы с
genem вынашивали в бытность нашу работниками IMedia, 1998 год.
Дали нам увлекательную задачу (тут, боюсь, никаких кавычек не хватит, чтобы передать мою интонацию в слове "увлекательную"...)
Разобраться с проблемой "дублонов" при слиянии двух баз.
Т.е. классические
ООО Октябрь
Октябрь, ООО
ООО "Октябрь"
OOO Oktiabr
разбираются тривиально.
Откровенно "в морг" ситуации вроде "White Wind" и "Белый ветер" даже не рассматривали (пример реальный).
Подсказки вроде номера телефона или адреса тоже внесли свою лепту в общее дело.
Но помимо перестановки слов, люди еще и опечатывались.
Мы попытались прикрутить движок spell checker Word.
Мы нашли модуль "фонетического анализа", который выдавал "коэффициент похожести звучания двух слов".
Мы написали свою "поделку из бумаги", которая тоже что-то там когда-то находила.
И тогда родилась идея %subj%.
В самом деле, возьмем "чудто". Word, скорее всего, увидит слово не из словаря и проведет простой поиск всех форм, отличающихся от данной минимальным набором стандартных опечаток. Т.е. пропущена буква, лишняя буква, замена двух букв местами, замена одной буквы другой. Возможно еще что-то.
Мы же собирались добавить при этом вероятность _реальной_ опечатки. Учитывая раскладку клавиатуры, метод набора, личность наборщика, дополнительные утилиты.
В данном случае, "чудо" подходит великолепно при наборе на русской клавиатуре, потому как "т" и "о" расположены очень близко. "Будто" - только при десятипальцевом методе (симметрия особенно сильна на слаборазвитых мышцах, а "б" и "ч" висят на средних (или безымянных) пальцах разных рук, мало у кого они накачаны). А вот "чу то", например, не катит совсем. Нереально, чтобы кто-то ударил по "д" вместо пробела.
Аналогично при сканировании текста предпочтение нужно отдавать заменам "о" и "е", "ю" и "10" и т.д.
При пользовании транслитом - "ч" и "х", "сч" и "щ" и т.д.
Человек, знающий другие языки, использует написания слов в этих языках: "атрибут" и "attribute", сдвоенная "т"; "клас" и "класс" для жителя Украины, пишущего по-русски.
Предполагалось ввести обучение, когда программа наблюдает, как именно в итоге человек исправляет свои ошибки.
Была еще утопическая идея смотреть за временем нажатия, т.е. если "п" и "р" набираются с интервалом более четверти секунды, то это нормально, если менее - то палец задел две кнопки.
И совсем параноидальный режим, который замечает, что если после такого "дуплета" идет пауза (человек почувствовал пальцем две кнопки и остановился посмотреть на экран), то при наличии определенной статистики исравлений (он таки убрал лишнюю букву) можно предлагать эту операцию полу-автоматически.
А потом наступил август, и всем нам стало настолько не до того...
Дали нам увлекательную задачу (тут, боюсь, никаких кавычек не хватит, чтобы передать мою интонацию в слове "увлекательную"...)
Разобраться с проблемой "дублонов" при слиянии двух баз.
Т.е. классические
ООО Октябрь
Октябрь, ООО
ООО "Октябрь"
OOO Oktiabr
разбираются тривиально.
Откровенно "в морг" ситуации вроде "White Wind" и "Белый ветер" даже не рассматривали (пример реальный).
Подсказки вроде номера телефона или адреса тоже внесли свою лепту в общее дело.
Но помимо перестановки слов, люди еще и опечатывались.
Мы попытались прикрутить движок spell checker Word.
Мы нашли модуль "фонетического анализа", который выдавал "коэффициент похожести звучания двух слов".
Мы написали свою "поделку из бумаги", которая тоже что-то там когда-то находила.
И тогда родилась идея %subj%.
В самом деле, возьмем "чудто". Word, скорее всего, увидит слово не из словаря и проведет простой поиск всех форм, отличающихся от данной минимальным набором стандартных опечаток. Т.е. пропущена буква, лишняя буква, замена двух букв местами, замена одной буквы другой. Возможно еще что-то.
Мы же собирались добавить при этом вероятность _реальной_ опечатки. Учитывая раскладку клавиатуры, метод набора, личность наборщика, дополнительные утилиты.
В данном случае, "чудо" подходит великолепно при наборе на русской клавиатуре, потому как "т" и "о" расположены очень близко. "Будто" - только при десятипальцевом методе (симметрия особенно сильна на слаборазвитых мышцах, а "б" и "ч" висят на средних (или безымянных) пальцах разных рук, мало у кого они накачаны). А вот "чу то", например, не катит совсем. Нереально, чтобы кто-то ударил по "д" вместо пробела.
Аналогично при сканировании текста предпочтение нужно отдавать заменам "о" и "е", "ю" и "10" и т.д.
При пользовании транслитом - "ч" и "х", "сч" и "щ" и т.д.
Человек, знающий другие языки, использует написания слов в этих языках: "атрибут" и "attribute", сдвоенная "т"; "клас" и "класс" для жителя Украины, пишущего по-русски.
Предполагалось ввести обучение, когда программа наблюдает, как именно в итоге человек исправляет свои ошибки.
Была еще утопическая идея смотреть за временем нажатия, т.е. если "п" и "р" набираются с интервалом более четверти секунды, то это нормально, если менее - то палец задел две кнопки.
И совсем параноидальный режим, который замечает, что если после такого "дуплета" идет пауза (человек почувствовал пальцем две кнопки и остановился посмотреть на экран), то при наличии определенной статистики исравлений (он таки убрал лишнюю букву) можно предлагать эту операцию полу-автоматически.
А потом наступил август, и всем нам стало настолько не до того...
no subject
Date: 2003-12-24 05:14 am (UTC)Ясен пень, в отпуск поехали. :-)
no subject
Date: 2003-12-24 05:40 am (UTC)no subject
Date: 2003-12-25 01:58 am (UTC)a mne iz toj poezdki iz chisel zapomnilos' tol'ko utro 1 sentjabrja!
S dnem znanij, kenga!- skazal radostnyj Frodo, wylezshij iz TEPLOGO spal'nika chut' li ne 3 parah noskow
U menja zub na zub ne popadal ot holoda, a nog woobsche pochti ne chuwstwowala..
Nu a dal'she, klassika: "Tupoj, esche tupee"..
A chto zh ty ne sprosila, u menja bylo esche 3 pary noskow,
kto zh ezdit na sewer bez zapasnoj pary perchatok??
Wot tebe i den' znanij..
no subject
Кстати, раз уж дразнить начал - мне тут вчера хорошие люди привезли 4 бутылки Weissen.
Две белого, две черного.
Четыре вкусного.
Немецкого.
Ням-ням.
Уже три осталось...
no subject
Date: 2003-12-24 05:23 am (UTC)no subject
Date: 2003-12-24 05:42 am (UTC)no subject
Date: 2003-12-24 05:55 am (UTC)no subject
Date: 2003-12-24 06:26 am (UTC)Я так, абстрактно любуюсь идеей. А кто ее реализовывать будет - это меня меньше всего интересует.
no subject
Date: 2004-01-06 02:45 am (UTC)Не нужными? Не важными? Ложнымы? ("не" осталось от старой редакции) Не точными? Еще что?
"л" и "т" спутать невозможно. "ну" и "то" (равно как "ва" и "то") не стоят "параллельно", т.е. одну пару вместо другой тоже не набрать.
Остается транслит, где "ч" и "ж" обычно набирают как "ch" и "zh".
Далее по тексту "судьва человека" - транслит, однозначно.
©