> Алгоритм очепяток, никто не встречал?
 Set Member is Offline
 Posted: 27-10-2005, 20:53 (post 1, #485901)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
Даешь ему правильное слово - на выходе очепятки, но только правильные, в смысле с большой долей вероятности делаемые людьми. Может кто видел подобное?
PM
Top Bottom
 obaldin Member is Offline
 Posted: 27-10-2005, 20:57 (post 2, #485903)

Медитатор

Group: Prestige
Posts: 4886
Warn:0%-----
Думаю, надо искать на "editing distance"
PM
Top Bottom
 Set Member is Offline
 Posted: 28-10-2005, 15:59 (post 3, #486277)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
"editing distance" медленно переползло к "расстояниям между строками" и спелчеку... кое-что полезное есть... теперь бы табличку типичных очепяток с заменой букв, вида e-i, w-v, ph-f, ... :help:
PM
Top Bottom
 obaldin Member is Offline
 Posted: 28-10-2005, 16:15 (post 4, #486285)

Медитатор

Group: Prestige
Posts: 4886
Warn:0%-----
QUOTE (Set @ 28-10-2005, 14:59)
типичных очепяток с заменой букв, вида e-i, w-v, ph-f
Это, похоже, ты приводишь пример не опечаток, а ошибок. А они будут сильно отличаться. Вопрос, что тебе все же нужно ошибки или опечатки, насколько реалистичными тебе нужны эти ошибки/опечатки? А то, может, достаточно составить табличку находящихся рядом букв, добавить пропуски/перестановки букв и все? В общем, уточни задачу?
PM
Top Bottom
 Set Member is Offline
 Posted: 28-10-2005, 17:38 (post 5, #486315)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
Ошибки+очепятки, всё вместе. Нужны более-менее реалистичные варианты для слов, набираемых людьми в поисковых запросах.
1. Пропуск букв.
2. Замена местами рядом стоящих: dub - dbu
3. i-e, a-o, ...
Таблицы по раскладке букв на клавиатуре и вариант добавления других букв в слово, судя по кой-какой статистике, рассматривать не стоит.

Нужна табличка для 3-го пункта, в принципе можно и самому сделать, только насколько правильной она будет...
PM
Top Bottom
 admik Member is Offline
 Posted: 28-10-2005, 17:47 (post 6, #486320)

флуд и труд
Group: Privileged
Group: Privileged
Posts: 9150
Warn:0%-----
я бы тоже неотказался послушать советы специалистов :rolleyes:
у меня назревает необходимость в такой-же опции
PM Email Poster ICQ AOL MSN
Top Bottom
 obaldin Member is Offline
 Posted: 28-10-2005, 18:26 (post 7, #486356)

Медитатор

Group: Prestige
Posts: 4886
Warn:0%-----
Прям, заинтриговали... Что-же это вы химичите?..
А! Знаю! Тест Тьюринга решили пройти! :D

По поводу реализации - все будет зависить от того, по каким критериям будут оценивать похожесть сгенеренного на человеческий продукт. Например, у людей бывают такие ошибки как "первые две заглавные буквы". ТИпа вот так. И т.д.

Еще, может быть, имеет смысл глянуть в Open Office (естественно, на алгоритмы чекера)

О, видел как-то на Гугле список запрашивавшихся у них вариантов написания имени Бритни Спирс (из где-то, наверное, полутысячи позиций)! Вот где кладезь апичаток-то! :p
PM
Top Bottom
 admik Member is Offline
 Posted: 28-10-2005, 19:12 (post 8, #486382)

флуд и труд
Group: Privileged
Group: Privileged
Posts: 9150
Warn:0%-----
obaldin ну я новостями и архивами документов занимаюсь. тут вот поиск по оным придется делать по полной программе, сам понимаешь что такой поиск происходит не за 5 секунд, а потому проще сначала проанализировать и если есть сомнения что пользователь правильно вводит текст, его информировать.
PM Email Poster ICQ AOL MSN
Top Bottom
 obaldin Member is Offline
 Posted: 28-10-2005, 21:18 (post 9, #486458)

Медитатор

Group: Prestige
Posts: 4886
Warn:0%-----
admik, так тебе нужен просто алгоритм спел-чекера, а не обратный "генерации ашипок", как тот, что ищет Set.
Может на сорцы фриварных спелчекеров глянуть?
PM
Top Bottom
 admik Member is Offline
 Posted: 28-10-2005, 21:51 (post 10, #486475)

флуд и труд
Group: Privileged
Group: Privileged
Posts: 9150
Warn:0%-----
а мне интерестно посмотреть от обратного
PM Email Poster ICQ AOL MSN
Top Bottom
 Set Member is Offline
 Posted: 31-10-2005, 18:43 (post 11, #487753)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
e-i-a-o-u-y
ph - f
w-v
c-k

Какие варианты могут быть ещё?
PM
Top Bottom
 Set Member is Offline
 Posted: 31-10-2005, 22:01 (post 12, #487821)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
m-n
PM
Top Bottom
 SonyBrother Member is Offline
 Posted: 31-10-2005, 23:27 (post 13, #487863)

Talk too much

Group: Members
Posts: 2023
Warn:0%-----
QUOTE (obaldin @ 28-10-2005, 18:18)
admik, так тебе нужен просто алгоритм спел-чекера, а не обратный "генерации ашипок", как тот, что ищет Set.
Может на сорцы фриварных спелчекеров глянуть?

Если есть словарь, то используй ДП для сравнения (динамическое программирование). Работает быстро, если правильно все сделаешь. Сможешь задавать уровень ошибок, чтобы отсекать заранее плохие варианты. ДП удобно применять там, где длина последовательностей не совпадает (ставки, пропуски, подмены), а меру похожести между ними надо знать.


This post has been edited by SonyBrother on 31-10-2005, 23:28
PM Email Poster
Top Bottom
Topic Options