NetLab · Rules · Torrent Tracker · Have a problem? · Eng/Rus | Help Search Members Gallery Calendar |
Welcome Guest ( Log In | Register | Validation ) | Resend Validation Email |
Алгоритм очепяток, никто не встречал? |
|
Posted: 27-10-2005, 20:53
(post 1, #485901)
|
||
Visionary Group: Members Posts: 5181 Warn:0% |
Даешь ему правильное слово - на выходе очепятки, но только правильные, в смысле с большой долей вероятности делаемые людьми. Может кто видел подобное? |
||
|
Posted: 27-10-2005, 20:57
(post 2, #485903)
|
||
Медитатор Group: Prestige Posts: 4886 Warn:0% |
Думаю, надо искать на "editing distance" |
||
|
Posted: 28-10-2005, 15:59
(post 3, #486277)
|
||
Visionary Group: Members Posts: 5181 Warn:0% |
"editing distance" медленно переползло к "расстояниям между строками" и спелчеку... кое-что полезное есть... теперь бы табличку типичных очепяток с заменой букв, вида e-i, w-v, ph-f, ... |
||
|
Posted: 28-10-2005, 16:15
(post 4, #486285)
|
||
Медитатор Group: Prestige Posts: 4886 Warn:0% |
Это, похоже, ты приводишь пример не опечаток, а ошибок. А они будут сильно отличаться. Вопрос, что тебе все же нужно ошибки или опечатки, насколько реалистичными тебе нужны эти ошибки/опечатки? А то, может, достаточно составить табличку находящихся рядом букв, добавить пропуски/перестановки букв и все? В общем, уточни задачу? |
||
|
Posted: 28-10-2005, 17:38
(post 5, #486315)
|
||
Visionary Group: Members Posts: 5181 Warn:0% |
Ошибки+очепятки, всё вместе. Нужны более-менее реалистичные варианты для слов, набираемых людьми в поисковых запросах. 1. Пропуск букв. 2. Замена местами рядом стоящих: dub - dbu 3. i-e, a-o, ... Таблицы по раскладке букв на клавиатуре и вариант добавления других букв в слово, судя по кой-какой статистике, рассматривать не стоит. Нужна табличка для 3-го пункта, в принципе можно и самому сделать, только насколько правильной она будет... |
||
|
Posted: 28-10-2005, 17:47
(post 6, #486320)
|
||
флуд и труд Group: Privileged Posts: 9150 Warn:0% |
я бы тоже неотказался послушать советы специалистов у меня назревает необходимость в такой-же опции |
||
|
Posted: 28-10-2005, 18:26
(post 7, #486356)
|
||
Медитатор Group: Prestige Posts: 4886 Warn:0% |
Прям, заинтриговали... Что-же это вы химичите?.. А! Знаю! Тест Тьюринга решили пройти! По поводу реализации - все будет зависить от того, по каким критериям будут оценивать похожесть сгенеренного на человеческий продукт. Например, у людей бывают такие ошибки как "первые две заглавные буквы". ТИпа вот так. И т.д. Еще, может быть, имеет смысл глянуть в Open Office (естественно, на алгоритмы чекера) О, видел как-то на Гугле список запрашивавшихся у них вариантов написания имени Бритни Спирс (из где-то, наверное, полутысячи позиций)! Вот где кладезь апичаток-то! |
||
|
Posted: 28-10-2005, 19:12
(post 8, #486382)
|
||
флуд и труд Group: Privileged Posts: 9150 Warn:0% |
obaldin ну я новостями и архивами документов занимаюсь. тут вот поиск по оным придется делать по полной программе, сам понимаешь что такой поиск происходит не за 5 секунд, а потому проще сначала проанализировать и если есть сомнения что пользователь правильно вводит текст, его информировать. |
||
|
Posted: 28-10-2005, 21:18
(post 9, #486458)
|
||
Медитатор Group: Prestige Posts: 4886 Warn:0% |
admik, так тебе нужен просто алгоритм спел-чекера, а не обратный "генерации ашипок", как тот, что ищет Set. Может на сорцы фриварных спелчекеров глянуть? |
||
|
Posted: 28-10-2005, 21:51
(post 10, #486475)
|
||
флуд и труд Group: Privileged Posts: 9150 Warn:0% |
а мне интерестно посмотреть от обратного |
||
|
Posted: 31-10-2005, 18:43
(post 11, #487753)
|
||
Visionary Group: Members Posts: 5181 Warn:0% |
e-i-a-o-u-y ph - f w-v c-k Какие варианты могут быть ещё? |
||
|
Posted: 31-10-2005, 22:01
(post 12, #487821)
|
||
Visionary Group: Members Posts: 5181 Warn:0% |
m-n |
||
|
Posted: 31-10-2005, 23:27
(post 13, #487863)
|
||
Talk too much Group: Members Posts: 2023 Warn:0% |
Если есть словарь, то используй ДП для сравнения (динамическое программирование). Работает быстро, если правильно все сделаешь. Сможешь задавать уровень ошибок, чтобы отсекать заранее плохие варианты. ДП удобно применять там, где длина последовательностей не совпадает (ставки, пропуски, подмены), а меру похожести между ними надо знать. This post has been edited by SonyBrother on 31-10-2005, 23:28 |
||