Forums -> Флейм -> Regexp выдёргивания url-ов из html
| Full Version

Set
Нужно вытаскивать адреса из html линков (<a href= ... >), а улучшайзингом регулярных выражений как-то не приходилось заниматься... :help: Есть ли готовое "стандартное" решение ?

ЗЫ Или может expat будет быстрее регулярных выражений ?
muaddib
на каком языке? какая платформа? как часть апликации или отдельным скриптом?
FiL
лучше не надо улучшать. Оставь как есть. А то будет хуже. Проверено нетлабом. Тут тоже Брайт начал улучшать, так потом месяцами что-то криво парсилось.
izanoza
Язык не указал, так что вот несколько:

<\s*a\s+[^>]*href\s*=\s*[\"']?([^\"' >]+)[\"' >]
http://www.onaje.com/php/article.php4/46

На яваскрипте пример тут
http://www.mikezilla.com/exp0033.html

тут ещё вариант
http://www.dotnetcoders.com/web/Learning/Regex/exHrefExtractor.aspx

для perl есть
http://search.cpan.org/~podmaster/HTML-LinkExtractor/LinkExtractor.pm
Set
QUOTE (izanoza @ 23-03-2006, 04:27)
тут ещё вариант
http://www.dotnetcoders.com/web/Learning/Regex/exHrefExtractor.aspx
Что-то да есть... спасибо. :hand:

Выражения на perl-овском диалекте.