Printable Version of Topic
Click here to view this topic in its original format |
Forums > Художественная литература > Библиотека FictionBook.ru, Забирайте |
Posted by: BRMAIL on 17-08-2004, 15:21 |
Закончено зеркалирование этой большой библиотеки. Результат в целом удовлетворительный Из обещанных на сайте 3362 книг скачалось 3306. С чем связано отсутствие 56 книг я не знаю И какие это книжки - тоже. И пожалуй проверять не стану ![]() Скачивалось качалкой телепорт, пофайлово. Таким образом, кроме основного формата книг этого сайта - FB2, были утянуты и архивы в фомате html и просто txt Чтобы не терять готовые форматы и удовлетворить максимально широкие слои населения ![]() Первый, собственно, сама библиотека - html файлы и картинки, а так же сопутствующая информация и рецензии где они есть. Оставшиеся три - это сами книги. Архивы содержат файлы, разложенные по фолдерам из имен авторов- названий книг (латинскими буквами) Три архива содержащие книги в форматах: - FB2.ZIP - TXT.ZIP - HTML.ZIP Текст в файлах в виндовой кодировке Архив с книгами нужно распаковать в фолдер, содержащий фолдер \Author, такой фолдер уже будет в архиве самой библиотеки и файлы просто улягутся в соотвествующие авторам фолдеры. Если будут вопросы по поводу overwrite existing file - соглашайтесь. Итак, сама библиотека - books(RUS)_fictionbook.ru_08_16_2004_LIB_ONLY_.rar (ed2k://|file|books(RUS)_fictionbook.ru_08_16_2004_LIB_ONLY_.rar|74648167|D3ECE38EB37EEE9EC19D7DA07CB0F84F|/ Файлы с книгами: books(RUS)_fictionbook.ru_08_16_2004_FB2_ZIP_.rar (ed2k://|file|books(RUS)_fictionbook.ru_08_16_2004_FB2_ZIP_.rar|701655254|D8E01368D497D208902956789D892C07|/ books(RUS)_fictionbook.ru_08_16_2004_HTML_ZIP_.rar (ed2k://|file|books(RUS)_fictionbook.ru_08_16_2004_HTML_ZIP_.rar|652030759|982887BA690F615A3FC11984AC88B946|/ books(RUS)_fictionbook.ru_08_16_2004_TXT_ZIP_.rar (ed2k://|file|books(RUS)_fictionbook.ru_08_16_2004_TXT_ZIP_.rar|593720318|EC617B05D1CAFBD59D56B0AA542EE355|/ Ах, да, еще одно - txt и fb2 файлов на 6 штук больше чем html Опять таки причин не знаю, и разбираться не очень хочу. Ну и последнее - обновлений, чаще чем раз в полгода ждать не стоит, может и вовсе не буду, уж больно неестественное это занятие. |
Posted by: FiL on 17-08-2004, 16:02 |
A почему fb2, html и txt есть, а rb нет? Просто интересно.... |
Posted by: BRMAIL on 17-08-2004, 17:13 |
Телепорт про обладает какой то выборочной функциональностью в плане ограничений имен файлов, которые пользователь хочет исключить из скачивания. Всякие .rb и isilo он урезал а вот эти оставил. Я пытался оставить для скачивания fb2.zip - как исходный формат и txt.zip как формат для тех кому fb2 не нужен/не удобен. Ну вот не получилось. Раз уж об этом речь зашла, раньше - года четрые назад телепорт считался наиболее крутой программой на рынке скачивающих сайты. На сегодня оффлайн эксплорер показался мне более гибким в настройках и удобным. Какие еще программы такого-же уровня или выше есть сейчас? Кто чем пользуется? |
Posted by: UGIN on 17-08-2004, 17:19 |
Во-первых спасибо... Верной дорогой идете товарищи ![]() А во-вторых, наверное, имеет смысл перекачать еще пару библиотек/OCR: http://book.pp.ru (http://book.pp.ru http://64.36.15.106/library.htm (http://64.36.15.106/library.htm http://fenzin.org/ (http://fenzin.org/ http://lib.aldebaran.ru/ (http://lib.aldebaran.ru/ Эти я обхожу ежедневно на предмет обновлений.. |
Posted by: FiL on 17-08-2004, 17:55 | ||
А у меня вопрос, не легче списаться с составителем на предмет получения полного архива. Предупредить, что все равно выкачаем, только времени займет больше и нагрузки серверу создадим лишней. Авось и отдаст в удобоваримом виде. Если есть желание, то можно распределить нагрузку, я-бы написал кому-нить из держателей библиотек о таком проекте. |
Posted by: FiL on 17-08-2004, 17:56 |
Да, для выкачивания сайтов перешел на wget. не самый навороченный, но достаточно функциональный. А простота зачастую лучше навороченности. |
Posted by: UGIN on 17-08-2004, 18:11 | ||
Однако, согласен с тобой.. Попытаюсь списаться с book.pp.ru - может и пройдет.. |
Posted by: UGIN on 17-08-2004, 18:32 | ||
Написал туда, ждем-с..
|
Posted by: BRMAIL on 17-08-2004, 18:41 |
Я пытался связаться с руководством альдебарана - от mail.ru адреса приходит отлуп. Короче говоря - готов поучаствовать в скачивании и раздаче любого обьема, если найдется возможность забрать какие либо еще библиотеки. Фэнзин так просто не выкачать - там запрос на файл происходит не через get а через put а вот такого качалки кажется еще не умеют. Надо либо еще поискать среди софта либо свое писать. |
Posted by: FiL on 17-08-2004, 20:23 |
а я пока написал на форуме альдебарана. Посмотрим что ответят |
Posted by: Zemlynin on 17-08-2004, 21:20 |
Вопрос.Как быть пользователям КПК ? Что качать,как перевести внужный формат.Возможно вопрос не по теме,но тоже связанный с книгами.Могу помочь с закачкой и рашаркой. |
Posted by: BRMAIL on 17-08-2004, 21:39 |
Если под КПК подразумевается windows based наладонник - то лучше haali ридера и соотвественно fb2 формата не придумали. Если речь идет о палме, то txt файл легким движением руки превращается в prc или берется инсталер: http://pinstall.envicon.com/e/pinstall/index.html (http://pinstall.envicon.com/e/pinstall/index.html ему достаточно отдать текстовый файл, он перед аплоадом сделает все сам. |
Posted by: BRMAIL on 17-08-2004, 21:46 | ||
Если слова администратора альдеборана "попробуйте, может вам удастся" следует понимать как разрешение попробовать ![]() то могу авторитетно заявить, что и пробовать нечего. Движек тот же, что и у FictionBook.ru и скачивание возможно - просто занимает примерно сутки времени и в результате приносит качающему библиотеку с избыточными файлами. т.е примерно в 4 раза более чем хотелось бы. Если ничего нового не будет отвечено на твой вопрос на альдеборановском форуме - на следующей неделе я ее утяну. |
Posted by: UGIN on 20-08-2004, 21:36 |
Не получив ответа от Book.pp.ru, включил телепорт.. Процесс пошел. |
Posted by: FiL on 20-08-2004, 23:18 | ||||
Если хочешь, то я могу поставить утягивалку и потом тебе отдать уже несколько потрепанную версию на доводку. |
Posted by: UGIN on 20-08-2004, 23:28 |
Мдаа... Фиг там, не дает ![]() 5 файлов - стоп на 20 минут, т.е. zipы не дает, а html - пожалуйста.. Эт не дело.. |
Posted by: BRMAIL on 21-08-2004, 00:13 | ||
А ты попробуй в один поток, да с интрвалом секунд в 5 между запросами. Еще подкрути чем он там серверу представляется - IE5.5 - 6 вполне. Короче прити качалке надо поубавить. |
Posted by: BRMAIL on 21-08-2004, 00:17 | ||
Oк, поставь. Я собирался это в начале недели сделать. Условия примерно такие - 2-3 секнды интервал между запросами, один поток. Попробуй ограничить какие файлы не качать - задесь fb2 опять таки исходный формат - его качать надо. HTML народ любит , да и не урежешь его TXT , ну на мой взгляд и его надо оставить. Остальное можно чикать, оно на любителя |
Posted by: UGIN on 21-08-2004, 00:39 |
BRMAIL Понялъ, попробуем-с.. |
Posted by: FiL on 21-08-2004, 01:10 |
BRMAIL, а чем качать можно кроме телепорта (да еще и с такими настройками) ты не выяснял? Меня всю следующую неделю не будет... пускай качается... |
Posted by: UGIN on 21-08-2004, 01:51 |
А плевать оно хотело... Батьку, нэ лэзэт ![]() |
Posted by: FiL on 21-08-2004, 06:24 |
лезет-лезет... уже 140 мегов влезло... и пока вполне прилично лезет |
Posted by: BRMAIL on 21-08-2004, 06:48 |
похоже вы о разных сайтах говорите |
Posted by: BRMAIL on 21-08-2004, 07:13 | ||
Ок, а вот если взять и сделать страничку с такими линками http://book.pp.ru/default.asp?page=descr&id=341 (http://book.pp.ru/default.asp?page=descr&id=341 http://book.pp.ru/default.asp?page=descr&id=342 (http://book.pp.ru/default.asp?page=descr&id=342 http://book.pp.ru/default.asp?page=descr&id=343 (http://book.pp.ru/default.asp?page=descr&id=343 и так далее. Попробовать нужно на этом, а вообще начать с 1 И попросить твою качалку все скачать с этой странички. уровня на два вниз. Если не выйдет, то сделать страничку с такими линками http://book.pp.ru/download.asp?id=341 (http://book.pp.ru/download.asp?id=341 http://book.pp.ru/download.asp?id=342 (http://book.pp.ru/download.asp?id=342 http://book.pp.ru/download.asp?id=343 (http://book.pp.ru/download.asp?id=343 Короче нужен творческий подход. Внезапно обнаружил что мой офлайн эксплорер требует регистрацию. версия 3.3 С чего бы вдруг. |
Posted by: BRMAIL on 21-08-2004, 07:35 | ||
ОК, первым путем сайт скачивается. Пару книг он мне только что отдал. Файл сгенерировать сам сумеешь? (не издеваюсь просто не знаю насколько ты далек от знания html ) вот такое
цифирки от 1 до сколько там у него книг, ну пусть 1000 или 2000 |
Posted by: UGIN on 21-08-2004, 07:43 | ||||
Вот посмотри, если отдаст БОЛЕЕ 5 книг зараз, тогда и скажем, что скачивается.. Пы.сы. А в html я полный zero.. |
Posted by: BRMAIL on 21-08-2004, 08:08 | ||
Не. я иду спать, а в выходные меня не будет дома. на следующей неделе могу продолжить попрактикуйся сам: http://66.58.25.2/test.html (http://66.58.25.2/test.html там десяток линков - натравь свой телепорт. И не забудь разрешить ему качать с другого сервера - линки то ведут в библиотеку на чужой сервер. удачи |
Posted by: UGIN on 21-08-2004, 08:52 |
Отличный тест !!! Gateway Timeout The following error occurred: [code=GATEWAY_TIMEOUT] A gateway timeout occurred. The server is unreachable. Retry the request. |
Posted by: FiL on 21-08-2004, 09:00 |
я думаю, что pp.ru я все-таки смотрю уговорить. |
Posted by: UGIN on 21-08-2004, 09:05 |
Попробуй.. То, что у меня получалось,. что качал все htmlы, всю изображения, но не качал более 5 зипов..Все остальные зипы давали линк на limit.html - 20 минут ждать после 5 файлов.. |
Posted by: FiL on 21-08-2004, 09:47 |
они были жадными и я помещаю этот список прямо тут. И так будет с каждым! хммм... погорячился... список из 645 позиций тут смотрится плохо. Правильный список тут. (http://fil.kpoxa.org/xp/book.pp.ru.html |
Posted by: FiL on 21-08-2004, 19:25 |
Да, вопрос, надо сделать таблицу соответствий какой id соответствует какому файлу? потом можно или файлы переименовать, или еще как сделать библиотеку цельной и читабельной. |
Posted by: UGIN on 21-08-2004, 19:35 |
Вообще-то, я считаю, что нет надобности тянуть ВСЁ.. Достаточно самих книг. Все остальное - нужно только для восстановления всего сайта, не более.. Максимум - раскидать на RU и ENG... |
Posted by: FiL on 21-08-2004, 19:45 |
Прошу прощения у почтенной публики - неодоценил я библиотеку сперва - список уже обновлен до 1020 позиций. UGIN, очень неудобно жить, когда невозможно найти нужную книгу. Скачав только сами файлы мы имеем именно эту проблему. Просто пачка файлов без возможности что-либо найти. |
Posted by: UGIN on 21-08-2004, 19:57 | ||||
Берешь прогу с сайта - www.avtlab.ru, AVSearch называется..
И вперед... |
Posted by: BRMAIL on 23-08-2004, 06:14 |
мне кажется бестолку плодить сущьности - легче скачать лишних 50-70 мег сайта, чтоби иметь "цельный продукт" чем прикручивать потом к файловой помойке индексатор. |
Posted by: UGIN on 23-08-2004, 06:32 |
Могёт быть.. |
Posted by: BRMAIL on 24-08-2004, 00:11 | ||
Так чем кончилось? качается оно или фигвам? |
Posted by: UGIN on 24-08-2004, 06:47 |
У меня - фигвам.. |
Posted by: BRMAIL on 24-08-2004, 06:52 | ||
А почему? 5 zip файлов у тебя же качалось зараз? Ну значит список надо разбить по 5 линков , получится примерно 1000/5 =200 файлов которые надо последовательно поставить в закачку. Или как? |
Posted by: genka on 24-08-2004, 18:45 |
У меня ^lib only.rar^ скачался и лежит в рашарке. Распаковать не пробовал. |
Posted by: UGIN on 25-08-2004, 07:21 |
Да похоже на то.. Единственное, что надо будет сделать - отшедулить все с перерывом 20 минут.. Т.е. 200 раз по 20 минут=66 часов=2,5 дня.. |
Posted by: Jin on 25-08-2004, 14:28 |
Кто-нибудь lib.aldebaran.ru тянет или нет? А то я начал потихоньку. |
Posted by: FiL on 28-08-2004, 08:05 | ||
Вы о чем??? ![]() ![]() ![]() o Book.pp.ru ??? Я-же кинул линк на все книги оттуда. По тем линкам качается напрямую без ограничений. Я уже давно все выкачал. Повторяю - http://fil.kpoxa.org/xp/book.pp.ru.html (http://fil.kpoxa.org/xp/book.pp.ru.html альдебарана я выкачал - 4.1 гига всего. Но это со всеми форматами... пока не смотрел чего там есть - я в отпуске. На след. неделе вернусь и постараюсь разобраться. |
Posted by: BRMAIL on 02-09-2004, 04:19 | ||
Кстати поделись - как ты получил этот список? Я как раз пытаюсь обратную задачу провернуть - получить лист соответcтвий finename - id |
Posted by: FiL on 02-09-2004, 05:05 | ||
Опять-же, я ведь открытым текстом спрашивал -
Счас организую таблицу. update: пока не получается сделать таблицу. Воюю со скриптами. |
Posted by: BRMAIL on 02-09-2004, 16:06 |
Ну вот, опять рыба. Хочу удочку. Как тебе удается получить файл http://book.pp.ru/download.asp?id=NN (http://book.pp.ru/download.asp?id=NN если у него внутри каунтер? пять штук и нарываешся на паузу Кстати мне что-то уведомления с этого форума перестали приходить |
Posted by: FiL on 02-09-2004, 16:50 |
файлик сделал - доберусь до работы - выложу. А насчет каунтера - каунтер именно на даунлоуде. Если файл не качать, то каунтер не увеличивается. А в логе имя файла остается. мне помог --spider ключ к wget'у. update: http://fil.kpoxa.org/xp/pairs.lst (http://fil.kpoxa.org/xp/pairs.lst Файлик не сильно удобный для использования, но вполне понятный. Так, что я думаю разобраться проблем не будет. Если есть желание, то могу также выложить полный лог работы wget'a. |
Posted by: FiL on 02-09-2004, 18:03 | ||
Попробую пояснить насчет удочки на конкретном примере. Вот кусок лога wget'a соответствующий одноми id= --02:23:16-- http://book.pp.ru/download.asp?id=16 (http://book.pp.ru/download.asp?id=16 => `download.asp?id=16' Resolving book.pp.ru... done. Connecting to book.pp.ru[194.85.137.134]:80... connected. HTTP request sent, awaiting response... 302 Object moved Location: ./books/67819_boris12.zip [following] --02:23:16-- http://book.pp.ru/books/67819_boris12.zip (http://book.pp.ru/books/67819_boris12.zip => `67819_boris12.zip' Connecting to book.pp.ru[194.85.137.134]:80... connected. HTTP request sent, awaiting response... 200 OK Length: 3,323 [application/x-zip-compressed] 200 OK Таким образом, мы запрашиваем download.asp?id=16, получаем ответ, что Object moved. Узнаем куда он moved, НО НЕ КАЧАЕМ. Вот и фсе. |
Posted by: BRMAIL on 02-09-2004, 18:29 | ||
Удобный, удобный. Я после понедельника соберу в нормальном виде эту библиотеку и выложу в осла, чтобы народ почем зря его оттуда не тянул. Будет комплект страничек со ссылками на файлы. |
Posted by: BRMAIL on 02-09-2004, 18:32 | ||
А какой вигет ты используешь? Этот? http://www.interlog.com/~tcharron/wgetwin.html (http://www.interlog.com/~tcharron/wgetwin.html или у тебя *nix машина под рукой? |
Posted by: FiL on 02-09-2004, 22:35 |
У меня десяток *никсов под ногами, руками и другими местами ![]() |
Posted by: BRMAIL on 04-09-2004, 07:11 |
В любом случае спасибо за удочку ![]() Короче говоря библиотека book.pp.ru cкачалась Файлики с путями я проапдейтпал, в понедельник вечером вернусь с отдыха и доделаю оглавление для разделов. Ну и будем надеятся во вторник выложу. |
Posted by: FiL on 04-09-2004, 18:19 |
Спасибо. Кстати, рекомендую зарегиться на http://www.the-ebook.org/forum/ (http://www.the-ebook.org/forum/ - там интересные мысли есть. Я еще не все читал. Вчера только на них напоролся. P.S. Именно зарегиться. Там есть один форум закрытый от гостей. |
Posted by: genka on 06-09-2004, 15:44 |
Попробовал этот файл ^Books(Rus) Fictionbook Ru 08 16 2004 Lib Only.rar- HTML^ работает, но все ссылки на сами тексты пустые ![]() |
Posted by: BRMAIL on 06-09-2004, 22:06 |
ок, выложил Biblio.Net (http://book.pp.ru), Topic Link: Библиотека Biblio.Net (http://book.pp.ru) (http://netlab.e2k.ru/forum/index.php?showtopic=33276 Фил, а чем у тебя кончилась закачка альдебарана? |
Posted by: BRMAIL on 06-09-2004, 22:10 | ||
так lib only означает что внутри только описания, картинки и рецензии . сами тексты скачивать отдельно из "books(RUS)_fictionbook.ru[08_16_2004_HTML_ZIP].rar" "books(RUS)_fictionbook.ru[08_16_2004_TXT_ZIP].rar" "books(RUS)_fictionbook.ru[08_16_2004_FB2_ZIP].rar" выбери формат который удобне для тебя и качай |
Posted by: FiL on 06-09-2004, 23:48 | ||
Блин, вот как закончилась, так и лежит :( Представляет собой 4 Гига файлов. Из них 30 мегов так всякого барахла и все остальное - тексты. Тесксты есть в 4-х форматах. И у меня совсем нет сейчас времени на приведение этого всего в нормальный вид. Если ты не против - я могу тебе по фтп отдать архивы. Могу отдать все вместе, могу организовать тексты только в одном из форматов - тогда скажи в каком. |
Posted by: BRMAIL on 07-09-2004, 06:50 | ||||
Запросто. ЗАпакуй это хозяйство раром с максимальной компрессией. мег по 20 в куске и заливай . FTP логин сейчас кину в персональном сообщении. Или если тебе удобнее просто выложить у себя - пиши. Фикшнбук я обрабатывал - там особо сложного ничего нету. формат у них одинаковый . Причешу и в осла. Как раз Библионет раздастся уже |
Posted by: FiL on 07-09-2004, 07:51 |
я у себя выложу. Ты только скажи тебе все отдавать или только один формат. И если один, то какой? Предполагаю, что fb2, но хотелось-бы подтверждения. |
Posted by: Crusader3000 on 04-11-2006, 01:28 |
Народ, а никто не озабочивался закачкой lib.aldebaran.ru? Так интересно - я недавно пробовал начать качать сайт Оффлайн Эксплорером - после десятка закачанных книг и страничек (Кстати - там есть ограничение на количество одновременных коннектов - 5), полезли вместо файлов странички с ошибками, А ещё через пару десятков страничек мой айпи-адрес оказался временно забанен. Ну я и бросил эту затею. Временно. Там нужна более умная программа, которая бы использовала список прокси для закачки. Такой программы я не видел. Может кто знает? Так руки и чешутся для написания программы скачивания этого сайта (по аналогии как я делал для закачки сайта эротических рассказов "Стульчик"). |
Posted by: FiL on 04-11-2006, 01:49 |
скачивал. Если ты почитаешь буквально пару предыдущих постов, то это вполне явно там написано. Но смысла нет, альдебаран ценен не только и не столько наличием книг, сколько рецензиями и рейтингами. А без них толку скачивать его нет. |
Posted by: Crusader3000 on 04-11-2006, 01:58 | ||
FiL, я внимательно прочёл всю ветку. Как я понял по датам сообщений - то ты скачивал старую версию сайта. А сейчас новая, и на ней куча защит. Пытался сейчас снова попробовать скачать - зарубили айпи-адрес после десяти закачанных страничек. И вот как с ними бороться?
|
Posted by: FiL on 04-11-2006, 02:06 |
Crusader3000, 1. я, кажется, качал и новую версию тоже. 2. бороться можно по-разному. Для начала надо понять ради чего. Если ты знаешь что ты хочешь почитать, то зачем тебе качать ВСЮ библиотеку? Скачай только то, что хочешь... |
Posted by: Crusader3000 on 04-11-2006, 02:11 | ||
FiL, ответ прост, и он уже здесь назывался. Рано или поздно - исчезнут эти библиотеки. Как исчезли на западе. На западе бесплатных библиотек подобного типа нет. Кроме того - бегать каждый раз по инету и искать что хочу почитать... А так - достал и выбрал что нужно. Было бы круто если бы была возможность периодически обновлять скачанную библиотеку (могу похвастаться - я так со Стульчиком делал - раз в полгода закачал обновления и можно почитать что-нибудь, благо там не банят за скачку) К тому же электронные книги вечны - их смогут бесплатно читать и дети и внуки.
|
Posted by: UGIN on 04-11-2006, 03:58 | ||
Один раз качаешь - а потом только ежедневные апдейты... Или тебе нужна именно вся библиотека ?? |
Posted by: FiL on 04-11-2006, 20:27 | ||
|
Posted by: yury_usa on 04-11-2006, 20:32 |
меня например раздражает то что иногда новая книга на альдебаране появится, и через сутки ее уже нет ![]() |
Posted by: UGIN on 04-11-2006, 20:36 | ||
|