Forums -> Книги в электронных форматах -> Художественная литература -> http://p2p.lib.ru/
| Full Version

FiL
http://p2p.lib.ru/

Узнать-бы кто этим занимается...
Billy Bonce
У меня такое чуйство, что этим занимается BRMAIL :)
При желании можно спросить и у самого root@p2p.lib.ru ...

БТВ не совсем ясно зачем нужен выделенный сервер для книг,а вот что бы не помешало, так это индексации ослоссылок на книги :)
FiL
QUOTE (Billy Bonce @ 28-11-2004, 08:17)
У меня такое чуйство, что этим занимается BRMAIL :)
При желании можно спросить и у самого root@p2p.lib.ru ...

БТВ не совсем ясно зачем нужен выделенный сервер для книг,а вот что бы не помешало, так это индексации ослоссылок на книги :)

Я тоже сначала подумал на BRMAIL, но потом очень быстро отказался от этой идеи.

Во-первых, BRMAIL сделал-бы тут объяву.
Во-вторых, он знает, что тысячи книг отдельными мелкими файлами в осла выкладывать бессмысленно.

piligrim
что-то этот сервер в мула не добавляется
Billy Bonce
А я законнетился :p

Мало того , что законнектился, еще и сделал поиск по серверу по "pdf"

Вот что там нашлось:
QUOTE
ed2k://|file|Playboy%20Playmate%20Calendar%202004.pdf|2579257|4DA4653DB170E405D53AA80355041D2E|/
[ebook-german]_tecCHANNEL_Netzwerk-Sniffer.pdf
die.beliebtesten.backrezepte.aus.ganz.europa_[link_by_www.eselpsychos.to].pdf
Stiftung.Warentest.-.Elektrorasierer.Test.12-2003.(by.FN).pdf
Dieter%20Bohlen%20-%20Hinter%20den%20Kulissen.pdf
Stiftung%20Warentest%20Matratzen%202003.03.pdf
Stiftung%20Warentest%20Akkus.pdf
Stiftung%20Warentest%20Homecinema.pdf
Stiftung%20Warentest%20-%20Digitalkameras%202004-08%20alle%20Modelle.pdf
Playboy%20-%20Ausgabe%2003.2004.pdf
Playboy%20April%202004.pdf
Playboy_Centerfolds_1989_1999_[link_by_www.eselpsychos.to].pdf
Diverse_Autoren___Hessisches_Kochbuch_[link_by_www.eselpsychos.to].pdf
Playboy.Februar.2004.German.pdf
Asterix%2006%20-%20La%20Vuelta%20a%20la%20Galia%20[espa%C3%B1ol].pdf
Playboy.10.-.Oktober.2003.German.pdf
hustler.april.2004-dementia.pdf


Специфичный контент, надо сказать :diablo:
FiL
а ты сделай поиск по htm или txt.
Просто художественная литература очень редко бывает в pdf.
piligrim
Billy Bonce

поделись секретом как законектился? у меня этот сервер даже в список серверов не добавляется
Billy Bonce
QUOTE (piligrim @ 28-11-2004, 21:47)
Billy Bonce

поделись секретом как законектился? у меня этот сервер даже в список серверов не добавляется

Дык никакого секрета здесь нет :)

Кликнул по ссылке сервера- добавилось, поменял имя на (lib) ,кликнул-законнектился.

FiL

Поиск по "txt" делал, нашлось только пара серийников :)
BRMAIL
Нет, это не я. Как раз практика показывает, что p2p в сегодняшнем виде не годится для раздачи маленьких файлов. Т.е для фильма в 700 мег нет проблем подождать пару дней, а для книги в 200 килобайт архива - не хотелось бы. К тому же сервера весьма негативно отностятс я к передачи им списка из например 10000 shared файлов.
Я сенйчас пытаюсь что то придумать для обработки того, что мы уже накачали из сети. Собственно это десятки тысяч файлов. Многие из которых повторяются.
Собственно хотелось бы иметь удобный поиск и софт для обработки этого огромного количесва файлов.

FiL
BRMAIL,
а тут ты был? http://www.the-ebook.org/forum/viewtopic.php?t=3632
BRMAIL
QUOTE (FiL @ 29-11-2004, 01:07)
BRMAIL,  а тут ты был? http://www.the-ebook.org/forum/viewtopic.php?t=3632

Видимо был когда то, так как логин мой оно узнало :-)
В самом деле сеть хороша там где есть люди. Ну нужен мне файл - поднял я DC клиент, тырк, а скачивать то не с кого. А держать отдельный клиент поднятым только чтобы раз в неделю скачать новую книгу ....
Ну как тебе сказать. Несуразно как то.
Я вижу все же универсальную библиотеку не как единый распределенный набор файлов, групированных по книгам, или даже авторам, а как 5-10 гигабайтную бибилиотеку, лежащую архивом в сети, может быть несколькоими архивами по гигу например, снабженную поисковым движком, мало мальски удобным рубрификатором, и с периодически - раз в 3-6 месяцев выходящими обновлениями (собрать обновления это особая, реально сложная часть работы) Сейчас я большей частью ломаю себе голову как автоматизировать разгребание той кучи текстов что я уже скачал. Реальный размер более 10 гиг пакованной в зипы текстовки. Часть - уверен повторяются по 2-3-4 раза.
Часть повторяется не в тексте а в каком либо rtf или doc формате.
То как оно там внтури форматированно или не форматированно - еще особый разговор. В итоге даже имея список из трех четырех дублей - их же надо будет просмотреть глазищами перед тем как удалить... Короче мрак полнейшинй. Руками разгребать - недюженная воля к победе нужна. И куча времени.
FiL
Кстати, я не помню, я тебе уже говорил или нет - Максим выложил новый полный архив. Не битый. Я скачал, наложил на старый, наложил апдейты... все держу в этом самом DC.

По поводу общей идеи - во первых, это таки не менее 10 Гигов, а если добавить нехудожественную литературу, то значительно больше. И у нее сразу возникнет 3 огромные проблемы.
1. Хостинг (у Максима траффик измеряется терабайтами).
2. выживаемость (уже кое-какие библиотеки прикрыли из тех, кто не захотел "сотрудничать").
3. Обновления (нужен механизм при котором разные люди смогут добавлять нечто в библиотеку и при этом надо защитить библиотеку от несанкционированных изменений).

Всему этому соответствует только р2р. А вот как организовать еще не знаю. Будем думать.
BRMAIL
как, как - распостранять как привыкли, а хранить и использовать локально.
И туда же локально наладить поиск. Я сейчас потихоньку общаюсь с автором поисковой проги Архивариус 3000 (К сожалению она платная)
Если эту разработку досести до ума - она будет очень кстати. Уже сейчас она значительно гибче чем гугл десктоп. Вроде он согласился прикрутить поддержку fb2 . короче посмотрим.


FiL
А как привыкли? По-моему литераторы никак не привыкли. И главное, никто не будет качать многомегабайтные архивы, если нужна одна книжка. И когда вышла новая книга, то она должна как-то появляться в сети. А не ждать следующего глобального апдейта. Ну и далее в таком разрезе.
piligrim
проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных.
veneamin
Наличие дублей - не самая большая проблема, имхо. В конце концов, если мне на запрос "скачать Винни-Пуха" придут не одна книга в чистом тексте, а пусть даже 10 вариантов (doc, pdf, htm и т.д.) - это мне даже на пользу может быть, в конце концов трафик мизерный, не фильмы качаем же.
А вот возможность найти и скачать нужное, а не весь архив - вот это да, это важно.
BRMAIL
QUOTE (FiL @ 28-11-2004, 21:53)
А как привыкли? По-моему литераторы никак не привыкли. И главное, никто не будет качать многомегабайтные архивы, если нужна одна книжка. И когда вышла новая книга, то она должна как-то появляться в сети. А не ждать следующего глобального апдейта. Ну и далее в таком разрезе.

а литераторы тут не при чем. Как например непричем киношники к фильмам которые здесь раздаются. И таки да, добаление книг врядли будет автоматическим и универсальным.Это все ручная работа. Дело в том, что книги появляются в базах библиотек хитрыми путями и неавтоматическими. И рассчитывать на "механизацию" не стоит.
У нас классическое противоречие постановки задачи.
С одной стороны p2p сеть для распостранения книг должна быть массовой. С другой стороны заточенной под книги, под раздачу и КАТАЛОГИЗАЦИЮ
Писать под это особый p2p софт? Ну не знаю, не знаю.
BRMAIL
QUOTE (piligrim @ 29-11-2004, 00:31)
проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных.

Проблема дублей не решается на уровне "Сравнить автора и сравнить название, если совпало - дубль"
Я молчу про переводы, где кадый переводчик намутил по своему (и информации о переводчике в файле может не быть) Могут быть переиздания книги, когда она частично разная в первом и втором издании. Мгут попасться невычитанные после скана книги, а через пару месяцев те же самые но вычитанные. Могут быть различные форматы книг. Скажем отсканили без форматирования - выложили, через месяц кто то отсканил и распознал более качественно, буква "Ё" всюду с точками, картинки на местах. Ну и лезет тебе этот документ в базу, какой выберешь? Первый или второй ? Один тебе скажет картинки нафиг не нужны, дургой скажет как же, второй определённо лучше.
Короче, легко и изящно вопрос решается с "анной карениной" и "что делать"
А масса современных книг будут проблемными.
И формат хранения не решает проблем, а только добавляет.

FiL
QUOTE (BRMAIL @ 29-11-2004, 06:55)
а литераторы тут не при чем. Как например непричем киношники к фильмам которые здесь раздаются.

Под "литераторами" я имел в виду не писателей, а людей, занимающихся сбором, каталофгизацией и распространением книг. То есть такие-же литераторы, как тут киношники и музыканты.

А насчет добавления книг... если не дать возможность каждому, кто имеет источник новых книг, добавлять их в "библиотеку", то он просто откроет свою библиотеку и будет в ней сидеть. Что сейчас и происходит. Если мы хотим создать нечто объединяющее всех, то оно должно быть удобным и для читателей и для контрибьютеров. И не просто удобным, а удобнее, чем все существующее.
piligrim
QUOTE (BRMAIL @ 29-11-2004, 08:03)
QUOTE (piligrim @ 29-11-2004, 00:31)
проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных.

Проблема дублей не решается на уровне "Сравнить автора и сравнить название, если совпало - дубль"
Я молчу про переводы, где кадый переводчик намутил по своему (и информации о переводчике в файле может не быть) Могут быть переиздания книги, когда она частично разная в первом и втором издании. Мгут попасться невычитанные после скана книги, а через пару месяцев те же самые но вычитанные. Могут быть различные форматы книг. Скажем отсканили без форматирования - выложили, через месяц кто то отсканил и распознал более качественно, буква "Ё" всюду с точками, картинки на местах. Ну и лезет тебе этот документ в базу, какой выберешь? Первый или второй ? Один тебе скажет картинки нафиг не нужны, дургой скажет как же, второй определённо лучше.
Короче, легко и изящно вопрос решается с "анной карениной" и "что делать"
А масса современных книг будут проблемными.
И формат хранения не решает проблем, а только добавляет.

ну мне достаточно что книга есть. неважно какого издания и какого перевода. если еще на это смотреть то ты никогда из этого не вылезешь. насчет форматов, я держу все книги в фомате txt. это наиболее распространенный формат в сети и более удобный так как для чтения не требует установки дополнительных программ.
насчет буквы "ё" то да бывает не та буква отпечатывается. но я как -то привык читать с опечатками и не обращаю на это внимания.
nsl
Кто то должен заниматься каталогом и архивом. Иначе ничего не выйдет.
BRMAIL
QUOTE (FiL @ 29-11-2004, 09:54)
А насчет добавления книг... если не дать возможность каждому, кто имеет источник новых книг, добавлять их в "библиотеку", то он просто откроет свою библиотеку и будет в ней сидеть. Что сейчас и происходит. Если мы хотим создать нечто объединяющее всех, то оно должно быть удобным и для читателей и для контрибьютеров. И не просто удобным, а удобнее, чем все существующее.

Я не против, просто это все наши мечты. Вот тебе бывшая библиотека Бомануара, Они сканают, вычитывают, выкладывают. Что владельцы сайта горят желанием делиться? Отнюдь, отнюдь. Сильно обижаются на другие порталы, которые у них книги "воруют".
Тяжело это. В самом деле я тебе с ходу назову способ пополнения библиотеки. Простой и изящный. Открыть ящик на гугле. И раздать этот адрес всем-всем. В сабже письма должен стоять обязательный префикс например /NEWBOOK/ Таким образм отсекаем явный спам. А он будет. Аттачем идет книга. В теле письма коментарии , анонсы, что угодно .
Обновлять базу в P2P можно хоть ежедневно. Набрался архив 10 мег - пошло обновление.
Организовать страничку или топик где оно будет лежать можно тоже где угодно или дубли сразу в 3-4 местах.
По прежнему - проблема в разгребании существующего. И если в FB2 книжки - 2 библиотеки поддаются достаточно легкой систематизации, то остальное :-(
FiL
на the-ebook Slawa-614 ( http://rusf.ru ) расписывал сколько книг пробегает ежедневно через фидошную фэху. Там одному не разгрести никак. А если собирать еще с других мест....
А насчет того, что никто делиться не хочет - абсолютная правда. И Бонамуар и Альдебаран - никто не делится и не интересуется. Вот потому-то и надо сделать нечто, что заинтересует. А просто книжки раздавать - так им таки да не интересно.
piligrim
для ведения катлога я пользуюсь этой прогой. достаточно удобна и бесплатна

описание здесь

user posted image

скачать здесь
BRMAIL
Я тут пару месяцев назад потестил бук дизайнер, или что то в этом духе. Натравил его на фолдер с библиотекой фикшн бук и попросил подобрать все fb2 файлы. Он задумался на 20 минут, а потом молча упал.
На половину библиотеки его хватило - но подтормаживал в работе. И это только fb2 - самый структурируемый из всех книжных форматов - читай xml и пищи в базу.

Опять таки, софт для ведения библиотеки для "себя любимого" - две ну три книги в неделю, или для сохранения "большого каталога" на 10 гигабайт файлов - вещи сильно разные.
piligrim
BRMAIL

ты же писал что в этих 10 гигах много дублей. то есть учитывая что ты собирал это с разных библиотек и то что в этих библиотеках многие книги повторяются дублей этих у тебя много и реально книг у тебя максимум 3 гига а не 10. у меня 700 мега книг в зипе в формате txt. качал я не все подряд и в основном романы и повести. то есть маленькие расказики весом меньше 90к я не качал. я их не читаю. я подстчитывал как-то и оказалось что у меня 3.000 книг фантастики и около 2000 остального.
BRMAIL
QUOTE (piligrim @ 29-11-2004, 17:14)
BRMAIL

ты же писал что в этих 10 гигах много дублей. то есть учитывая что ты собирал это с разных библиотек и то что в этих библиотеках многие книги повторяются дублей этих у тебя много и реально книг у тебя максимум 3 гига а не 10. у меня 700 мега книг в зипе в формате txt. качал я не все подряд и в основном романы и повести. то есть маленькие расказики весом меньше 90к я не качал. я их не читаю. я подстчитывал как-то и оказалось что у меня 3.000 книг фантастики и около 2000 остального.

3 гига не может получится, так как только мошковская библиотека занимает 4.6 гига. а книги там не повторяются.
Плюс вякая фантстика из разных библиотек, солянка упавшая из фидошных эх. Короче меньше чем на пять- шетсть гиг не тянет просто никак.
Это очень много. ДАже если просто пробежаться глазами по названиям.
FiL
QUOTE (BRMAIL @ 29-11-2004, 18:18)
3 гига не может получится, так как только мошковская библиотека занимает 4.6 гига. а книги там не повторяются.
Плюс вякая фантстика из разных библиотек, солянка упавшая из фидошных эх. Короче меньше чем на пять- шетсть гиг не тянет просто никак.
Это очень много. ДАже если просто пробежаться глазами по названиям.

Toт-же Slawa в DC расшарил свою очень хорошо документированную базу - более 6 Гиг. И у него есть не все, что есть вообще. То есть надо расчитывать на 10 гиг файлов в txt. Это таки много.