http://p2p.lib.ru/Узнать-бы кто этим занимается...
Billy Bonce
@ 28-11-2004, 10:17
У меня такое чуйство, что этим занимается BRMAIL :)
При желании можно спросить и у самого root@p2p.lib.ru ...
БТВ не совсем ясно зачем нужен выделенный сервер для книг,а вот что бы не помешало, так это индексации ослоссылок на книги :)
QUOTE (Billy Bonce @ 28-11-2004, 08:17) |
У меня такое чуйство, что этим занимается BRMAIL :) При желании можно спросить и у самого root@p2p.lib.ru ...
БТВ не совсем ясно зачем нужен выделенный сервер для книг,а вот что бы не помешало, так это индексации ослоссылок на книги :) |
Я тоже сначала подумал на BRMAIL, но потом очень быстро отказался от этой идеи.
Во-первых, BRMAIL сделал-бы тут объяву.
Во-вторых, он знает, что тысячи книг отдельными мелкими файлами в осла выкладывать бессмысленно.
piligrim
@ 28-11-2004, 23:10
что-то этот сервер в мула не добавляется
Billy Bonce
@ 28-11-2004, 23:18
А я законнетился :p
Мало того , что законнектился, еще и сделал поиск по серверу по "pdf"
Вот что там нашлось:
Специфичный контент, надо сказать :diablo:
а ты сделай поиск по htm или txt.
Просто художественная литература очень редко бывает в pdf.
piligrim
@ 28-11-2004, 23:47
Billy Bonce
поделись секретом как законектился? у меня этот сервер даже в список серверов не добавляется
Billy Bonce
@ 29-11-2004, 00:01
QUOTE (piligrim @ 28-11-2004, 21:47) |
Billy Bonce
поделись секретом как законектился? у меня этот сервер даже в список серверов не добавляется |
Дык никакого секрета здесь нет :)
Кликнул по ссылке сервера- добавилось, поменял имя на (lib) ,кликнул-законнектился.
FiL
Поиск по "txt" делал, нашлось только пара серийников :)
BRMAIL
@ 29-11-2004, 01:08
Нет, это не я. Как раз практика показывает, что p2p в сегодняшнем виде не годится для раздачи маленьких файлов. Т.е для фильма в 700 мег нет проблем подождать пару дней, а для книги в 200 килобайт архива - не хотелось бы. К тому же сервера весьма негативно отностятс я к передачи им списка из например 10000 shared файлов.
Я сенйчас пытаюсь что то придумать для обработки того, что мы уже накачали из сети. Собственно это десятки тысяч файлов. Многие из которых повторяются.
Собственно хотелось бы иметь удобный поиск и софт для обработки этого огромного количесва файлов.
BRMAIL
@ 29-11-2004, 03:46
Видимо был когда то, так как логин мой оно узнало :-)
В самом деле сеть хороша там где есть люди. Ну нужен мне файл - поднял я DC клиент, тырк, а скачивать то не с кого. А держать отдельный клиент поднятым только чтобы раз в неделю скачать новую книгу ....
Ну как тебе сказать. Несуразно как то.
Я вижу все же универсальную библиотеку не как единый распределенный набор файлов, групированных по книгам, или даже авторам, а как 5-10 гигабайтную бибилиотеку, лежащую архивом в сети, может быть несколькоими архивами по гигу например, снабженную поисковым движком, мало мальски удобным рубрификатором, и с периодически - раз в 3-6 месяцев выходящими обновлениями (собрать обновления это особая, реально сложная часть работы) Сейчас я большей частью ломаю себе голову как автоматизировать разгребание той кучи текстов что я уже скачал. Реальный размер более 10 гиг пакованной в зипы текстовки. Часть - уверен повторяются по 2-3-4 раза.
Часть повторяется не в тексте а в каком либо rtf или doc формате.
То как оно там внтури форматированно или не форматированно - еще особый разговор. В итоге даже имея список из трех четырех дублей - их же надо будет просмотреть глазищами перед тем как удалить... Короче мрак полнейшинй. Руками разгребать - недюженная воля к победе нужна. И куча времени.
Кстати, я не помню, я тебе уже говорил или нет - Максим выложил новый полный архив. Не битый. Я скачал, наложил на старый, наложил апдейты... все держу в этом самом DC.
По поводу общей идеи - во первых, это таки не менее 10 Гигов, а если добавить нехудожественную литературу, то значительно больше. И у нее сразу возникнет 3 огромные проблемы.
1. Хостинг (у Максима траффик измеряется терабайтами).
2. выживаемость (уже кое-какие библиотеки прикрыли из тех, кто не захотел "сотрудничать").
3. Обновления (нужен механизм при котором разные люди смогут добавлять нечто в библиотеку и при этом надо защитить библиотеку от несанкционированных изменений).
Всему этому соответствует только р2р. А вот как организовать еще не знаю. Будем думать.
BRMAIL
@ 29-11-2004, 05:58
как, как - распостранять как привыкли, а хранить и использовать локально.
И туда же локально наладить поиск. Я сейчас потихоньку общаюсь с автором поисковой проги Архивариус 3000 (К сожалению она платная)
Если эту разработку досести до ума - она будет очень кстати. Уже сейчас она значительно гибче чем гугл десктоп. Вроде он согласился прикрутить поддержку fb2 . короче посмотрим.
А как привыкли? По-моему литераторы никак не привыкли. И главное, никто не будет качать многомегабайтные архивы, если нужна одна книжка. И когда вышла новая книга, то она должна как-то появляться в сети. А не ждать следующего глобального апдейта. Ну и далее в таком разрезе.
piligrim
@ 29-11-2004, 09:31
проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных.
veneamin
@ 29-11-2004, 11:00
Наличие дублей - не самая большая проблема, имхо. В конце концов, если мне на запрос "скачать Винни-Пуха" придут не одна книга в чистом тексте, а пусть даже 10 вариантов (doc, pdf, htm и т.д.) - это мне даже на пользу может быть, в конце концов трафик мизерный, не фильмы качаем же.
А вот возможность найти и скачать нужное, а не весь архив - вот это да, это важно.
BRMAIL
@ 29-11-2004, 15:55
QUOTE (FiL @ 28-11-2004, 21:53) |
А как привыкли? По-моему литераторы никак не привыкли. И главное, никто не будет качать многомегабайтные архивы, если нужна одна книжка. И когда вышла новая книга, то она должна как-то появляться в сети. А не ждать следующего глобального апдейта. Ну и далее в таком разрезе. |
а литераторы тут не при чем. Как например непричем киношники к фильмам которые здесь раздаются. И таки да, добаление книг врядли будет автоматическим и универсальным.Это все ручная работа. Дело в том, что книги появляются в базах библиотек хитрыми путями и неавтоматическими. И рассчитывать на "механизацию" не стоит.
У нас классическое противоречие постановки задачи.
С одной стороны p2p сеть для распостранения книг должна быть массовой. С другой стороны заточенной под книги, под раздачу и КАТАЛОГИЗАЦИЮ
Писать под это особый p2p софт? Ну не знаю, не знаю.
BRMAIL
@ 29-11-2004, 16:03
QUOTE (piligrim @ 29-11-2004, 00:31) |
проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных. |
Проблема дублей не решается на уровне "Сравнить автора и сравнить название, если совпало - дубль"
Я молчу про переводы, где кадый переводчик намутил по своему (и информации о переводчике в файле может не быть) Могут быть переиздания книги, когда она частично разная в первом и втором издании. Мгут попасться невычитанные после скана книги, а через пару месяцев те же самые но вычитанные. Могут быть различные форматы книг. Скажем отсканили без форматирования - выложили, через месяц кто то отсканил и распознал более качественно, буква "Ё" всюду с точками, картинки на местах. Ну и лезет тебе этот документ в базу, какой выберешь? Первый или второй ? Один тебе скажет картинки нафиг не нужны, дургой скажет как же, второй определённо лучше.
Короче, легко и изящно вопрос решается с "анной карениной" и "что делать"
А масса современных книг будут проблемными.
И формат хранения не решает проблем, а только добавляет.
QUOTE (BRMAIL @ 29-11-2004, 06:55) |
а литераторы тут не при чем. Как например непричем киношники к фильмам которые здесь раздаются. |
Под "литераторами" я имел в виду не писателей, а людей, занимающихся сбором, каталофгизацией и распространением книг. То есть такие-же литераторы, как тут киношники и музыканты.
А насчет добавления книг... если не дать возможность каждому, кто имеет источник новых книг, добавлять их в "библиотеку", то он просто откроет свою библиотеку и будет в ней сидеть. Что сейчас и происходит. Если мы хотим создать нечто объединяющее всех, то оно должно быть удобным и для читателей и для контрибьютеров. И не просто удобным, а удобнее, чем все существующее.
piligrim
@ 29-11-2004, 21:00
QUOTE (BRMAIL @ 29-11-2004, 08:03) |
QUOTE (piligrim @ 29-11-2004, 00:31) | проблема дублей решится с составлением базы данных. при скачивании каждой новой книги надо будет проверять нет ли ее в базе данных. |
Проблема дублей не решается на уровне "Сравнить автора и сравнить название, если совпало - дубль" Я молчу про переводы, где кадый переводчик намутил по своему (и информации о переводчике в файле может не быть) Могут быть переиздания книги, когда она частично разная в первом и втором издании. Мгут попасться невычитанные после скана книги, а через пару месяцев те же самые но вычитанные. Могут быть различные форматы книг. Скажем отсканили без форматирования - выложили, через месяц кто то отсканил и распознал более качественно, буква "Ё" всюду с точками, картинки на местах. Ну и лезет тебе этот документ в базу, какой выберешь? Первый или второй ? Один тебе скажет картинки нафиг не нужны, дургой скажет как же, второй определённо лучше. Короче, легко и изящно вопрос решается с "анной карениной" и "что делать" А масса современных книг будут проблемными. И формат хранения не решает проблем, а только добавляет.
|
ну мне достаточно что книга есть. неважно какого издания и какого перевода. если еще на это смотреть то ты никогда из этого не вылезешь. насчет форматов, я держу все книги в фомате txt. это наиболее распространенный формат в сети и более удобный так как для чтения не требует установки дополнительных программ.
насчет буквы "ё" то да бывает не та буква отпечатывается. но я как -то привык читать с опечатками и не обращаю на это внимания.
Кто то должен заниматься каталогом и архивом. Иначе ничего не выйдет.
BRMAIL
@ 29-11-2004, 23:37
QUOTE (FiL @ 29-11-2004, 09:54) |
А насчет добавления книг... если не дать возможность каждому, кто имеет источник новых книг, добавлять их в "библиотеку", то он просто откроет свою библиотеку и будет в ней сидеть. Что сейчас и происходит. Если мы хотим создать нечто объединяющее всех, то оно должно быть удобным и для читателей и для контрибьютеров. И не просто удобным, а удобнее, чем все существующее. |
Я не против, просто это все наши мечты. Вот тебе бывшая библиотека Бомануара, Они сканают, вычитывают, выкладывают. Что владельцы сайта горят желанием делиться? Отнюдь, отнюдь. Сильно обижаются на другие порталы, которые у них книги "воруют".
Тяжело это. В самом деле я тебе с ходу назову способ пополнения библиотеки. Простой и изящный. Открыть ящик на гугле. И раздать этот адрес всем-всем. В сабже письма должен стоять обязательный префикс например /NEWBOOK/ Таким образм отсекаем явный спам. А он будет. Аттачем идет книга. В теле письма коментарии , анонсы, что угодно .
Обновлять базу в P2P можно хоть ежедневно. Набрался архив 10 мег - пошло обновление.
Организовать страничку или топик где оно будет лежать можно тоже где угодно или дубли сразу в 3-4 местах.
По прежнему - проблема в разгребании существующего. И если в FB2 книжки - 2 библиотеки поддаются достаточно легкой систематизации, то остальное :-(
на the-ebook Slawa-614 (
http://rusf.ru ) расписывал сколько книг пробегает ежедневно через фидошную фэху. Там одному не разгрести никак. А если собирать еще с других мест....
А насчет того, что никто делиться не хочет - абсолютная правда. И Бонамуар и Альдебаран - никто не делится и не интересуется. Вот потому-то и надо сделать нечто, что заинтересует. А просто книжки раздавать - так им таки да не интересно.
piligrim
@ 30-11-2004, 01:55
для ведения катлога я пользуюсь этой прогой. достаточно удобна и бесплатна
описание
здесь![user posted image](http://msolt.chat.ru/BookScreen.gif)
скачать
здесь
BRMAIL
@ 30-11-2004, 02:01
Я тут пару месяцев назад потестил бук дизайнер, или что то в этом духе. Натравил его на фолдер с библиотекой фикшн бук и попросил подобрать все fb2 файлы. Он задумался на 20 минут, а потом молча упал.
На половину библиотеки его хватило - но подтормаживал в работе. И это только fb2 - самый структурируемый из всех книжных форматов - читай xml и пищи в базу.
Опять таки, софт для ведения библиотеки для "себя любимого" - две ну три книги в неделю, или для сохранения "большого каталога" на 10 гигабайт файлов - вещи сильно разные.
piligrim
@ 30-11-2004, 02:14
BRMAIL
ты же писал что в этих 10 гигах много дублей. то есть учитывая что ты собирал это с разных библиотек и то что в этих библиотеках многие книги повторяются дублей этих у тебя много и реально книг у тебя максимум 3 гига а не 10. у меня 700 мега книг в зипе в формате txt. качал я не все подряд и в основном романы и повести. то есть маленькие расказики весом меньше 90к я не качал. я их не читаю. я подстчитывал как-то и оказалось что у меня 3.000 книг фантастики и около 2000 остального.
BRMAIL
@ 30-11-2004, 03:18
QUOTE (piligrim @ 29-11-2004, 17:14) |
BRMAIL
ты же писал что в этих 10 гигах много дублей. то есть учитывая что ты собирал это с разных библиотек и то что в этих библиотеках многие книги повторяются дублей этих у тебя много и реально книг у тебя максимум 3 гига а не 10. у меня 700 мега книг в зипе в формате txt. качал я не все подряд и в основном романы и повести. то есть маленькие расказики весом меньше 90к я не качал. я их не читаю. я подстчитывал как-то и оказалось что у меня 3.000 книг фантастики и около 2000 остального. |
3 гига не может получится, так как только мошковская библиотека занимает 4.6 гига. а книги там не повторяются.
Плюс вякая фантстика из разных библиотек, солянка упавшая из фидошных эх. Короче меньше чем на пять- шетсть гиг не тянет просто никак.
Это очень много. ДАже если просто пробежаться глазами по названиям.
QUOTE (BRMAIL @ 29-11-2004, 18:18) |
3 гига не может получится, так как только мошковская библиотека занимает 4.6 гига. а книги там не повторяются. Плюс вякая фантстика из разных библиотек, солянка упавшая из фидошных эх. Короче меньше чем на пять- шетсть гиг не тянет просто никак. Это очень много. ДАже если просто пробежаться глазами по названиям. |
Toт-же Slawa в DC расшарил свою очень хорошо документированную базу - более 6 Гиг. И у него есть не все, что есть вообще. То есть надо расчитывать на 10 гиг файлов в txt. Это таки много.