Pages: (4) 1 2 [3] 4  ( Show unread post )

   Требуются программеры
 Set Member is Offline
 Posted: 15-04-2004, 17:51 (post 31, #250265)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
Как заинтересованный в этой системе задам задачку: smile.gif

допустим хочу я получить софтверные новости с "хобота" с определённой даты, запускаю поиск по ентой p2p и получаю, что подобная инфа есть у, допустим, 200 человек и собрана она с помощью 10 разных шаблонов и причём данные, собранные одним и тем же шаблоном у разных юзверей, различаются. newest/w00t.gif

В результате получаем, скажем 50 версий одной и той же новости, причём т.к. рейтинг ставится от дуба (или по интересу), то определить качество новости (то бишь насколько она правильно вырезана из сайта и не потеряны-заменены в ней какие быквы-строки-фразы) - определить невозможно ... и даже если будут комменты, то им доверия особого тоже нет, да и время на их прочтение затрачу больше, чем если бы сам залез на сайт и нужную новость прочитал.

Вывод прост: я не могу доверять новостям, собранным такой системой, их в любом случае придётся проверять.

P.S. Делайте просто достойную замену WatzNew с нормальной поддержкой регулярных выражений и централизованной системой шаблонов - это действительно нужный проект.
PM
Top Bottom
 Lab Member is Offline
 Posted: 16-04-2004, 08:42 (post 32, #250529)

freeman
Forum moderator
Group: Global Moders
Posts: 3140
Сет... я не думаю, что новости которые лежат в вебе постоянно нужно запихивать в систему р2р и гонять по сетке.

ИМХО нужно передавать средствами р2р новости введенные самим пользователем. А для выдирания новостей с хобота нужно распространять не сами нвости, а шаблоны для модуля WatzNew или ссылки ны RSS каналы
PM Email Poster Users Website ICQ
Top Bottom
 imageman Member is Offline
 Posted: 16-04-2004, 08:58 (post 33, #250534)

Advanced

Group: Members
Posts: 254
Warn:0%-----
Нужно ли изобретать что-то свое или использовать уже изветсный протокол Gnutella? Я о гнутелле только слышал, но в сетевых протоколах я не разбирался (ни в одном).

QUOTE
Вывод прост: я не могу доверять новостям, собранным такой системой, их в любом случае придётся проверять.
Это как хочешь. Главное, ты получешь извещение, что потенциально интересная именно тебе новость есть на такой-то странице. Если ты пойдешь на эту страницу и не увидишь там этой новости, то ты можешь просто поставить пользователя, который послал такую мессагу в бан-лист. А реально у тебя через некоторое время наберется список проверенных авторов от которых ты и будешь читать новости.  
QUOTE
Делайте просто достойную замену WatzNew с нормальной поддержкой регулярных выражений и централизованной системой шаблонов - это действительно нужный проект.
Первый этап - замена WatzNew. Хранилище шаблонов сделать можно, только они устаревают быстро. Хотя можно попробовать наладить систему апдейтов.  
QUOTE
нужно распространять не сами нвости, а шаблоны для модуля WatzNew или ссылки ны RSS каналы
RSS каналы мне не очень понравились. А шаблоны, принципиально, конечно же можно рассылать. Спасибо за совет!

Кстати, что ты подразумеваешь под "с нормальной поддержкой регулярных выражений"?

This post has been edited by imageman on 17-04-2004, 15:51
PM Email Poster Shared files Users Website ICQ
Top Bottom
 Проф.Плейшнер Member is Offline
 Posted: 16-04-2004, 09:09 (post 34, #250536)

Member

Group: Members
Posts: 149
Warn:0%-----
а не проше ли написать plug-in к тому же eMule , как бы клиент уже готов, просто написать добавку к нему
PM Email Poster
Top Bottom
 imageman Member is Offline
 Posted: 16-04-2004, 13:04 (post 35, #250599)

Advanced

Group: Members
Posts: 254
Warn:0%-----
eMule но поддерживает плагины. Или я не прав? К тому же сама сеть eDonkey не ориентирована на наши нужды (сеть оптимизирована для передичи больших файлов).

К тому же одним плагином не обойтись - нужно написать чуть ли не десяток (!) плагинов. ( http://www.npj.ru/imageman/3661 )

Все здравые мысли можно писать сюда http://www.npj.ru/soroka

P.S. туда писать только тем, кто реально хочет помочь, не следует туда писать "а зачем это нужно?"

This post has been edited by imageman on 16-04-2004, 13:05
PM Email Poster Shared files Users Website ICQ
Top Bottom
 Set Member is Offline
 Posted: 16-04-2004, 18:22 (post 36, #250716)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
До меня кажется дошло, хотите сделать систему блогов на p2p, с неким уклоном на новости ?! newest/pig.gif

И что значит "получать извещение", как это понять ? Можно столько извещений получить в неподходящий момент, что инет просто умрёт. newest/devil_2.gif Кто их вообще-то будет генерить и слать ?
Может "получать результаты своего поиска" ?
PM
Top Bottom
 Set Member is Offline
 Posted: 16-04-2004, 18:48 (post 37, #250730)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
QUOTE
как я смогу узнать, интересна ли мне новость, не прочитав оную ?  программа будет анализировать предыдущие сообщения и выделять, например, ключевые слова и выражения.  Если в новости есть много «положительных» ключевых слов, то новость получает положительный рейтинг, а если ключевые слова характерны для спама, то рейтинг будет близок к нулю или отрицательный. Но это, можно так сказать, примитивная методика рейтингования (которая, тем не менее, может быть эффективна).  Насчет спама – фильтроваться будет около 98% спама. Какая-то часть может, конечно, пройти – тут ничего не поделаешь. Но и в этом случае спам не будет широко распространяться.

98% - сказочки однако tongue.gif , когда система станет популярной, спамом по самое горло зальётесь, даже серьёзные AI фильтры не помогут, да и кто эти фильтры будет настраивать ... конечный пользователь что-ли ?! Как они настраивают - все знают. biggrin.gif

Отбор важных новостей - ещё одна проблема, если я захочу не пропустить ни одну новость по какой-то теме, то получу немерянную кучу лишнего хлама, если же жёстко резать фильтрами - будет немерянное число "дропов".

"Цифровая подпись" - ... очень мило, будете создавать сертификационный центр что-ли ?! Муловская криптоидентификация тут не проканает.

"Новости могут иметь комментарии": точно блог newest/laugh.gif ... мусора становится ещё больше.

P.S. В общем хотелось бы прочитать об системе эти сообщений, кто кому когда что передаёт. Например "передавать в Сороку", как это понять, вроде данные каждого на локальной машине хранятся ... или планируется сделать распределённое хранение как в фреенете ?
PM
Top Bottom
 imageman Member is Offline
 Posted: 16-04-2004, 19:41 (post 38, #250760)

Advanced

Group: Members
Posts: 254
Warn:0%-----
QUOTE
98% - сказочки однако  , когда система станет популярной, спамом по самое горло зальётесь, даже серьёзные AI фильтры не помогут, да и кто эти фильтры будет настраивать ... конечный пользователь что-ли ?! Как они настраивают - все знают.  
 
Реальный спам у меня именно на 98% отсеивается.
K9 отсеивает на 98.7% (по статистике программы).  
QUOTE
Отбор важных новостей - ещё одна проблема, если я захочу не пропустить ни одну новость по какой-то теме, то получу немерянную кучу лишнего хлама, если же жёстко резать фильтрами - будет немерянное число "дропов".
Это в любой системе. Подчеркиваю: в любой! Даже если ты любому человеку скажешь: найди мне все про собак. Он тебе кучу книг принесет. "Найди мне самое важное про собак" - принесет справку-статью из энциклопедии. Нужно говорить о реальных вещах.  
QUOTE
"Цифровая подпись" - ... очень мило, будете создавать сертификационный центр что-ли ?!
 
Все проще. При первом запуске Сороки генерируются данные для подписи. Затем, если какая-то новость уходит в сеть, то пользователь, который получил эту новость (и не пометил ее как СПАМ) смотрит, есть ли сертификат этого пользователя? Если сертификата нету, то этот сертификат запрашивается у самого пользователя. Спросишь:  а зачем такой никем не подтвержденный сертификат? Отвечу.  Любой добросовестный пользователь Сороки будет нарабатывать авторитет в сети. Его новости автоматически будут получать более высокий приоритет. Так вот, чтобы никто не вздумал подписаться Лениным и будет цифровая подпись (точно так же никакой Пупкин не сможет внести изменения в труды Ленина).  Пупкин (подписавшись Лениным) сможет обмануть только небольшое число новых пользователей. Но и в этом случае они через какое-то время увидят, что существуют два Лениных (один из которых явный дурак).  
QUOTE
"Новости могут иметь комментарии": точно блог  ... мусора становится ещё больше
чем тебя не устраивают комментарии?  
 
QUOTE
Например "передавать в Сороку", как это понять, вроде данные каждого на локальной машине хранятся ... или планируется сделать распределённое хранение как в фреенете ?
Насколько я помню во фреенете часть дискового пространства отводится под служебные нужды и пользователь не может посмотреть, что там храниться (зашифровано). В Сороке под системные нужды тоже будет зарезервировано какое-то пространство, но это пространство всегда можно будет просмотреть. Как я уже неоднократно говорил все новости будут в автоматическом режиме делиться на спам, хорошие и не очень. (Как будут делиться? Почитай про антиспаммерские технологии.) Важные новости будут сразу выдаваться на экран или стоять в самом верху. Менее важные внизу списка. При прочтении како-либо новости пользователь будет ставить оценку конкретной новости. Плагин, который будет отвечать за рейтингования, за отделение спама будет обучаться. Таким образом новость, первоначально помеченная как малоинтересная может получить более высокую оценку и в будующем подобные новости попадут на более высокое место, НО только у конкретного пользователя. Пользовательские оценки никуда не уходят. Сами оценки (как и правила, по которым эти оценки будут строится) будут храниться только на компьютере пользователя!  
QUOTE
И что значит "получать извещение", как это понять ? Можно столько извещений получить в неподходящий момент, что инет просто умрёт.  Кто их вообще-то будет генерить и слать ?
Люди тщеславные. Им хочется видеть результаты своих трудов - сколько человек прочитали его стихотворение. Поэтому такой поэт-писатель-журналист при отсылке своего творения в Сороку поставит галочку "собирать статистику". Удаленная Сорока в момент прочтения (точнее показа на экран) сообщения видит галочку "статистика" и смотрит с какого IP адреса пришло письмо (точнее авторский IP) и на этот адрес отправляет пакет "Прочитал сообхение ХХХ". Компьютер писателя, конечно же в этот момент должен быть включен.

А не будет ли слишком много сообщений? Можно десятикратно уменьшить нагрузку. Что для этого нужно сделать? Сорока должна сгенерировать случайное число от 0 до 1. Если число получится меньше 0.1, то Сорока отправляет пакет "Прочитал сообхение ХХХ". А компьютер поэта-журналиста число пакетов будет смело умножать на 10.

This post has been edited by imageman on 16-04-2004, 19:44
PM Email Poster Shared files Users Website ICQ
Top Bottom
 Set Member is Offline
 Posted: 16-04-2004, 20:01 (post 39, #250772)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
QUOTE (imageman @ 16-04-2004, 19:41)
Люди тщеславные. Им хочется видеть результаты своих трудов - сколько человек прочитали его стихотворение. Поэтому такой поэт-писатель-журналист при отсылке своего творения в Сороку поставит галочку "собирать статистику". Удаленная Сорока в момент прочтения (точнее показа на экран) сообщения видит галочку "статистика" и смотрит с какого IP адреса пришло письмо (точнее авторский IP) и на этот адрес отправляет пакет "Прочитал сообхение ХХХ". Компьютер писателя, конечно же в этот момент должен быть включен.  А не будет ли слишком много сообщений? Можно десятикратно уменьшить нагрузку. Что для этого нужно сделать? Сорока должна сгенерировать случайное число от 0 до 1. Если число получится меньше 0.1, то Сорока отправляет пакет "Прочитал сообхение ХХХ".  А компьютер поэта-журналиста число пакетов будет смело умножать на 10.

Иными словами каждое сообщение выпихивается в p2p и размножается всеми клиентами, так чтобы все пользователи его получили, т.е. идёт "информационная волна". Не будет ли так, что одновременное большое число таких сообщений просто напросто "зальёт" клиентов ?
Ответные сообщения по сравнению с этим значительно безопаснее (размеры не те).  
QUOTE
Компьютер писателя, конечно же в этот момент должен быть включен.

А комп читателя, если он выключен, то всё, сообщение не будет получено ?  
QUOTE
Как я уже неоднократно говорил все новости будут в автоматическом режиме делиться на спам, хорошие и не очень. (Как будут делиться? Почитай про антиспаммерские технологии.)

Читал. Оценки каждого юзверя будут хранится на локальной машине, вопрос: как собрать оценки по данной новости со всех пользователей сети ? Каскады запросов слать ?
PM
Top Bottom
 imageman Member is Offline
 Posted: 17-04-2004, 15:48 (post 40, #250992)

Advanced

Group: Members
Posts: 254
Warn:0%-----
QUOTE
Иными словами каждое сообщение выпихивается в p2p и размножается всеми клиентами, так чтобы все пользователи его получили, т.е. идёт "информационная волна". Не будет ли так, что одновременное большое число таких сообщений просто напросто "зальёт" клиентов ?
Все правильно - новость распространяется волной (расходящейся). Клиента не зальет. Он сам будет регулировать поток новостей. Сразу же делаю дополнение: можно попытаться сделать так, чтобы при большом траффике сначала скачивались потенциально более важные сообщения. И только потом, если хватит траффика, докачивать остальные новости. Можно сделать что-то вроде FIDO.  
QUOTE
А комп читателя, если он выключен, то всё, сообщение не будет получено ?
Если у тебя комп выключен, ты скачаешь фильм в emule?  
QUOTE
Оценки каждого юзверя будут хранится на локальной машине, вопрос: как собрать оценки по данной новости со всех пользователей сети ?
Зачем? Сбором таких оценок мы облегчим жизнь спаммерам (они будут знать ключевые слова с положительным рейтингом). Да и нагрузка на сеть будет увеличиваться. Опять-таки - интересы у разных пользователей разные и то, что нравится одному не понравится другому. Соответственно и сбор оценок не очень поможет сети в целом.
PM Email Poster Shared files Users Website ICQ
Top Bottom
 Set Member is Offline
 Posted: 17-04-2004, 16:22 (post 41, #251000)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
О рейтинге новости кажись дошло ... он только для локального пользователя и для автора сообщения (если идёт сбор статистики).

QUOTE
Он сам будет регулировать поток новостей. Сразу же делаю дополнение: можно попытаться сделать так, чтобы при большом траффике сначала скачивались потенциально более важные сообщения. И только потом, если хватит траффика, докачивать остальные новости.

"Потенциальная важность" новости (или её ненужность, спам) может в данном случае определятся только на локальной машине, а для этого все сообщения надо загрузит. Выходит, что клиент в обязательном порядке получает все сообщения и затем уж их фильтрует... Похоже на обычную систему электронной почты. wink.gif  
QUOTE
Если у тебя комп выключен, ты скачаешь фильм в emule?

Фильм - не новость, когда я включаю комп я хочу знать обо всех новостях. И тем более, об упомянутых в описании этого проекта статьях и т.п. Выходит после одной рассылки они просто исчезают - кто не успел...... newest/fear2.gif  
QUOTE
Можно сделать что-то вроде FIDO.

Если я правильно понимаю архитектуру FIDO, то она совсем для подобного проекта не подходит ... скорее тут ближе структура Usenet-а ... правда по моим прикидкам механизм ньюссерверов не проканает - требуются приличные обьёмы на дисках пользователей.
PM
Top Bottom
 Set Member is Offline
 Posted: 18-04-2004, 17:44 (post 42, #251263)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
QUOTE
Во вторих если к примеру ти мне хочеш что-то рассказать – не факт что я сеичас в он-лaине, но новость от тебя я потерять не хочу.

Нашёл таки http://www.npj.ru/imageman/p2p smile.gif

При подобной системе требуется хранение у каждого клиента всех новостей и комментариев к ним за определённое время (скажем, за последние сутки). А размеры такого хранилища вполне могут достигать сотен мегабайт...
PM
Top Bottom
 imageman Member is Offline
 Posted: 19-04-2004, 10:12 (post 43, #251477)

Advanced

Group: Members
Posts: 254
Warn:0%-----
QUOTE
О рейтинге новости кажись дошло ... он только для локального пользователя и для автора сообщения (если идёт сбор статистики).
автор сообщения не получает уведомления о рейтинге его новости. Он получает уведомление о показе новости читателю (клиенту).  
QUOTE
"Потенциальная важность" новости (или её ненужность, спам) может в данном случае определятся только на локальной машине, а для этого все сообщения надо загрузит. Выходит, что клиент в обязательном порядке получает все сообщения и затем уж их фильтрует...
тут можно немного кое-что изменить. Если тебе важнее траффик, то программа выбирает из списка достыпных включенных компов наиболее авторитеного человека и с его машины идет доставка новостей с высокой оценкой конкретного авторитета. Т.е. в данном случае мы экономим на траффике, но полагаемся на оценку другого человека (т.е. получаем только часть новостей).

Бедут выглядеть это примерно так.

1. Привет! Я знаю ты хороший чувак. Передай мне список новостей за 4 дня, отсортированных по рейтингу. И укажи размеры каждой новости.
2. На тебе список: #450 (1 кб), #98 (456b) и т.д.
1. Давай мне ##450, 98, 48, 998.....

Таким образом, например, при траффике 1 мегабайт в час (входящий) Сорока может выбрать трех человек. Первый выбранный человек предложит, к примеру, 1 мегабайт новостей. Скачаем от него 500. Второй предложит 650 килобайт новостей (часть уже будет скачана от первого). Скачаем от него 250. И от третьего скачаем еще 250.

Для этого нужно ввести некую систему (локальную для каждого пользователя) рейтингования клиентов. Т.е. скачиваем новости от Ильича (к примеру), отсортированные по рейтингу. Читаем их. Оцениваем. Смотрим: если сортировка новостей, произведенная нами совпадает с сортировкой произведенных Ильичем, то Ильич имеет такие же вкусы, как и я. Если сортировка сильно не совпадает, то этот человек не очень нам подходит (вкусы разные).


This post has been edited by imageman on 19-04-2004, 10:22
PM Email Poster Shared files Users Website ICQ
Top Bottom
 Set Member is Offline
 Posted: 19-04-2004, 18:23 (post 44, #251601)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
Каждый клиент должен участвовать в пересылке новостей и комментариев вне зависимости от их содержимого, на этом же вроде стоит вся сеть ? Но никакого контроля траффика я тут не вижу.

Теперь об описанном выше обмене недостающими кусками при подключении в сеть: если, как описано, хранить не все новости и комменты за указанный период у каждого клиента, а только те, которые отфильтрованы по своим фильтрам этим же клиентом, то получим ситуацию "дыр". Будут отсутствовать как нужные новости, так и комментарии к ним ... а кому нужна система с рандомальной доставкой новостей ? Кого порадует, скажем, почтовый сервер, выкидывающий мейлы случайным образом ? newest/sick.gif
PM
Top Bottom
 Set Member is Offline
 Posted: 05-05-2004, 08:49 (post 45, #258060)

Visionary

Group: Members
Posts: 5181
Warn:0%-----
Проект умер ?
PM
Top Bottom
Topic Options Pages: (4) 1 2 [3] 4