Архив сообщений отдельных форумчан

Нужна помощь веб- программистов.
Теги:авиабаза
 

Vale

Сальсолёт

авиабаза
Мне уже очень давно хочется иметь возможность получить себе на винт "собрание сочинений" некоторых форучан - MD, russo, varban-а, israel-я, Владимира Малюха, Wyverna + Wyvern-2(его третью ипостась - Nick_Crak - я найти не могу) и наверное, еще нескольких других: au, sxam, Tico, GOGI, Ведмедя, еще нашего немецкого строителя ПЛ, чей ник вспомнить никак не могу Deep Blue Sea.

Конечно, можно просить об этом Balancer-а, но я не уверен, что просьба будет удовлетворена. Тем более, что просить его это делать от случая по случаю - как-то не очень прилично. Общий механизм был бы куда как полезнее. Может, кто-то еще может извлечь данные?

Интересует только текст. Хотя, конечно, фотографий иногда будет очень жаль.

P.S. Спасибо за подсказку.
P.P.S. Если интересно, зачем - просто потому, что даже их старые сообщения читать и перечитывать до сих пор интересно, и иногда хочется это делать оффлайн. Это те люди, в первую очередь благодаря которым я столько лет ходил на Авиабазу. Это не значит, что я как-то не люблю других форумчан - это просто мой личный хит-лист.
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  30.030.0
Это сообщение редактировалось 29.06.2014 в 17:21
+
-
edit
 
Vale> нашего немецкого строителя ПЛ, чей ник вспомнить никак не могу.
Alex Konovalov. Так вроде.
 30.030.0
+
+1
-
edit
 

carlos

опытный

Vale>> нашего немецкого строителя ПЛ, чей ник вспомнить никак не могу.
Meskiukas> Alex Konovalov. Так вроде.

Он же Deep Blue Sea.

Deep Blue Sea

вот так вот соберешься кинуть кому-то что-то в персоналии, а персоналиев-то и нетути! а все потому, что счел я вот эту цитату с БОРа подходящей: "xxx: как праздники? yyy: я не праздновал, тут это не праздник, не с кем xxx: Ну и что. Трудно пойти взять вискаря и напоить немецких друзей в хлам? yyy: в честь Советской Армии?... издеваешься? она ж их вздрючила по самое не могу ) xxx: А им совсем не обязательно знать в честь чего бухня yyy: так неинтересно" а по сабжу - учтив без меры 1// Персоналии форумов Авиабазы
 
 29.029.0
+
-
edit
 
carlos> Он же Deep Blue Sea.

Спасибо за дополнение. А ведь только вспомнил и кинулся дополнить, а тут уже есть.
 30.030.0

Dmb_2007

опытный

Vale> Интересует только текст. Хотя, конечно, фотографий иногда будет очень жаль.
Можно попробовать оффлайн-браузером закачать нужные страницы.
 35.0.1916.15335.0.1916.153

Vale

Сальсолёт

D.2.> Можно попробовать оффлайн-браузером закачать нужные страницы.

Можно, но будет много лишнего. Мне нужно конкретно то, что писали несколько людей. И то придется фильтровать.

Насколько я знаю, Сергей - 4030 смотрел исходники, но на авиабазе его больше нет.

В принципе, можно написать программку на каком- то языке веб- программирования, которая пойдет по списку сообщений форумчанина, и скачает только то, что нужно.

Я, к сожалению, не могу тратить время на изучение какого-нибудь Perl-a и написание и на отладку такой вещи, или на написание такой программы на "плюсах" (не тот инструмент, всё же).
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  30.030.0

yacc

старожил
★☆
Vale> В принципе, можно написать программку на каком- то языке веб- программирования, которая пойдет по списку сообщений форумчанина, и скачает только то, что нужно.
Ну тут тебе никто не поможет - такие утилиты вряд-ли существуют.
Скачать просто список сообщений пользователя - оффлайн-браузер + bat/shell скрипт, который URL сформирует и запишет список страниц в файл, по которому браузер и пойдет.
 35.0.1916.15335.0.1916.153
+
+1
-
edit
 

Dmb_2007

опытный

Vale> Можно, но будет много лишнего. Мне нужно конкретно то, что писали несколько людей. И то придется фильтровать.
varban: Все сообщения за 2000 год
Источник - varban: Все сообщения за 2000 год
Результаты - Varban — Яндекс.Диск
Файлы
Varban2000.chm - сообщения в формате справки. Ссылки, ведущие за пределы Balancer.Ru » форумы » старые » пользователи » varban » все сообщения » 2000, отображаются онлайн (если позволяют настройки системы и компьютер подключен к интернету)
Varban2000.exe - просто запустить. У меня работает медленно и как-то странно. Но работает.

В остальных файлах не закачанные ссылки выдают ошибку
Varban2000-2.chm - формат справки
Varban2000.zip - заархивированные каталоги. Разархивировать. Запускать contents.htm (там всего одна ссылка).
Или пройти по директориям www.bаlancer.ru » user » 37 » posts » 2000, открыть default.htm

Все это для Windows.
Можно ожидать, что под остальными системами будет работать вариант с архивом, но не проверял.
 35.0.1916.15335.0.1916.153
Это сообщение редактировалось 30.06.2014 в 22:41

Vale

Сальсолёт

Спасибо большое. Проверил CHM, работает.

Но хотелось бы просто сообщения списком, и без виндовых программ не в виде исходников (простите за некоторую паранойю).
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  30.030.0

Dmb_2007

опытный

Vale> Но хотелось бы просто сообщения списком,
Извлечением информации со страниц я не занимался.
Тут понимающий нужен.

Vale> и без виндовых программ не в виде исходников (простите за некоторую паранойю).
Есть вот такое бесплатное и открытое - HTTrack Website Copier - Free Software Offline Browser (GNU GPL)
Но я с ним не работал, язЫков не знаю, в системе фильтрации не разбирался.
 35.0.1916.15335.0.1916.153
RU Balancer #27.07.2014 23:09  @Dmb_2007#03.07.2014 01:56
+
-
edit
 

Balancer

администратор
★★★★☆
D.2.> Есть вот такое бесплатное и открытое - HTTrack Website Copier - Free Software Offline Browser (GNU GPL)
D.2.> Но я с ним не работал, язЫков не знаю, в системе фильтрации не разбирался.

Почти сразу сработает защита от перегрузки сервера, пойдут одни 503-и ошибки :)

...

Я же писал, что архив скоро будет общедоступен в рамках проекта Авиабаза распределённая

Тормозят пока чисто технические и некоторые идеологические моменты (типа сообщений в закрытых форумах и т.п.)
 3434
RU Dmb_2007 #27.07.2014 23:20  @Balancer#27.07.2014 23:09
+
-
edit
 

Dmb_2007

опытный

Balancer> Почти сразу сработает защита от перегрузки сервера, пойдут одни 503-и ошибки :)
Она и срабатывает.
Но если искусственно ограничить число соединений на принимающей стороне, то можно уже скачивать.
Не знаю за остальные программы, но в Offline Explorer'е это делается просто.

Balancer> Я же писал, что архив скоро будет общедоступен в рамках проекта
Так это когда будет ;-), а доказать решаемость задачи хочется сейчас.
 36.0.1985.12536.0.1985.125
RU Balancer #27.07.2014 23:26  @Dmb_2007#27.07.2014 23:20
+
-
edit
 

Balancer

администратор
★★★★☆
D.2.> Но если искусственно ограничить число соединений на принимающей стороне, то можно уже скачивать.

Только тогда все миллионы сообщений чтобы перешерстить — недели, наверное, уйдут :)

D.2.> Так это когда будет ;-)

Может быть относительно быстро. Если будет востребованность и обратная связь :) Пока проекты у меня не вызывают никакого практического отклика и работа идёт «в стол», приоритетность их может очень сильно падать до состояния IDLE, а поскольку такого, чтобы совсем нечем заняться было у меня уже много лет как не бывает, то и руки до них доходят по случаю... :)

Вот прямо сейчас я планирую заниматься не распределённой системой, а доводкой «RPG-системы», там совсем мелкие шаги остались. Заодно и решится много спорных вопросов с Балаботом, штрафами, назначениями координаторов и т.п.
 3434
RU Dmb_2007 #27.07.2014 23:54  @Balancer#27.07.2014 23:26
+
-
edit
 

Dmb_2007

опытный

Balancer> Только тогда все миллионы сообщений чтобы перешерстить — недели, наверное, уйдут :)
На одного человека за один год - где-то полдня ушло. Поэтому, кстати, я этим и ограничился.
Если попытаться нащупать "грань приличия", после перехода через которую срабатывает защита, может получиться быстрее.

Balancer> Может быть относительно быстро. Если будет востребованность и обратная связь :) Пока проекты у меня не вызывают никакого практического отклика и работа идёт «в стол»
Ну это понятно...
А от кого обратная связь?

Balancer> Заодно и решится много спорных вопросов
Будем посмотреть ;-)
 36.0.1985.12536.0.1985.125
Vale> Спасибо большое. Проверил CHM, работает.
Vale> Но хотелось бы просто сообщения списком, и без виндовых программ не в виде исходников (простите за некоторую паранойю).
Могу сбросить тебе сборник моих сочинений.
 31.031.0

Vale

Сальсолёт

Так все-таки - может, будет возможность получить архив?

По идее, это же простой скрипт, который пишется один раз, а дальше можно подставлять только ник - или номер юзера.
Плюс-минимальные ограничения, скажем, не более одного архива в день, генерация и отсылка его в период минимальной загрузки сервера, только для юзеров, зарегистирированных не менее месяца назад, и у которых не менее хх сообщений.
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  11.011.0
Это сообщение редактировалось 02.09.2014 в 13:24

Balancer

администратор
★★★★☆
Vale> По идее, это же простой скрипт, который пишется один раз, а дальше можно подставлять только ник - или номер юзера.

Да не вопрос. Только я последнюю неделю сплю, в среднем, по 4-7 часов в день и этот вопрос явно не из сколь-нибудь приоритетных. Тут по несколько дней висят ошибки не исправленные, типа Глюки форума подолжаются, часть 2. [ReST#02.09.14 00:10] И в жалобы модераторам и то раз в 2-4 дня доводится заглядывать. А в случае дампа простым скриптом не обойтись, надо решать вопросы видимости, нужно запросить у всех авторов разрешение на публикацию их e-mail (т.к.) это будет единственный способ привязки дампа к авторству, выбирать поля, из которых формировать дамп, даже решить для себя вопрос лицензии, поскольку по CC BY-NC-SA, позволяющей раздавать сообщения авторов, у нас материалы только с 2009-го года явно идут, до этого лицензия не оговаривалась прямо.

В общем, возни реально много, а прямой пользы от этого для форумов я пока не вижу. Соответственно, и приоритет этого весьма низкий. Если бы львиная доля стоящих выше вопросов не решалась одновременно переходом на доступность форумов по DVCS, то я бы этой проблемой вообще не занимался. А так, решу задачу распределённых форумов, автоматически решится и задача дампа авторских архивов, тогда — сколько угодно.
 3636
+
-
edit
 

Balancer

администратор
★★★★☆
Решил попробовать отображать планы и процесс реализации на трекере:
 3636

Vale

Сальсолёт

>1. надо решать вопросы видимости,

Можно не показывать то, что в закрытом.

>2. нужно запросить у всех авторов разрешение на публикацию их e-mail (т.к.) это будет единственный способ привязки дампа к авторству,

Не вижу нужды в таком - в том числе в публикации е-майлов. Сссылка на постинг - этого достаточно.

>3. выбирать поля, из которых формировать дамп,

Дата,время, текст сообщения. Можно ссылку на него или номер. По тексту и автору сообщение все равно можно легко найти.

>4. даже решить для себя вопрос лицензии, поскольку по CC BY-NC-SA, позволяющей раздавать сообщения авторов, у нас материалы только с 2009-го года явно идут, до этого лицензия не оговаривалась прямо.

По той же лицензии, что форумы отдают их сейчас.



Смысл этого всего прост. У меня нет уверенности, что судьба форума будет безоблачной. Я хочу иметь возможность прочитать, что писали интересные мне люди даже лет через 10-20- а то и позже.
Вне зависимости от существования самого форума в то время.
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  11.011.0

Balancer

администратор
★★★★☆
Vale> Не вижу нужды в таком - в том числе в публикации е-майлов. Сссылка на постинг - этого достаточно.

Ссылка на постинг может не выжить. Будущее Авиабазы в общем случае не определено. В конце концов я и помереть могу :) А хочется, чтобы накопленные материалы были достаточно автономны. И всё это требует детальной проработки.

Vale> По той же лицензии, что форумы отдают их сейчас.

Это они сейчас отдают. А когда авторы писали свои сообщения до 2009-го года, они с этой лицензией согласие не давали.

Vale> Смысл этого всего прост. У меня нет уверенности, что судьба форума будет безоблачной. Я хочу иметь возможность прочитать, что писали интересные мне люди даже лет через 10-20

Именно в этом направлении я и работаю в рамках проекта Авиабаза распределённая

Я хочу дать возможность работать с материалами форума и при его отсутствии. В идеале — возможность работать активно.
 3636

Vale

Сальсолёт

Ок, я тут поигрался с TCP клиентом, для других целей. Что же, буду видимо писать интструмент "на коленке". Как будет время.
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  33.033.0

Balancer

администратор
★★★★☆
Vale> Ок, я тут поигрался с TCP клиентом, для других целей. Что же, буду видимо писать интструмент "на коленке". Как будет время.

Я помню твой запрос. Но всё не доходят руки сделать нормальный экспорт для распределённой системы. То болел, то по обеим работам сейчас у начальства активность проснулась, то более востребованный форумный функционал (и не только программный) лепить приходится...

Могу пока только в ручном режиме выкладывать в виде

(в будущем будет именно подобный вариант, через JSON. Только структура ещё будет меняться).
 38.0.2125.10438.0.2125.104

Vale

Сальсолёт

Спасибо, тогда я могу подождать ещё. Но мне очень хотелось бы иметь нужные мне архивы хотя бы где-то к Новому Году.
"Не следуй за большинством на зло, и не решай тяжбы, отступая по большинству от правды" (Исх. 23:2)  32.032.0

Balancer

администратор
★★★★☆
По формату продолжаю писать в специальной теме:

Авиабаза распределённая [Balancer#16.10.14 16:43]

Здорово. Оказывается, этот формат метаданных (YAML в Markdown) вполне понимает GitHub. Так что записанные в этом формате сообщения можно прямо с GH читать. Например Как снимали фантастикуСпецэф фекты в советском кино Приучить ещё народ пользоваться Markdown, который перекрывает 90% потребностей — вообще шикарно будет // Авиабаза
 


Скорее всего на варианте YAML в Markdown и остановлюсь. И парсить просто, и глазами читать с файла удобно. Со структурой каталогов, вроде, тоже устаканилось.

Сейчас отконвертирую на пробу архив 2013..2014гг. В репозитории пока всё закидывать не буду, но расшарю результат через btsync.
 38.0.2125.10438.0.2125.104

в начало страницы | новое
 
Поиск
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru