Грач> да, и физфак за плечами тоже
Ну и хорошо.
Грач> так результат уже имеется, только не обработан … нужно ведь определить имеется ли связь\зависимость\корреляция между оценками и уходом с форума? источник данных (форум) уже отработал, результаты в виде массива данных имеются их надо обработать.
Результат — уход форумчан? Ок, давай по пунктам, как по теории.
1. Обрисовываем задачу в общем виде. Есть форум, есть люди, которые на форуме, есть процесс ухода, есть некоторые нововведения, есть модерация. И вот хочется проверить гипотезу, что оценки сообщений влияют на уход. Т.е. в общих чертах определяем, что есть и что хочеться получить.
2. Начинаем формировать критерий — кто входит в эту популяцию. Очевидно, что твинки, заведённые во время бана — забаненны. Есть спамеры, которые забаненны. Есть те, кто разругался с администрацией. Есть те, кто не согласен с действиями РФ и потому решили уйти. Есть те, кто сидел (ага, в тюрьме) и не мог писать. Есть те, у кого хобби набрало полную силу и стало больше требовать времени, есть те, у кого родились дети. Т.е. очевидно, что из полной популяции надо делать подвыборку, отсекая хотя бы тех же спамеров, разругавшихся, сидевших. К тем, кто развил хобби или семьёй и детьми обзавёлся — позже вернёмся. Т.е. у нас уже должен быть некий критерий, который должен либо сократить популяцию, либо сделать подвыборку. Первый кусочек модели. Если его нет, то это довольно сильно может повлиять на результат, т.к. в списках ушедших, они могут составить кучу людей. Вале частично пытается решить эту проблему задавая цифру с потолка в 1,000 постов. Правда, он не хочет рассматривать "долголетие" форумчанина. Возьми Сергея с КНААПО (Serhio) — у него 1,000 постов есть. Но посмотри по годам — у него на каждый год выходит мало. Вот что-то происходило на заводе — он выкладывал серию снимков, оценок — в общих чертах, такой миниинфо взрыв, а потом затихал опять. Или посмотри на AXT/Sandro — один человек, пишет не так, чтобы много, но не шибко много. И тоже в тех темах, которые ему интересны и почти всегда по делу. Или ED — мотается по работе в такие глубинки, что там инета нет. Да старается сделать, но не всегда сразу получается.
3. Оценки сообщений. Основная тема. Сами по себе появились в 2009. С тех пор не раз менялись и кроились. Алгоритмы, по которым отрицательные оценки переводились в кадуцы нужного цвета, ЕМНИП, менялись раз 5. Тут Рома точнее скажет. Как это учитывается в гипотезе? А никак. А должно бы.
4. Критериий ухода. Интересно пишущие. Вот критерий ухода — не писал 3 месяца. Почему, отчего? Но в качестве элемента модели, а точнее в качестве критерия гипотезы — есть такое. Надо объяснять, как это магическое число может менять количество ушедших форумчан? Кстати, а, как отсевается естесственный уход? Он же всегда был — на Базе не было такого, что кто подписался, тот навсегда здесь остался. Т.е. естесственный уход надо тоже определить и его вычитать из всех годов. Вале что-то пытался сделать такое, показывая графики. Но проблема в том, что с количеством людей зарегистрированных растёт и число уходящих. Относительные цифры должны быть одинаковы. Абсолютные — нет. А в графиках участвуют только абсолютные цифры, хотя поиск точки перегиба до какой-то степени объясняет это, но не полностью, т.к., если резко выросло население Базы в какой-то месяц (ага, Крым стал Российским, к примеру), а модерация резко бьёт по шапке за просто вопли, то количество ушедших возрастёт не пропорционально быстро. Но даже без битья по шапке со средним количеством уходящих, абсолютное число прыгнет. Т.е. такая точка перегиба ни о чём.
5. Поломки сервера. Влияют на всех. И на критерий ухода тоже. Как это учитывалось? Никак.
6. Изменение стиля жизни участников. Тут, думаю, что всё понятно.
Т.е. эти все пункты и есть та самая матмодель. От их изменения и зависят результаты. А так,
Грач> Что ты понимаешь под моделью при обработке массива данных?
Определение популяции, критерии отбора, доказательства представительства (правильного), чёткая формулировка гипотезы для проверки, выбор метода поиска корреляции, а, самое главное, объяснение причин корреляции в рамках модели. Высокая корреляция лишь указание на то, что
может быть связь. Не более того.
Грач> Алгоритм построения процесса обработки? Выбор целевой функции, граничных условий, способа нормирования и отображения данных?
И этого всего тоже.
Грач> Согласен, задачу сначала нужно сформулировать. Для разных выборок будет разный результат. Но вполне можно идти от простого к правильному. Для началаможно получить результат обработки в лоб — определиться с критерием формирования выборки, скажем обработать данные по пользователям которые до 1 января 2009 года имели не менее 1000 постов и обработать
зависимость количества постов от количества оценок по времени (вне зависимости от знака оценки), затем тоже самое но для положительных и отрицательных. Затем модифицировать критерий формирования выборки — обрабатывать тех пользователей которые к текущему моменту не размещали посты в течении 3-х месяцев, затем боработать данные по тем которые сохранили активность, затем модифицировать критерий отбора взяв в качестве отсекабщего периода 6 меяцев, год, два года. Затем поменять критерий формирования выборки, скажем введя в качестве условия отбора посты размещенные в политическом и так далее. По мере накопления результатов отражающих поведение целевой функции во времени можно будет оценить взаимное вляиние результатов в зависимости от критериев выборки и т. д. и т. п. Какие то закономерности в поведении параметра количество пользователей мы безусловно получим, и возможности интерпретации результата сократим и наверное существенно, но не исключим и соответственно консенсуса не достигнем.
А почему 1,000 постов. Вот человек на Базе 3 года и 1,000 постов. А другой 13 лет и 2,000 постов. Запросто может получится, что второй по критерию 3 месяца перерыва уже 5 раз ушёл. Или родился ребёнок. Примеры Арзу и Таис. Да и у мужиков забот резко прибавляется. Или тот же ТЕвг — переезжал. Да и два ника имеет. Т.е. он ушёл уже с форума раза 3 по такому вот критерию.
Далее, 6 месяцев за 2 года — это скользящие 6 месяцев и скользящие 2 года? И как считать тех, которые в 2013 "ушли", а в 2014 вернулись (к примеру)? Они вообще должны попадать в список ушедших?
Вот тот же
Варбан посмотри на все его сообщения.
yuu2 ещё лучший показатель. У него вообще с 2001 года 1,300+ сообщений. Он каждый год, начиная с 2012 уходит несколько раз в год. Но он и раньше уходил таким макаром.
Грач> согласен, потому не считаю для себя вопрос о том послужили ли оценки фактором деградации форума и была ли искомая деградация существенным.
И это тоже вопрос. Ответить на него трудно. Скажем, бронетанковый жил бодро (тот же Harkonen И Fofanov отмечались там регулярно), а потом помер. Можно рассматривать это, как деградацию форума? Наверно. Или тот же особый ИБА форум — вначале, они там просто балдели от того, что все встретились. Куча воспоминаний, куча рассказов. А потом поутихли, т.к. переговорили на все "горячие" темы. Живёт форум? Живёт. Деградировал? Мне так не кажеться. Уменьшилось общение — да, уменьшилось. Новые люди приходят, но редко (реже, чем вначале, когда толпой пришли и остались). Но общение продолжается.
Грач> Ну почему. Если в качестве оцениваемого параметра взять количество пользователей с показателем скажем не менее 1000 постов в год, то отобразить их количество во времени просто. То есть тенденция будет вполне очевидна и фактурна для именно этого критерия. А вот трактовка результата будет индивидуальна, скока индивидов стока и интерпретаций.
Потому, что надо бы посмотреть на "плотность постов" по годам хотя бы. Оценить, а можно ли применить критерий о 1,000 сообщений и 3 месяцах. И тут уже время провести кластеризацию и искать корреляции в каждом кластере отдельно. Посмотри на пользователей, которые пишут только (или в основном) в Политике. Они вообще особые, т.к. было (и думаю, что есть, по крайне мере, от меня, с редкими исключениями) гонение на таких пользователей, официальное. Даже специально рассматривалось решение об ограничении количества постов в политике, если нет необходимого числа постов в технических темах. Понятно, что выживаемость таких "политических" пользователей под значительынм вопросом.