Vale> Просто среднее число постингов. В группе. По годам. Группа - "ушедшие за последний год участники, написавшие не менее 1000 (или 500) постингов". Это будет корректнее, чем моя слегка отфильтрованная группа.
Смотри, тебя не раз спрашивали про модель. Ты каждый раз отнекивался. Но цифры какие-то у тебя появились. При этом без всякого обоснования (для наблюдателей). 3 месяца — перерыв — значит ушёл с форума. Откуда, почему такой критерий? 1000 постингов, 500 — откуда, почему? Цифры красивые? Почему ты берёшь абсолютное число постингов (тот же Serhio вначале писал много, потом стал меньше — в жж было больше какое-то время). А так получается, что участник зарегестрировался 15 лет назад, и выдавал по 100 сообщений в год — он под все твои критерии попадает. А не пишет, бо эти 100 он всегда писал под НГ. Или ещё какой праздник, когда время есть.
Я всегда говорил, что относительные и абсолютные цифры надо смотреть вместе. Инача лажа получается — и рост в 1000% из этой же серии. Я вчера тихонечко с 2-х летним ребёнком шёл 1 км. Целый час шёл. А сегодня я протрусил неспеша. Всего 6 км/ч. За 10 минут. Но это же какой прирост! Я сбросил 5/6 от вчерашнего времени. Значит ли это, что завтра я смогу пробежать 1 км 1 минуту 40 секунд? Или будет, как с богатством недекларированным. У меня в банке лежит ярд. Живу с 2% от него (всего 20 лимонов в год). И вдруг купил яхту за 150 лимонов. И бегают и спрашивают — а доходы-то откуда? не позволяют доходы в 20 лимонов купить яхту за 150! Или там у одной страны ВВП прирос на 2% — мало, а у другой — 30% — хорошо. Только в абсолютном выражении страна с 2% на порядки больше страны с 30%.
А потом вдруг ты разразился про кластеры. Слово умное, да. А по сути разбиение множества на подмножества. Вот предикат отбора в множества есть, а тут ещё насовали предикатов в дополнение по связке И. И разбили. Вот есть множество натуральных чисел. А их взяли и разделили на чётные и нечётные. А вот есть ф-ция, скажем f(x)=2*x. И есть два ряда чисел:
1, 2, 3, 4...
2, 4, 6, 8...
Есть между ними корреляция? Есть, 100% и любой метод корреляционного анализа это покажет (да хоть тот же метод разностей). Берём разницы между соседними членами:
1 2 3 4
1 1 1
2 4 6 8
2 2 2
Т.е. разницы первого порядка уже привели к константам, т.е. каждой 1 соответствует 2. В точности, как в определении ф-ции.
Надо было для этого делать кластеризацию? Нет. Т.е. вывод простой — для поиска корреляции кластеризация не нужна в общем случае (языком математики — не является необходимым условием).
Но, судя по твоим высказывания, ты попытался связать культурный уровень с обстановкой и уходом. Что, в общем, очень сильное упрощение. Но ладно. Идём дальше. Для того, чтобы поместить человека в какой-то кластер тебе нужен предикат. Но, как оказывается, просто предиката не достаточно, т.к. ты хочешь сравнивать уровни. Т.е. предикат должен быть даже не логический, а "числовой". Т.е. ф-ция или функционал. А в предикат ты её преобразуешь уже простым способом — уровень в диапазоне [x, y] — это вот сюда. А в диапазоне (y, z] — это туда. Чистый логический предикат, который отвечает на вопрос — а принадлежит ли объект этому кластеру.
А потом ты пытаешься найти корреляцию этого числа ("числового предиката") и количеством сообщений. Т.е. один числовой ряд и другой. И опять ты можешь применять обычный корреляционный анализ без кластеризации. Кластеризация нужна, может быть, для описания поведения отдельных групп. Типа, мухи без крыльев не летают.
В общем, тебя справедливо критикуют за твою, практически, неозвученную модель, уши которой торчат в разных местах. И там, где торчат, она не работает. Хотя бы из списка людей тобой приведённого — слишком много исключений.
Vale> Еще рекомендую посмотреть "участники, максимально увеличившеие число постингов за год, и написавшие не менее 365 постингов за последний год".
365 — я так понимаю, что хотя бы по 1 сообщению в год. Что тоже предположение. Но почему ты решил, что постинги должны идти равномерно? Тут бы самое время сделать анализ по распределению постов за год.
Кстати, Варбан там про пороха и взрывы участвует сразу и много, а потом опять молчит. Как ты это учитываешь? Или в теме про часы — вот достал-восстановил он их несколько и сразу куча постов. Потом обучающая часть с его постами, ссылки на другие источники. И пополняет он эту тему уже достаточно редко, т.к. основное он уже сказал, а дальше, как достанет и восстановит (или попытается) и тогда появляются новые посты. Очень неравномерно.
Vale> Простите, но не вижу результатов учебы. Если в качестве опровержения тенденции - выдергиваются отдельные примеры из группы - все выученное уже забыто полностью.
Напомню, что для доказательства надо покрыть все случаи. Для опровержения — достаточно одного примера. И такое выдёргивание есть тот самый пример. Дальше уже ты должен свой эксперимент переделывать. Балансеру ничего не надо — не он планирует эксперимент, а ты.
Но, блин, ты всё это, видимо, воспринимаешь, как в том анектдоте — ошибка эксперимента.