Статистика и котики - Владимир Савельев
Шрифт:
Интервал:
Закладка:
Идея достаточно проста. Предположим, вы подозреваете, что все котики делятся на три различающиеся размером группы. Тогда у каждой группы существует свой представитель, который обладает самым типичным для группы размером. Такой котик называется центроидом. И основная задача алгоритма k-средних — найти, каким именно размером эти центроиды обладают.
Происходит это пошагово. На первом этапе мы произвольно расставляем центроиды.
На втором этапе вычисляются расстояния от каждого котика до каждого центроида.
На третьем — определяем принадлежность котиков к тому или иному центроиду. Иными словами — смотрим, какой котик к какому центроиду ближе.
И на четвертом этапе мы вычисляем средний размер котиков при каждом центроиде. И центроид перемещается в этот средний размер.
А потом алгоритм повторяется со второго шага. Происходит это потому, что некоторые котики перебегают от одного центроида к другому, вследствие чего положение центроидов также будет меняться.
Происходит это ровно до тех пор, пока после очередного повторения положение центроидов останется неизменным.
Важно отметить следующие вещи. Во-первых, k-средних может работать сразу по нескольким переменным. Для этого, как и для иерархического кластерного анализа, вычисляется расстояние, но уже не между отдельными котиками, а между конкретным котиком и центроидом.
Во-вторых, результат k-средних сильно зависит от начального положения центроидов. Некоторые такие положения могут приводить к довольно-таки бредовым результатам. Поэтому k-средних лучше проводить несколько раз подряд. Кстати, если вы при этом каждый раз получаете разные результаты, стоит задуматься о смене количества групп.
НЕМАЛОВАЖНО ЗНАТЬ!
Метрики расстояний
Конкретные результаты кластерного анализа во многом зависят от того, какую метрику расстояния вы выбрали. А их существует несколько. Самая простая из них — эвклидово — есть просто кратчайший путь между двумя точками.
Иногда вместо него используют так называемое Манхэттенское расстояние. Названо оно было в честь Манхэттена, а точнее — в честь его планировки. Прогуливаясь по Манхэттену, вы не можете попасть из точки А в точку Б по кратчайшему пути. Если только вы не можете проходить сквозь стены, вам обязательно придется идти вдоль его параллельно-перпендикулярных улиц.
Заметим, что синий и красный пути абсолютно одинаковы. Манхэттенское расстояние лучше использовать в случаях, если вы подозреваете, что в вашей выборке есть выбросы.
Последняя наиболее часто используемая метрика — это расстояние Чебышева. Она немного похожа на Манхэттенское расстояние. Но только чуть-чуть. Потому что его можно определить как максимальное расстояние, которое котику нужно будет пройти вдоль одной улицы.
Безусловно, каждый котик — уникальная и сложная личность. У него есть индивидуальные желания и предпочтения, а также собственный взгляд на мир и свое место в нем. Впрочем, некоторые психологические особенности (например, любовь к еде) являются общими для всех котиков.
Однако, к большому сожалению, в отличие от всяких внешних признаков (к примеру таких, как размер или пушистость), психологические особенности не так просто измерить, поскольку их нельзя увидеть. И потому мы нуждаемся в специальных методах для их выявления.
В качестве примера вспомним, что большинство котиков склонны точить когти о диван и время от времени царапать своих хозяев. При этом мы наблюдаем линейную положительную взаимосвязь между этими явлениями — котики, которые дерут большее количество диванов, склонны оставлять большее количество царапин.
Глядя на эту взаимосвязь, мы можем предположить, что за этими склонностями стоит некоторая скрытая причина, которая вполне может являться особой чертой котикового характера. Назовем ее царапучестью. Чем выше царапучесть, тем больше котики склонны царапать диваны и людей.
Выявить такие скрытые причины (или факторы) помогает факторный анализ, который проходит в несколько этапов. Во-первых, рассчитывается корреляционная матрица между всеми переменными, которые вы замерили: размером, количеством еды, склонностью царапать людей и т. д.
Во-вторых, переменные, которые коррелируют между собой, заменяются факторами. Чтобы понять, как это происходит, обратимся к рисунку.
На нем уже знакомая нам линейная взаимосвязь, которая описывается регрессионной прямой. Давайте теперь повернем наш рисунок таким образом, чтобы эта прямая лежала по горизонтали, и проведем прямую, перпендикулярную регрессионной.