Книги онлайн и без регистрации » Домашняя » Статистика и котики - Владимир Савельев

Статистика и котики - Владимир Савельев

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 9 10 11 12 13 14 15 16 17 ... 21
Перейти на страницу:

Статистика и котики

Как правило, функциональные модели записываются с помощью уравнений. А вот структурные могут быть достаточно разнообразными: от таблиц до блок-схем.

Любая математическая модель строится в два этапа. На первом этапе мы прикидываем, какие факторы в принципе могут влиять на котиковое счастье или из каких компонентов оно может состоять. Этот этап называется также построением содержательной модели.

Второй этап включает в себя сбор реальных данных и их математическую обработку. Он называется построением формальной модели. Формальную модель уже можно использовать как аналог реального котика. Изменяя различные параметры этой модели, вы сможете понять, как функционирует котик, не прибегая к опытам над животными.

НЕМАЛОВАЖНО ЗНАТЬ!

Классификация математических моделей

Помимо деления на функциональные и структурные модели есть еще несколько классификаций, о которых полезно знать. В частности бывают модели статические и динамические. Первые описывают состояние котика в какой-то конкретный момент. Вторые же концентрируются непосредственно на изменениях, которые претерпевает котик.

Статистика и котики

Кроме того, модели делятся на линейные и нелинейные. Линейные модели включают в себя только линейные взаимосвязи, о которых мы подробно говорили в главах про корреляционный и регрессионный анализы. Нелинейные модели могут включать в себя нелинейные взаимосвязи. Примером здесь может служить полиномиальная регрессия.

Статистика и котики

Также имеет смысл рассмотреть деление моделей на непрерывные и дискретные. Первые отличаются тем, что в них все переменные имеют бесконечное множество значений. Пример такой переменной — это котиковый размер, измеренный в сантиметрах. Мы можем сказать, что наш котик имеет длину 62 см. А можем — что 62,513987 см. И даже точнее. Если состояние вашего котика измеряется такой переменной, то, чтобы построить функциональную модель, вам необходима линейная регрессия.

Дискретные же модели работают с переменными, которые имеют ограниченное количество значений. Например, тот же размер, но имеющий только три значения: маленький, средний и большой. Построить модели с дискретными целевыми переменными, в частности, позволяют логистическая регрессия и дискриминантный анализ.

Статистика и котики

Впрочем, на практике большинство моделей относятся к смешанным типам — в них встречаются как дискретные, так и непрерывные переменные, а линейные взаимосвязи вполне могут сочетаться с нелинейными.

Глава 13. Разновидности котиков или основы кластерного анализа

Из предыдущих разделов мы узнали, как определить, какие факторы делают наших котиков счастливыми. В этом нам помогли регрессионный и дискриминантный анализы. Зная значения этих факторов, мы можем предсказать, будет ли тот или иной котик счастливым или несчастным. Иными словами, мы можем рассортировать котиков по классам, т. е. классифицировать их.

Статистика и котики

Вообще, задача классификации является крайне важной практически для всех наук, изучающих котиков. Но довольно часто мы не имеем никакого понятия даже о том, на какие группы делятся котики. Ведь котики очень разные. Поэтому существуют методы, которые позволяют не только рассортировывать котиков на группы, но и выделять сами эти группы. И все вместе они называются кластерным анализом.

В первом приближении у нас могут возникнуть две ситуации. Первая — мы знаем, на сколько групп у нас должны делиться котики, но не имеем понятия, где эти группы находятся. Вторая — мы не знаем итоговое количество групп. Со второго случая мы, пожалуй, и начнем.

Статистика и котики

Рассмотрим самый простой пример. Предположим, что мы захотели поделить наших котиков по размеру. Очевидно, что чем больше два котика похожи друг на друга, тем больше шансов, что они окажутся в одной группе. Чтобы понять степень похожести, надо просто найти разность между размерами — чем она меньше, тем более похожими являются наши котики.

Статистика и котики

Итак, мы вычисляем все возможные разности между размерами котиков. Далее пара самых похожих котиков объединяется в группу (или кластер). Затем мы вновь вычисляем разности. А затем опять объединяем самых похожих. И так происходит до тех пор, пока у нас все котики не объединятся в один большой кластер.

Статистика и котики

Этот алгоритм относится к методам иерархической кластеризации. Их довольно много, но каждый из них обладает следующими свойствами.

1. Эти методы могут работать с большим количеством переменных — вы можете брать и размер, и степень пушистости, и длину коготков, и прочие котиковые признаки одновременно.

2. На основе этих признаков вы вычисляете степень похожести котиков (чаще используется термин расстояние).

3. Котики последовательно объединяются в группы. Это может происходить так, как было описано выше (так называемый «метод ближайшего соседа»), а может и по другим принципам.

4. По итогу вы получаете график, называемый дендрограммой. По ней вы можете определить, на какие группы делятся ваши котики и какие котики к какой группе принадлежат. Единственное — если котиков очень много, воспринимать такую дендрограмму довольно сложно.

Статистика и котики

Напомним, что иерархический кластерный анализ позволяет вам разбить котиков на группы, когда вы не знаете, сколько у вас их должно получиться. А если знаете, то более адекватным будет использование метода k-средних.

1 ... 9 10 11 12 13 14 15 16 17 ... 21
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. В коментария нецензурная лексика и оскорбления ЗАПРЕЩЕНЫ! Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?