Статистика и котики - Владимир Савельев
Шрифт:
Интервал:
Закладка:
Наблюдение — измеренный объект. Котик.
Переменные — свойства объектов, которые поддаются измерению. В книге — котиковое счастье, здоровье, размер и т. д.
Значение переменной — степень выраженности того или иного свойства у конкретного объекта. Иными словами — насколько данный котик здоров, сыт и счастлив.
МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
Используются, когда вам нужно отразить наиболее типичные значения, присутствующие в вашей выборке.
Состав:
1. Мода — наиболее часто встречающееся значение.
2. Медиана — середина упорядоченного ряда значений.
3. Среднее арифметическое — сумма значений, деленная на их количество.
Пример: определение наиболее типичной зарплаты в нашей стране можно осуществлять по двум показателям — среднему арифметическому и медиане. Первая определяется как количество денег, деленное на количество людей, а второе — как зарплата человека, стоящего ровно посередине между самым бедным и самым богатым. Как правило, эти значения различаются — средняя зарплата выше медианной. И чем это различие больше, тем выше социальное неравенство в обществе.
МЕРЫ ИЗМЕНЧИВОСТИ
Используются, когда нужно отразить степень разброса значений относительно меры центральной тенденции.
Состав:
1. Размах — разность между максимальным и минимальным значениями.
2. Дисперсия — сумма квадратов отклонений, деленная на их количество. Отклонение — это разность между средним арифметическим и конкретным значением. Дисперсии для генеральной совокупности и для выборки вычисляются по разным формулам.
3. Стандартное отклонение — корень из дисперсии.
Пример: предположим, вы владеете заводом, который выпускает гвозди. Для любого массового производства необходимо, чтобы изделия полностью соответствовали некоторому стандарту. Например — длина ваших гвоздей должна быть ровно 10 см. Однако на практике всегда существуют некоторые отклонения от этого стандарта (например 10,2 или 9,7 см). Меры изменчивости позволяют оценить величину этих отклонений. Если стандартное отклонение длины превышает некоторое критическое значение, то ваша продукция не соответствует стандарту, а следовательно — не является качественной.
МЕРЫ РАЗЛИЧИЙ ДЛЯ НЕСВЯЗАННЫХ ВЫБОРОК
Позволяют определить различия между двумя несвязанными выборками. Наличие значимых различий по определенному признаку позволяет с некоторой уверенностью говорить о том, что генеральные совокупности также различаются. Эти методы делятся на параметрические и непараметрические. Первые желательно использовать только тогда, когда ваши данные удовлетворяют следующим требованиям.
1. Данные представлены в метрической шкале. Иными словами, признаки должны быть представлены в определенных единицах измерения (см, кг, сек. и т. д.)
2. Большое число наблюдений (от 30, но лучше более 100).
3. Распределение значений признаков приблизительно соответствует нормальному.
4. Отсутствуют выбросы (значения, на порядок отличающиеся от среднего).
Непараметрические меры различий работают и без этих допущений. Наиболее часто используемые меры различий представлены в таблице.
Пример: предположим, что вы выращиваете помидоры, и вам необходимо определить, какой из двух сортов демонстрирует лучшую урожайность. Чтобы это сделать, вам необходимо подсчитать количество помидоров при каждом кусте и занести эту информацию в таблицу. Дальше вы применяете к этим данным t-критерий Стьюдента и по нему судите о наличии различий между сортами. Если сортов больше двух, то ваш выбор — дисперсионный анализ с последующим сравнением с помощью специальных post-hoc-критериев.
МЕРЫ РАЗЛИЧИЙ ДЛЯ СВЯЗАННЫХ ВЫБОРОК
Позволяют определить различия между двумя связанными выборками. Также делятся на параметрические и непараметрические:
Пример: Представим, что вы преподаватель курсов повышения квалификации, и вам интересно узнать, вынесли ли ваши слушатели что-нибудь полезное с занятий. Чтобы это сделать, вам необходимо разработать некоторый проверочный тест и раздать его слушателям до начала занятий и после их окончания. T-критерий Вилкоксона позволит вам проверить, стали ли слушатели лучше знать ваш предмет. Если же вы провели несколько таких измерений, то ваш вариант — это критерий Фридмана.
МЕРЫ СВЯЗИ
Данный класс критериев (называемых также коэффициентами корреляции) позволяет найти взаимосвязь между переменными. Математически взаимосвязь — это совместное изменение переменных.
Если она положительна и равна 1, то увеличение значения первой переменной сопровождается увеличением значения второй. Если она отрицательна (-1), то высокое значение первой переменной сопровождается низким значением второй. Коэффициент корреляции, равный 0, обозначает отсутствие взаимосвязи.
Самыми популярными коэффициентами корреляции являются r Пирсона (параметрический) и p Спирмена (непараметрический).
Пример: вы решили провести психологическое исследование и выяснить, существует ли взаимосвязь между интеллектом и уровнем дохода. Для этого вам необходимо найти группу испытуемых, измерить их интеллект, узнать их среднемесячный доход и найти коэффициент корреляции. Если он высок и положителен, то более интеллектуальные люди получают больше денег.
Если вы получили подобный результат, необходимо быть очень внимательными при его интерпретации. Поскольку равновероятными могут быть следующие варианты.
Более умные люди получают работу с более высоким заработком.
Высокий доход позволяет больше времени уделять саморазвитию в целом и развитию интеллекта в частности.
Существует неизвестная переменная (фактор), обусловливающая эту взаимосвязь.
Взаимосвязь является случайным совпадением.
РЕГРЕССИОННЫЙ АНАЛИЗ
Данная группа методов позволяет построить функциональную математическую модель — уравнение, которое помогает предсказать значение некоторой целевой переменной, используя значения ряда переменных, называемых предикторами.
Наиболее распространенными методами регрессионного анализа являются линейная и логистическая регрессии. Линейная регрессия позволяет предсказать точное количественное значение некоторой переменной, представленной в метрической шкале. Логистическая регрессия позволяет предсказать вероятность принадлежности объекта к тому или иному классу.