Статистика и котики - Владимир Савельев

Шрифт:

Интервал:

Закладка:

Сделать

Перейти на страницу:

1. Переместите переменную, делящую ваши объекты на группы, в поле «Группировать по». Далее — задайте диапазон, в котором находятся ваши группы (допустим от 1 до 3, если группы обозначаются как 1, 2 и 3).

2. Переместите остальные переменные в поле «Независимые».

3. Нажмите кнопку «Статистики» и отметьте «Однофакторный дисперсионный анализ».

4. Нажмите кнопку «Классифицировать» и отметьте «Итоговая таблица».

Дополнительные опции: на главном окне вы можете выбрать метод дискриминантного анализа («Принудительное включение» или «Шаговый отбор»).

В окне «Статистики» вы также можете выбрать «Средние», что даст описательную статистику по каждой из групп.

Куда смотреть: в таблице «Критерии равенства групповых средних» можно посмотреть, какие переменные значимо разделяют ваши объекты на группы (столбцы «F» и «Значимость»). Если значимость меньше 0,05, то разделяет.

Значения коэффициентов стандартизованной канонической дискриминантной функции можно найти в одноименной таблице (если это действительно необходимо).

Что касается меры качества, то таковой может служить таблица «Результаты классификации». В ячейках [0,0] и [1,1] находятся правильно классифицированные объекты, а в остальных — ошибочно определенные.

ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ

Как найти: Анализ —> Классификация —> Иерархическая кластеризация…

Что вводить:

1.Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».

2. В разделе «Графики» отметьте галочкой «Дендрограмма».

Дополнительные опции: нажав кнопку «Статистики», вы можете потребовать у компьютера вывести принадлежность объектов к кластерам на том или ином этапе кластеризации. Кроме того, у него можно затребовать матрицу расстояний между объектами (она же — «Матрица близостей»).

В разделе «Метод» вы можете выбрать способ выделения кластеров, а также меру расстояния.

Куда смотреть: на дендрограмме показана принадлежность объектов к тому или иному классу на всех этапах кластеризации.

Если же вы отметили соответствующую галочку, то вы можете посмотреть принадлежность объектов к кластеру на определенном этапе кластеризации в таблице «Принадлежность к кластерам».

К-СРЕДНИХ

Как найти: Анализ —> Классификация —> Кластеризация К-средними.

Что вводить:

1. Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».

2. Выберите число кластеров.

3. В разделе «Параметры» отметьте «Конечный кластер для каждого наблюдения».

Дополнительные опции: ничего интересного.

Куда смотреть: из таблицы «Принадлежность к кластерам» можно увидеть, какой объект к какому кластеру принадлежит.

А в таблице «Конечные центры кластеров» расположены координаты каждого центроида.

ФАКТОРНЫЙ АНАЛИЗ

Как найти: Анализ —> Снижение размерности —> Факторный анализ.

Что вводить:

1. Переместите переменные, на основе которых будут выделяться факторы, в поле «Переменные».

2. Нажмите на кнопку «Вращение» и выберите метод вращения (чаше всего «варимакс»).

Дополнительные опции: в разделе «Извлечение» можно выбрать метод извлечения, вывести график собственных значений или настроить количество факторов, которые выделятся по итогу.

Куда смотреть: результаты факторного анализа находятся в «Повернутой матрице компонентов». Там — коэффициенты корреляции между факторами и отдельными переменными.

Собственные значения факторов можно посмотреть в таблице «Объясненная совокупная дисперсия».

Приложение 3. Что еще посмотреть?

Если после прочтения данной книги вы заинтересовались статистикой, то было бы не лишним узнать, что еще можно посмотреть по данной тематике.

В первую очередь я бы рекомендовал курсы института биоинформатики на сайте www.stepik.org. А именно «Основы статистики» в трех частях, который ведут Анатолий Карпов, Иван Иванчей, Полина Дроздова и Арсений Москвичев. Там все просто, доходчиво и талантливо. А демонстрируемая глубина изложения встречается далеко не в каждом учебнике.

Второй источник, достойный упоминания — это «Статистика для всех» С. Бослаф. Единственное — она весьма недешёвая и её трудно найти. Содержание же выше самых похвал — подробно рассмотрены самые распространенные методы обработки данных, в том числе и специфические для медицины, экономики и бизнеса.

Также я достаточно часто захожу на портал знаний statistica.ru компании StatSoft. Местный электронный учебник хорош в качестве справочного пособия. Что касается самого анализа данных в системе Statsoft Statistica, то о нём можно узнать в учебнике Боровикова «Популярное введение в современный анализ данных в системе STATISTICA».

Если же вам приходится работать в SPSS — возьмите книгу А. Д. Наследова «IBM SPSS Statistics 20 и AMOS: Профессиональный статистический анализ данных». Там описано решение большинства типовых задач, с которыми приходится сталкиваться исследователю.

По статистическому языку R есть прекрасный курс на том же stepik.org. Ведут Анатолий Карпов и Иван Иванчей.

А вообще, самый главный источник знаний — это исследовательская работа. Решение практических задач способствует их усвоению и закреплению в гораздо большей степени, чем чтение книг. Поэтому если вы хотите освоить этот предмет — ищите достойные задачи, решение которых позволит сделать наш мир лучше и интереснее.

Благодарности

Здесь мне хотелось бы выразить благодарность людям, без которых издание книги было бы невозможным.

И в первую очередь спасибо тем, кто поверил в этот проект и вложился в него, став спонсорами на краудфандинговой площадке Boomstarter. Без них он так и остался бы просто красивой идеей. Ваша поддержка вдохновляла меня, а ответственность перед вами заставляла ежедневно работать над книгой, делая ее все лучше и лучше.

В особенности мне бы хотелось поблагодарить следующих спонсоров: Дмитрия Чумаченко, Елену Зеркаленкову, Анатолия Федоточкина, Леонида Тощева, Евгения Комоцкого, Ольгу Романову, Ивана Равового, Алексея Иванова (aviva24), Вадима Шмыгова и школу «Инфографика TUT», Максима Кравцова, Ирину Шафранскую, Сергея Черепанова, Владимира Волохонского, Александра Белоцерковского, Евгения Степанищева, Вячеслава Калошина и Игоря Мосягина. Их вклад был по-настоящему щедрым и позволил реализовать несколько интересных идей.

1 ... 12 13 14 15 16 17 18 19 20 21

Перейти на страницу:

Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

2021
Домашняя

Почему одни семьи счастливы, а другие - нет. Как преодолеть разногласия и приумножить любовь - Максим Аксюта

2021
Психология

Морские КОТики. Крысобои не писают в тапки! - Роман Матроскин

2021
Детективы

Древняя история казачества - Евграф Савельев

2021
Историческая проза

Савельев - Виктор Анатольевич Шендерович

2021
Классика

Комментарии

Минимальная длина комментария - 20 знаков. В коментария нецензурная лексика и оскорбления ЗАПРЕЩЕНЫ! Уважайте себя и других!

Комментариев еще нет. Хотите быть первым?

Статистика и котики - Владимир Савельев

Читайте новые книги:

Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

Почему одни семьи счастливы, а другие - нет. Как преодолеть разногласия и приумножить любовь - Максим Аксюта

Морские КОТики. Крысобои не писают в тапки! - Роман Матроскин

Древняя история казачества - Евграф Савельев

Савельев - Виктор Анатольевич Шендерович