Кластерный анализ

1. Отбор переменных
Не надо жадничать и стараться использовать все возможные показатели. Необходимо отбирать только влияющие показатели. Пример, почему нельзя одновременно слушать сразу три радиостанции? Ведь по логике удовольствие от прослушивания должно возрости в три раза...

2. Стандартизация данных
Методы:
- линейное преобразование (минимум=0; максимум=1);
а) вычисляем максимумы и минимумы для всех показателей (столбцов) выборки:
maxs <- apply(n, 2, max) # n - таблица с данными
mins <- apply(n, 2, min)
б) линейная стандартизация
scale(n, center = mins, scale = maxs - mins)
- z-метки, когда среднее равно нулю, а выборочная дисперсия равна единице - ((X-mean) / sd)
scale(n, center = T, scale = T)

3. Методы определения расстояния между точками
- Евклидово расстояние;
n.dist <- dist(n.s, method = "euclidean") # если метод не указан, то по умолчанию принимается метод Евклида
- Квадрат Евклидова расстояния; method = "euclidean"
- Блок (Манхеттен, Сити-блок ...) method = "manhattan";
- Расстояние Хэмминга, (Бинарное) - method = "binary"
- Максимум - растояние между самыми удаленными объектами method = "maximum"
- Канберра - растояние в вектороном пространстве (https://en.wikipedia.org/wiki/Canberra_distance) method = "canberra"
- Расстояние Минковского method = "minkowski"

4. Расстояние между кластерами
- Среднее невзвешенное растояние (Average linkage clustering);
- Центроидный метод (Centroid Metod);
- Метод дальнего соседа, макимального расстояния (Complete linkage clustering);
- Метод ближайшего соседа (Single linkage clustering) - подходит для ленточных кластеров;
- Метод Варда (Ward's metod) - ищет шаровидные скопления, но плохо работает с ленточными кластерами (рекомендуется);
- Расстояние Sorensen-Dice;

Шутка: Есть два типа специалистов - узкие и широкие (эрудиты).
Узкий специалист — знает всё ни о чём.
Широкий эрудит — знает ничего обо всём.

Проблема кластерного анализа в том, что кластеры найдутся всегда, но как это разумно интерпритировать

5. Построение дендрограммы

Построение дендрограммы с расстояниями между кластерами, определенными по методу Ward
hc <- hclust(n.dist, method = "ward.D")
plot(hc, main = "Ward.D")

Изначально каждая переменная считается кластером, которые в итоге объединяются в один кластер. Задача исследователя вовремя оставновить кластеризацию.

Определение количества кластеров возможно по графику "Каменистой осыпи" (другое название - "Локоть")

Лучший вариант кластеризации - это тот, который возможно понять и проинтерпритировать

rect.hclust(hc, k=5, border = "red") # обводит кластеры квадратами, здесь обводится 5 кластеров