Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Графическое представление результатов кластерного анализа
Иерархическая классификация, как уже отмечалось, допускает наглядную интерпретацию. Для того чтобы привязать граф иерархии или дендрограмму к системе прямоугольных координат, введем понятие индексации. Индексацией h иерархии называется отображение h: h®R 1, ставящее в соответствие множеству K 1) h(K) = 0 для одноэлементных множеств K, т.е. ô K ô = 1; 2) h(K´) < h(K) для каждой пары (K´,K) такой, что K´ Индексация иерархии позволяет алгоритмизировать процесс построения дендрограммы. Пусть (h, ν) – некоторая индексированная иерархия h на множестве О = { O 1, O 2, …,ON }. Вершины графа иерархии, отвечающие одноэлементным множествам { Oi }, i = 1,2, …, N, обозначим через νi, а вершины, соответствующие К (| К | > 1), обозначим νК. Введем систему координат с осью абсцисс х и осью ординат η. Вначале на оси х через равные интервалы D размещаются вершины
а) б) Рис.9. Дендрограммы иерархии примера из п.9.5.1: а − с пересечением ребер; б − без пересечения ребер
Способы задания индекса ν могут быть разные. Весьма распространена индексация, ставящая в соответствие множеству K Информативность дендрограммы существенно возрастает, если в качестве ординаты кластера K, полученного объединением кластеров Ki и Kj, т.е. K = Ki Одна из проблем иерархического кластерного анализа – определить, какие метрики позволяют провести оцифрование, удовлетворяющее условиям индексации, или иначе, найти индексацию, такую что ν (Кi
Рис.10. Пример инверсии для евклидовой метрики: а − исходная конфигурация; б − инверсия
На первом шаге агломеративной процедуры получаем кластер К 1=.{ О 1 , О 2} c координатами центра тяжести Z (К1) = (1,5;1). Для кластера К 1, полученного объединением одноэлементных кластеров { O 1} и{ O 2}, d (О 1, О 2) = 1. Ближайшимк К 1 окажется объект О 3 (точнее одноэлементный кластер К2 ={ O3 }) с координатами центра тяжести v (К 2)= (1,5; Достаточные условия, когда оцифрование является и индексацией, содержатся в теореме Миллигана. Эта теорема опирается на рекуррентную формулу Жамбю, которая позволяет пересчитывать расстояния между имеющимся кластером К и вновь образованным K¢=Ki +a 5 ν (Ki) +a 6 ν (Kj) +a7 ½ d (K, Ki) –d (K,Kj)ú, где ai – числовые коэффициенты, зависящие от метода определения расстояния между кластерами. Так, при а 1 =а 2 =–а 7 = 1/2 и а 3 =а 4 =а 5 =а 6 = 0 приходим к расстоянию, измеренному по принципу «ближайшего соседа», а при а 1 =а 2 =а 7 = 1/2 и а 3 =а 4 =а 5 =а 6 = 0 – «дальнего соседа». Теорема Миллигана. Пусть h – иерархия на О, полученная с использованием метрики d (К 1 ,К 2), для которой справедлива формула Жамбю. Тогда, если а 1 +а 2 +а 3 ³ 1, аj³ 0для j= 1,2,4,5,6 и а 7³ – min(а 1 ,а 2), то отображение h, задаваемое формулой h(К 1 В заключение отметим, что если рассечь дендрограмму горизонтальной линией на некотором уровне h *, получаем ряд непересекающихся кластеров, число которых равно количеству «перерезанных» линий (ребер) дендрограммы; состав кластера определяется терминальными вершинами, связанными с данным «перерезанным» ребром. Date: 2016-06-07; view: 593; Нарушение авторских прав |