Этапы кластерного анализа (1-2)
На результаты вычислений при кластерном анализе оказывает влияние то, какие используются единицы измерения и какую величину (масштаб) имеют переменные. Устранить зависимость переменных от единиц измерения и масштаба позволяет процедура стандартизации исходных данных. Таким образом, переменные приобретают одинаковый вес при кластеризации. В табл. 10.2 наглядно изображена в общем виде прямоугольная… Читать ещё >
Этапы кластерного анализа (1-2) (реферат, курсовая, диплом, контрольная)
Рассмотрим этапы кластерного анализа с позиций математического содержания и методики.
этап. Представление исходных данных в виде матрицы
На первоначальном этапе исходные данные представляются в виде матрицы. Очевидно, что матрица может иметь как прямоугольную, так и квадратную форму.
Прямоугольная матрица исходных данных в многомерном статистическом анализе чаще упоминается как матрица «объект — свойство» и является наиболее распространенной формой представления исходных данных.
В табл. 10.2 наглядно изображена в общем виде прямоугольная матрица исходных данных с п элементами — объектами исследования. В этом качестве могут выступать предприятия машиностроения, коммерческие банки, студенты университета, которые описываются посредством k признаков.
В матрице значение Ху соответствует г-му объекту, который характеризуется j-м показателем, где г = 1,2,…, n, j= 1,2,…, к.
Таблица 10.2
Прямоугольная матрица исходных данных
Объект. (элемент). | Переменная. | |||
… | ||||
п |
В случае если мы производим попарные сравнения объектов по некоторому свойству, матрица исходных данных представляет собой квадратную матрицу. Например, расстояние между городами России, результаты футбольного матча между командами и т. п. В табл. 10.3 представлена квадратная матрица исходных данных, у которой число строк и столбцов одинаково.
Таблица 10.3
Квадратная матрица исходных данных
Объекты (элементы). | |||||
п | |||||
Объекты. (элементы). | |||||
п |
В многомерном статистическом анализе такая матрица называется «матрицей парных сравнений». Представим содержание таблицы в виде матрицы.
(10.1).
где i=l, 2,…, п; т = 1,2,…, п; Ху — результат сравнения г-го объекта с т-м объектом.
На результаты вычислений при кластерном анализе оказывает влияние то, какие используются единицы измерения и какую величину (масштаб) имеют переменные. Устранить зависимость переменных от единиц измерения и масштаба позволяет процедура стандартизации исходных данных. Таким образом, переменные приобретают одинаковый вес при кластеризации.
В ходе стандартизации осуществляется переход от матрицы исходных данных xj к матрице стандартизированных значений z, y. Чаще всего используется формула перехода:
где Xj — среднее значение у-го признака; ?,• - среднее квадратическое отклонение у-го признака.
Среднее значение у-го признака рассчитывается по следующей формуле:
где п — число элементов (объектов).
Среднее квадратическое отклонение у-го признака рассчитывается как:
При процедуре стандартизации все числовые пропорции сохраняются, но все переменные не имеют единиц измерения. Это позволяет проводить с ними вычислительные операции, как для переменных, имеющих одинаковые единицы измерения.
В том случае, если исходные переменные имеют одинаковые единицы измерения, проводить стандартизацию нет необходимости.
этап. Определение сходства объектов
Определение сходства объектов связано с понятием однородности объектов. Определение критерия однородности объектов является наиболее трудным этапом кластерного анализа и в связи с этим наименее формализованным в задаче автоматической классификации. Однородность объектов определяется мерой степени близости (сходства) объектов или различия между объектами.
В качестве меры различия чаще используется расстояние между объектами, обозначаемое как du (от слова «distance»), обеспечивающее более простой алгоритм действий. К тому же этот алго.
(10.3).
(10.4).
ритм хорошо реализован в компьютерных программах, таких как Statistica, SPSS и др.
В зависимости от исходных данных может быть использован тот или иной вид расстояний. Важно отметить, что критерием выбора вида расстояния является правильная (точнее сказать адекватная) интерпретация профиля (особенностей) кластеров.