Применение кластерного анализа в Microsoft Excel - TurboComputer.ru
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд (голосов: 1, средняя оценка: 5,00 из 5)
Загрузка...

Применение кластерного анализа в Microsoft Excel

Как сделать кластерный анализ в Excel: сфера применения и инструкция

Кластерный анализ объединяет кластеры и переменные (объекты), похожие друг на друга. То есть классифицирует объекты. Часто при решении экономических задач, имеющих достаточно большое число данных, нужна многомерность описания. Один из простых методов многомерного анализа – кластерный анализ.

Кластерный анализ является количественным инструментом исследования социально-экономических процессов, для описания которых необходимо много характеристик. Он позволяет разбить выборку на несколько групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты). С помощью метода решаются задачи сегментирования рынка, анализируются сельские хозяйства для сравнения производительности, например, прогнозируется конъюнктура рынка отдельных продуктов и т.д.

Многомерный кластерный анализ

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных объектов. Метод подразумевает определение расстояния между переменными (дельты) и последующее выделение групп наблюдений (кластеров).

Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.

Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.

Примеры использования кластерного анализа:

  1. В биологии – для определения видов животных на Земле.
  2. В медицине – для классификации заболеваний по группам симптомов и способам терапии.
  3. В психологии – для определения типов поведения личности в определенных ситуациях.
  4. В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
  5. В разнообразных маркетинговых исследованиях.

Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.

  • позволяет разбивать многомерный ряд сразу по целому набору параметров;
  • можно рассматривать данные практически любой природы (нет ограничений на вид исследуемых объектов);
  • можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
  • может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).

Дельта-кластерный анализ имеет и свои недостатки:

  • состав и количество кластеров зависит от заданного критерия разбиения;
  • при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
  • часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.



Как сделать кластерный анализ в Excel

Для примера возьмем шесть объектов наблюдения. Каждый имеет два характеризующих его параметра.

В качестве расстояния между объектами возьмем евклидовое расстояние. Формула расчета:

Рассчитанные данные размещаем в матрице расстояний.

Самыми близкими друг к другу объектами являются объекты 4 и 5. Следовательно, их можно объединить в одну группу – при формировании новой матрицы оставляем наименьшее значение.

Из новой матрицы видно, что можно объединить в один кластер объекты [4, 5] и 6 (как наиболее близкие друг к другу по значениям). Оставляем наименьшее значение и формируем новую матрицу:

Объекты 1 и 2 можно объединить в один кластер (как наиболее близкие из имеющихся). Выбираем наименьшее значение и формируем новую матрицу расстояний. В результате получаем три кластера:

Самые близкие объекты – 1, 2 и 3. Объединим их.

Мы провели кластерный анализ по методу «ближайшего соседа». В результате получено два кластера, расстояние между которыми – 7,07.

Огромное значение имеет кластерный анализ в экономическом анализе. Инструмент позволяет вычленять из громадной совокупности периоды, где значения соответствующих параметров максимально близки и где динамика наиболее схожа. Для исследования, к примеру, товарной и общехозяйственной конъюнктуры этот метод отлично подходит.

Задачи Data Mining. Классификация и кластеризация

Оценка качества кластеризации

Оценка качества кластеризации может быть проведена на основе следующих процедур:

  • ручная проверка;
  • установление контрольных точек и проверка на полученных кластерах ;
  • определение стабильности кластеризации путем добавления в модель новых переменных;
  • создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры , и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации .

Процесс кластеризации

Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Однако эксперименты не должны быть самоцелью – ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров .

Применение кластерного анализа

Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации . Обзор многих опубликованных исследований, проводимых с помощью кластерного анализа, дал Хартиган (Hartigan, 1975).

Так, в медицине используется кластеризация заболеваний, лечения заболеваний или их симптомов, а также таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д. В маркетинге это может быть задача сегментации конкурентов и потребителей. В менеджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В медицине – классификация симптомов. В социологии задача кластеризации – разбиение респондентов на однородные группы.

Кластерный анализ в маркетинговых исследованиях

В маркетинговых исследованиях кластерный анализ применяется достаточно широко – как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. При этом решаются вопросы о группах клиентов, продуктов и т.д.

Так, одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя, а именно: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение. Эта проблема подробно описана в работах Клакстона, Фрая и Портиса (1974), Киля и Лэйтона (1981).

Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.

Кластерный анализ также может быть удобен, например, для анализа клиентов компании. Для этого все клиенты группируются в кластеры , и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.

Практика применения кластерного анализа в маркетинговых исследованиях

Приведем некоторые известные статьи, посвященные применению кластерного анализа для маркетинговых исследований.

В 1971 году была опубликована статья о сегментации клиентов по сфере интересов на основе данных, характеризующих предпочтения клиентов.

В 1974 году была опубликована статья Секстона (Sexton), целью которой была идентификация групп семей – потребителей продукта, в результате были разработаны стратегии позиционирования бренда. Основой для исследований были рейтинги, которые респонденты присваивали продуктам и брендам.

В 1981 году была опубликована статья, где проводился анализ поведения покупателей новых автомобилей на основе данных факторных нагрузок, полученных при анализе набора переменных.

Выводы

В этой лекции нами были подробно рассмотрены задачи классификации и кластеризации . Несмотря на кажущуюся похожесть этих задач, решаются они разными способами и при помощи разных методов. Различие задач прежде всего в исходных данных.

Классификация , являясь наиболее простой задачей Data Mining, относится к стратегии ” обучение с учителем “, для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация , напротив, является задачей Data Mining, относящейся к стратегии ” обучение без учителя “, т.е. не требует наличия значения целевых переменных в обучающей выборке.

Читайте также:  Создание калькулятора в Microsoft Excel

Задача классификации решается при помощи различных методов, наиболее простой – линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных. Наиболее распространенные методы решения задачи кластеризации : метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM . Сложностью кластеризации является необходимость ее оценки.

Загрузка пакета анализа в Excel

Примечание: Мы стараемся как можно оперативнее обеспечивать вас актуальными справочными материалами на вашем языке. Эта страница переведена автоматически, поэтому ее текст может содержать неточности и грамматические ошибки. Для нас важно, чтобы эта статья была вам полезна. Просим вас уделить пару секунд и сообщить, помогла ли она вам, с помощью кнопок внизу страницы. Для удобства также приводим ссылку на оригинал (на английском языке).

Если вам нужно разработать сложные статистические или инженерные анализы, вы можете сэкономить этапы и время с помощью пакета анализа. Вы предоставляете данные и параметры для каждого анализа, и в этом средстве используются соответствующие статистические или инженерные функции для вычисления и отображения результатов в выходной таблице. Некоторые инструменты создают диаграммы в дополнение к выходным таблицам.

Функции анализа данных можно применять только на одном листе. Если анализ данных проводится в группе, состоящей из нескольких листов, то результаты будут выведены на первом листе, на остальных листах будут выведены пустые диапазоны, содержащие только форматы. Чтобы провести анализ данных на всех листах, повторите процедуру для каждого листа в отдельности.

Откройте вкладку Файл, нажмите кнопку Параметры и выберите категорию Надстройки.

Если вы используете Excel 2007, нажмите кнопку Microsoft Office , а затем – кнопку Параметры Excel.

В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

Если вы используете Excel для Mac, в строке меню откройте вкладку Средства и в раскрывающемся списке выберите пункт Надстройки для Excel.

В диалоговом окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

Примечание: Чтобы включить функцию Visual Basic для приложений (VBA) для пакета анализа, вы можете загрузить надстройку ” Пакет анализа — VBA ” таким же образом, как и при загрузке пакета анализа. В диалоговом окне Доступные надстройки установите флажок Пакет анализа — VBA .

Примечание: Пакет анализа недоступен для Excel для Mac 2011. Дополнительные сведения о том, как найти пакет анализа в Excel для Mac 2011, я не вижу.

Чтобы загрузить пакет анализа в Excel для Mac, выполните указанные ниже действия.

В меню Сервис выберите пункт надстройки Excel.

В окне Доступные надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

Если надстройка Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы найти ее.

Если появляется сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

Выйдите из приложения Excel и перезапустите его.

Теперь на вкладке Данные доступна команда Анализ данных.

Я не могу найти пакет анализа в Excel для Mac 2011

Существуют несколько сторонних надстроек, которые предоставляют функции пакета анализа для Excel 2011.

Вариант 1. Скачайте статистическое программное обеспечение надстройки КСЛСТАТ для Mac и используйте его в Excel 2011. КСЛСТАТ содержит более 200 основных и расширенных статистических средств, включающих все функции пакета анализа.

Выберите версию КСЛСТАТ, соответствующую операционной системе Mac OS, и загрузите ее.

Откройте файл Excel, содержащий данные, и щелкните значок КСЛСТАТ, чтобы открыть панель инструментов КСЛСТАТ.

В течение 30 дней вы получите доступ ко всем функциям КСЛСТАТ. По истечении 30 дней вы сможете использовать бесплатную версию, включающую функции пакета анализа, или заказать одно из более полных решений КСЛСТАТ.

Вариант 2. Скачайте Статплус: Mac LE бесплатно из Аналистсофт, а затем используйте Статплус: Mac LE с Excel 2011.

Вы можете использовать Статплус: Mac LE для выполнения многих функций, которые ранее были доступны в пакетах анализа, таких как регрессия, гистограммы, анализ вариации (Двухфакторный дисперсионный обработки) и t-тесты.

Перейдите на веб-сайт аналистсофти следуйте инструкциям на странице загрузки.

После загрузки и установки Статплус: Mac LE откройте книгу, содержащую данные, которые нужно проанализировать.

Откройте Статплус: Mac LE. Эти функции находятся в меню Статплус: Mac LE.

В Excel 2011 не входит Справка для Кслстат или Статплус: Mac LE. Справка по Кслстат предоставляется кслстат. Справка для Статплус: Mac LE предоставляется Аналистсофт.

Корпорация Майкрософт не предоставляет поддержку ни для каких продуктов.

Дополнительные сведения

Вы всегда можете задать вопрос специалисту Excel Tech Community, попросить помощи в сообществе Answers community, а также предложить новую функцию или улучшение на веб-сайте Excel User Voice.

Применение кластерного анализа в Microsoft Excel

Рассмотренные в лабораторной работе 2 распределения вероятностей СВ опираются на знание закона распределения СВ. Для практических задач такое знание – редкость. Здесь закон распределения обычно неизвестен, или известен с точностью до некоторых неиз­вестных параметров. В частности, невозможно рассчитать точное значение соот­ветствующих вероятностей, так как нельзя определить количество общих и благо­приятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний, в ко­торых событие произошло, к общему числу произведенных испытаний. Такая вероятность называется статистической частотой.

Связь между эмпирической функцией распределения и функцией распределения (теоретической функцией распределения) такая же, как связь между частотой со­бытия и его вероятностью.

Для построения выборочной функции распределения весь диапазон изменения случайной величины X (выборки) разбивают на ряд интервалов (карманов) одинаковой ширины. Число интервалов обычно выбирают не менее 3 и не более 15. Затем определяют число значений случайной величины X, попавших в каждый интервал (абсолютная частота, частота интервалов).

Частота интервалов – число, показывающее сколько раз значения, относящиеся к каждому интервалу группировки, встречаются в выборке. Поделив эти чис­ла на общее количество наблюдений (n), находят относительную частоту (частость)попадания случайной величины X в заданные интервалы.

По найденным относительным час­тотам строят гистограммы выборочных функций распределения. Гистограмма распределения частот – это графическое представление выборки, где по оси абсцисс (ОХ) отложены величины интервалов, а по оси ординат (ОУ) – величины частот, попадающих в данный классовый интервал. При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения.

Накопленная частота интервалов –это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота.

В Excel для построения выборочных функций распределения используются спе­циальная функция ЧАСТОТА и процедура Гистограмма из пакета анализа.

Функция ЧАСТОТА (массив_данных, двоичный_массив) вычисляет частоты появления случайной величины в интер­валах значений и выводит их как массив цифр, где

массив_данных — это массив или ссылка на множество данных, для которых
вычисляются частоты;

двоичный_массив — это массив интервалов, по ко­торым группируются значения выборки.

Процедура Гистограмма из Пакета анализавыводит результаты выборочного распределения в виде таблицы и графика. Параметры диалогового окна Гистограмма:

Входнойдиапазон – диапазон исследуемых данных (выборка);

Интервалкарманов – диа­пазон ячеек или набор граничных значений, определяющих выбранные интервалы (карманы). Эти значения должны быть введены в воз­растающем порядке. Если диапазон карманов не был введен, то набор интерва­лов, равномерно распределенных между минимальным и максимальным зна­чениями данных, будет создан автоматически.

выходнойдиапазон предназначен для ввода ссылки на левую верхнюю ячейку выходного диапазона.

Читайте также:  Сложение времени в Microsoft Excel

• переключатель Интегральныйпроцент позволяет установить режим включения в гистограмму гра­фика интегральных процентов.

• переключатель Выводграфика позволяет установить режим автоматическо­го создания встроенной диаграммы на листе, содержащем выходной диапа­зон.

Пример1. Построить эмпирическое распределение веса студентов в килограм­мах для следующей выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61, 59, 59, 63, 61.

Решение

1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:А21 — значения веса
студентов (см. рис. 1).

2. В ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите граничные значения ин­тервалов (40, 45, 50, 55, 60, 65, 70).

3. Введите заголовки создаваемой таблицы: в ячейки С1 — Абсолютныечас­тоты, в ячейки D1 — Относительныечастоты, в ячейки E1 — Накоплен­ныечастоты.(см. рис. 1).

4. С помощью функции Частотазаполните столбец абсолютных частот, для этого выделите блок ячеек С2:С8. С па­нели инструментов Стандартная вызовите Мастерфункций (кнопка fx). В появив­шемся диалоговом окне выберите категорию Статистические и функцию ЧАСТОТА, после чего нажмите кнопку ОК. Указателем мыши в рабочее поле Массив_данных введите диапазон данных наблюдений (А2:А8).В рабочее поле Двоичный_массив мышью введите диапазон интервалов (В2:В8). Слева на клавиатуре последовательно нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце C должен появиться мас­сив абсолютных частот (см. рис.1).

5. В ячейке C9 найдите общее количество наблюдений. Активизируйте ячейку С9, на панели инструментов Стандартная нажмите кнопку Ав­тосумма. Убедитесь, что диапазон суммирования указан правильно и нажмите клавишу Enter.

6. Заполните столбец относительных частот. В ячейку введите формулу для вычисления относительной частоты: =C2/$C$9. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон и получите массив относительных частот.

7. Заполните столбец накопленных частот. В ячейку D2 скопируйте значение от­носительной частоты из ячейки E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон D3:D8. Получим массив накопленных частот.

Рис. 1. Результат вычислений из примера 1

8. Постройте диаграмму относительных и накопленных частот. Щелчком ука­зателя мыши по кнопке на панели инструментов вызовите Мастердиаграмм. В появившемся диалоговом окне выберите закладку Нестандартные и тип диаг­раммы График/гистограмма.После редактирования диаграмма будет иметь такой вид, как на рис. 2.

Рис. 2 Диаграмма относительных и накопленных частот из примера 1

Кластерный анализ в программе Statistica

Как уже говорилось ранее, кластерный анализ позволяет сгруппировать исследуемые объекты по ряду признаков в однородные группы, что позволяет более точно построить регрессионное уравнение и исследовать корреляционные зависимости. Рассмотрим методику проведения кластерного анализа на примере классификации сортов мягкой яровой пшеницы по 5 факторам продуктивности: урожайность, продуктивная кустистость, число зерен в колосе, масса 1000 семян, масса зерна с колоса [1] (табл. 3.20). В программе Statistica создайте новый файл данных и введите данные (рис. 3.28).

Число зерен в колосе, шт.

Масса зерен с колоса, г

Окончание табл. 3.20

Число зерен в колосе, шт.

Масса зерен с колоса, г

Рис. 3.28. Заполнение данных в окне Statistica

Проведем разведочный анализ на точечной диаграмме. Для этого выберем команду «Графики» «Диаграммы рассеивания» (Scatterplots). Кнопкой «Переменные» выберем в качестве переменной X урожайность, в качестве Y — остальные четыре признака (рис. 3.29).

Рис. 3.29. Построение диаграммы рассеивания

При графическом анализе (рис. 3.30) видно, что по всем четырем признакам представленные сорта разбиваются на три группы. Предполагаемое количество кластеров надо обязательно знать, так как далее мы будем это число указывать при проведении анализа.

Рис. 3.30. Разведочный анализ на диаграмме рассеивания

Воспользуемся командой «Анализ» (Statistics), в открывшемся меню выберите раздел «Многомерный разведочный анализ» (Multivariate Exploratory Technique), затем «Кластерный анализ» (Cluster Analysis). Выберите «Иерархическая классификация» (Joining (Tree Clustering)). Нажмите OK (рис. 3.31). На следующем шаге выбираем в качестве переменных все пять признаков и вид дендрограммы (вертикальная или горизонтальная). Переходим на вкладку «Дополнительно» (Advanced) и устанавливаем, что разбивка на кластеры (Cluster) осуществляется по строкам Cases (rows). Выбираем «Метод объединения» (Amalgamation rule) — метод Варда (Ward’s method), а меру расстояния (Distance measure) — «Манхэттенское расстояние» (City-block (Manhattan)). Дважды щелкнув по графику, перейдем в режим оформления, где можно заменить номера объектов (наблюдений) на их имена (рис. 3.32).

Рис. 3.31. Определение типа классификации

Рис. 3.32. Дендрограмма объединений в кластеры

Выполним теперь кластеризацию методом /Г-средних (K-means clustering). По методу /^-средних построим три кластера, как определили на разведочном анализе, расположенных на возможно больших расстояниях друг от друга. В окне кластерного анализа выберите закладку «Дополнительно» (Advanced) и задайте число кластеров, а также группировку по строкам (рис. 3.33).

Рис. 3.33. Применение метода К-средних

Окно результатов содержит информацию о заданных ранее условиях кластерного анализа. Она позволяет оценить качество классификации с помощью таблицы «Дисперсионного анализа» (.Analysis of variance), получить таблицу средних значений признаков для кластеров и таблицу расстояний между кластерами — «Средние кластеров и евклидовы расстояния» (Cluster means & Euclidean distances), построить графики средних значений для кластеров — «График средних» (Graph of means) (рис. 3.34), получить на вкладке «Дополнительно» описательные статистики для каждого класса (Descriptive statistics for each cluster), таблицу принадлежности объектов к каждому классу «Элементы кластеров и расстояния» (Members of each cluster & distances) (рис. 3.35).

Рис. 3.34. График средних расстояний

Рис. 3.35. Результативные таблицы разбиения на кластеры

Кластерный анализ позволил сгруппировать различные сорта по комплексу признаков, выделил наиболее близкие сорта. Исходя из этих наблюдений, можно сделать вывод о том, что кластерный анализ в наших исследованиях позволил объединить сорта по тем признакам, по которым их сложно объединить на первый взгляд; также произошла группировка по влиянию каждого значения друг на друга и их взаимодействию в целом. Исследование дальнейших характеристик сортов и программирование их урожаев в зависимости от ряда влияющих факторов лучше всего делать внутри полученных групп (кластеров).

МОДЫ Grand Theft Auto V

Крупнейший сборник модов для Grand Theft Auto V и GTA San Andreas

Построить дендрограмму в excel

Одним из инструментов для решения экономических задач является кластерный анализ. С его помощью кластеры и другие объекты массива данных классифицируются по группам. Данную методику можно применять в программе Excel. Посмотрим, как это делается на практике.

Использование кластерного анализа

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение многомерного массива на однородные группы. В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.

Хотя чаще всего данный вид анализа применяют в экономике, его также можно использовать в биологии (для классификации животных), психологии, медицине и во многих других сферах деятельности человека. Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

Пример использования

Имеем пять объектов, которые характеризуются по двум изучаемым параметрам – x и y.

    Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону:

Данное значение вычисляем между каждым из пяти объектов. Результаты расчета помещаем в матрице расстояний.

Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента. Опять смотрим, между какими элементами расстояние минимально. На этот раз – это 4 и 5, а также объект 5 и группа объектов 1,2. Дистанция составляет 6,708204.

Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения. Таким образом мы видим, что нашу совокупность данных можно разбить на два кластера. В первом кластере находятся наиболее близкие между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 9,84.

Читайте также:  Конвертация файлов Word в Microsoft Excel

На этом завершается процедура разбиения совокупности на группы.

Как видим, хотя в целом кластерный анализ и может показаться сложной процедурой, но на самом деле разобраться в нюансах данного метода не так уж тяжело. Главное понять основную закономерность объединения в группы.

Отблагодарите автора, поделитесь статьей в социальных сетях.

Программа Excel из состава пакета MS Office является стандартным средством

хранения и обработки числовой информации. Кроме того, благодаря встроенному языку

программирования Visual Basic for Application (VBA), пользователи этой программы имеют уникальную возможность создавать собственные приложения, ориентированные на решение

специализированных задач практически любой степени сложности. В данном случае

средствами VBA реализован один из наиболее используемых методов статистических

исследований – кластерный анализ. В программе выполняется алгоритм иерархической

кластеризации, в качестве меры сходства объектов используется эвклидово расстояние (Q-

тип) или парный коэффициент корреляции (R-тип). Программа представляет собой

надстройку Excel (файл с расширением имени xla). Чтобы установить программу, надо

выполнить следующие действия: в меню

Сервисвыбрать команду Надстройки;

нажать кнопку Обзори найти файл,

содержащий программу; в окне Список

надстроекпоявится название надстройки

“Cluster” с установленным флажком.

Нажимаете кнопку ОКи после этого

программа готова к использованию. В Excel

появится дополнительная панель

инструментов с двумя кнопками: Q и R,

соответственно для анализа Q и R типа.

Загрузив файл, содержащий данные, следует

выделить диапазон ячеек, первая строка

которого обязательно должна содержать

имена переменных, а первая колонка – номера

образцов (анализов и т.п.). Выделение может

состоять из нескольких областей. Таким

образом можно, например, исключать из

расчета некоторые переменные или анализы.

Пример такого выделения показан на рисунке.

Многодиапазонное выделение выполняется

при нажатой клавише Ctrl. После выделения

данных кнопкой на панели инструментов

активизируется процедура кластерного анализа Q или R типа. Процесс вычислений

контролируется индикатором выполнения. После завершения расчетов на листе появится

окно, содержащее дендрограмму, построенную по результатам кластерного анализа.

Полученный график можно редактировать и распечатать непосредственно из Excel или

перенести, воспользовавшись буфером обмена, в какой-либо графический редактор,

например, в CorelDraw. Векторный формат изображения удобен для редактирования при

подготовке иллюстрационной графики. Основным преимуществом данного подхода является

возможность избежать утомительной процедуры экспорта данных из Excel в программу,

выполняющую статистические вычисления, что существенно экономит время.

Дата добавления: 2014-11-28 ; Просмотров: 8328 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Иерархические алгоритмы используются в задачах классификации небольшого числа объектов (в основном до 100–150 объектов), где основной интерес представляют не число кластеров, а анализ структуры множества этих объектов и наглядная интерпретация проведенного анализа в виде дендрограммы.

Иерархические алгоритмы основаны на построении дендрограмм (от греч. dendron – “дерево”), которые являются результатом иерархического кластерного анализа, описывают близость отдельных точек и кластеров друг к другу, представляют в графическом виде последовательность объединения (разделения) кластеров.

Дендрограмма (dendrogram) – древовидная диаграмма, содержащая п уровней, каждый из которых соответствует одному из шагов процесса

последовательного укрупнения кластеров. Дендрограмму также называют деревом объединения кластеров, древовидной схемой, деревом иерархической структуры. Она представляет собой вложенную группировку объектов, которая изменяется на различных уровнях иерархии (рис. 6.2).

Дендрограмма для 73 наблюдений. Взвешенное попарное среднее евклидово расстояние

Дендрограмма с использованием метода Варда. Объединение кластеров по масштабируемому расстоянию

Рис. 6.2. Примеры построения дендрограмм в различных пакетах прикладных программ:

а – построенная в ППП STATISTICAL 6 – построенная в ППП SPSS

Рис. 6.2 (окончание). Примеры построения дендрограмм в различных пакетах прикладных программ:

в – построенная в пакете MS Excel

По оси ординат п дендрограмме откладываются расстояния объединения объектов в мастеры. Поэтому иа основе анализа дендрограммы можно проследить порядок объединения объектов в кластеры, изучить расстояние, на котором происходит объединение. Близко расположенные друг к другу объекты на дендрограмме представляются сгустками точек, объединенных на небольших по отношению друг к другу расстояниях.

Иерархические (древообразные) процедуры бывают двух типов: агломеративиые и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из га одноэлементных классов, а конечным – из одного класса (см. рис. 6.2).

Принцип работы дивизимных процедур заключается в последовательном разделении групп элементов – сначала самых далеких, а затем все более близких друг от друга. Большинство иерархических алгоритмов исходит из матрицы расстояний D.

В качестве примера опишем работу агломеративного иерархического алгоритма (см. рис. 6.2). На первом шаге алгоритма каждое наблюдение xh i =1, 2. га, рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и с учетом принятого расстояния по формуле пересчитывается матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединятся в один класс.

Преимущества иерархических кластер-процедур:

  • • по сравнению с другими кластер-процедурами они дают более полный и тонкий анализ структуры исследуемого множества наблюдений;
  • • имеется возможность наглядной интерпретации проведенного анализа на основе дендрограммы.

К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации (алгоритм требует вычисления на каждом шаге матрицы расстояний). В связи с этим наглядность алгоритмов при числе наблюдений, большем нескольких сотен, теряется.

Отметим, что дендрограмма позволяет исследователю наглядно увидеть последовательность объединения объектов в кластеры и расстояния, на которых происходят объединения объектов, но не дает четкого ответа на вопрос “сколько кластеров необходимо выделить?”. Считается, что наибольший скачок в расстояниях при объединении объектов в кластеры сигнализирует о необходимости остановки процедуры объединения и изучения полученной кластерной структуры. Продолжение объединения объектов приведет к образованию кластеров, находящихся на относительно большом расстоянии друг от друга.

В качестве примера на рис. 6.3 представлена дендрограмма объединения объектов в кластеры. Анализ дендрограммы позволяет увидеть, что существует несколько вариантов ответа на вопрос “сколько кластеров необходимо выделить?”. Так, например, число выделяемых кластеров может быть равно восьми (пометки А1 – А8), четырем (пометки В1 – В4) и двум (пометки Cl – С2).

Рис. 6.3. Исследование числа кластеров

Если мы выберем слишком большое число кластеров, то их наполняемость будет невысокой и мы можем упустить возможность изучения взаимосвязей внутри кластеров с помощью аппарата типологической регрессии. При малом числе кластеров характеристики объектов в них будут слишком размыты, что не позволит изучать присущие кластерам закономерности. Поэтому целесообразнее выбрать “золотую середину”, т.е. число кластеров, равное четырем. Отметим, что вывод о количестве кластеров решается в каждом конкретном случае по-своему и зависит от целей исследования и характера исходной информации. В некоторых случаях рекомендуется рассмотреть состав кластеров при равных решениях и выбрать тот вариант, который наиболее хорошо интерпретируется и понятен исследователю. Также при вынесении решения о целесообразности разбиения совокупности объектов на кластеры необходимо рассмотреть варианты разбиения при различных расстояниях между группами объектов и мерах близости групп объектов. Рекомендуется выбирать тот вариант разбиения, который получился наибольшим числом способов (т.е. является наиболее устойчивым), имеет минимальное значение функционала качества разбиения (см. ниже, подпараграф 6.2.4).

На следующем примере покажем, как выбор метрики расстояния между объектами и классами влияет на результаты кластерного анализа.

Пример 6.1

Поданным, представленным в табл. 6.1, требуется провести классификацию шести семей по двум показателям:

  • удельные расходы семьи на летний отдых, %;
  • удельные расходы семьи за летние месяцы на культурные нужды и спорт, %.

Исходные данные для примера 6.1

Ссылка на основную публикацию
Adblock
detector