Исследование метода декомпозиционного дерева и его модификация для смешанных типов данных

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

Глава 1. АНАЛИЗ ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧИ КЛАСТЕРИЗАЦИИ
- 1. 1. Постановка задачи кластеризации
- 1. 2. Сравнительный анализ подходов к решению задачи кластеризации
- 1. 3. Основные понятия нечеткого подхода к кластеризации
- 1. 4. Цель и задачи исследования
Глава 2. НЕЧЕТКАЯ КЛАССИФИКАЦИЯ: ИССЛЕДОВАНИЕ МЕТОДА ДЕКОМПОЗИЦИОННОГО ДЕРЕВА
- 2. 1. Влияние типа транзитивности на результаты нечеткой классификации
- 2. 2. Система показателей для сравнения результатов нечеткой классификации
- 2. 3. Формирование корректирующей процедуры при переходе от отношения сходства к отношению подобия
Выводы по второй главе
Глава 3. НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ ДЛЯ РАЗНОРОДНЫХ ТИПОВ ДАННЫХ
- 3. 1. Основные типы данных
- 3. 2. Вычисление функции подобия для нечетких чисел
- 3. 3. О мерах несходства для разнородных данных
- 3. 4. Задача кластеризации для объектов с оценками в лингвистической шкале
Выводы по третьей главе
Глава 4. ОПИСАНИЕ ПРОГРАММНОГО КОМПЛЕКСА «COMPOUND
FUZZY DISTANCE»
- 4. 1. Структура программного комплекса
- 4. 2. Вычислительный эксперимент
Выводы по четвертой главе

Исследование метода декомпозиционного дерева и его модификация для смешанных типов данных (реферат, курсовая, диплом, контрольная)

Актуальность темы

исследования. В настоящее время существует значительное число подходов и методов кластеризации/классификации, ориентированных на различные типы данных. Особого внимания заслуживает случай, когда признаки, характеризующие объекты заданного множества, являются разнородными. Например, в задаче медицинской диагностики, которая может быть поставлена как задача классификации, векторная оценка, характеризующая состояние пациента, может содержать компоненты, относящиеся к следующим типам данных: количественный, интервальный, лингвистический, булевский и др. В рамках data mining (L. Billard, E. Diday, V. Ganti, F. Hoppner, M.S. Yang и др.) предложены специальные функции расстояния для неколичественных типов данных, позволяющие оценить «схожесть» объектов. Однако для приближенной информации в виде нечетких чисел можно использовать альтернативные подходы, основанные на индексах сравнения. В качестве базового метода для кластеризации объектов, характеризуемых разнородными признаками, выбран «метод определения транзитивно-ближайших подмножеств"1, который в рамках данной работы называется методом декомпозиционного дерева. Его преимущество заключается в том, что он позволяет получить всю совокупность возможных группировок объектов заданного множества. В работах Каплиевой H.A., Леденевой Т. М. предложена модификация данного метода, что позволяет говорить о схеме метода и возможных его реализациях, которые связаны со способами задания исходной информации и выбором типа транзитивности. Исследована зависимость результатов нечеткой кластеризации от функции расстояния и типа транзитивности. Актуальность диссертационной работы обусловлена недостаточной изученностью ряда вопросов, связанных с некоторыми другими (параметрическими) типами транзитивности, а также возможностью использования иных вариантов формирования исходной информации в виде.

1 Кофман А.

Введение

в теорию нечетких множеств / А. Кофман. — М.: Наука, 1986. — 320 с. 4 отношения сходства/несходства. Кроме того, отсутствуют подходы к сравнению декомпозиционных деревьев.

Цель и задачи исследования

Целью диссертационной работы является повышение эффективности обработки исходной информации, содержащей разнородные типы данных, на основе развития метода декомпозиционного дерева.

Для достижения данной цели решались следующие задачи:

1. Анализ подходов к решению задач нечеткой классификации/кластеризации и выявление проблем метода декомпозиционного дерева.

2. Разработка подходов к сравнению декомпозиционных деревьев.

3. Разработка способов формирования отношения сходства/несходства для различных типов информации.

4. Разработка программного комплекса, реализующего метод декомпозиционного дерева, проведение вычислительного эксперимента и его анализ.

Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной.

1) Выявлена зависимость вида декомпозиционного дерева и его свойств от параметров параметрических композиций, используемых для перехода к транзитивным отношениям, что позволяет учитывать дополнительные требования к результатам и процедуре классификации в конкретной реализации метода.

2) Впервые предложены количественные и качественные характеристики декомпозиционного дерева, учитывающие структурные свойства формируемых разбиений.

3) Предложена модификация метода декомпозиционного дерева, основанная на корректирующей процедуре, отличительной особенностью которой является усиление степени сходства/несходства объектов при формировании исходной информации.

4) Для формирования отношений сходства/несходства предложен комплекс подходов, ориентированных как на обработку определенного типа приближенной информации (лингвистической, нечеткой), так и смешанной, содержащей также количественные данные. Предложена методика вычисления функции подобия для нечетких трапециевидных чисел, учитывающая различные ситуации их расположения на прямой.

5) Разработана структура программного комплекса, включающего средства для формирования информационной среды (ввод информации различных типов и выбор конкретной реализации метода декомпозиционного дерева) и обработки информации, осуществляемой как в рамках вычислительного эксперимента (анализ декомпозиционных деревьев), так и для формирования нечеткого разбиения.

Теоретическая и практическая значимость работы. Значимость полученных результатов для теории заключается в том, что в диссертации показана применимость метода декомпозиционного дерева для случая, когда информация об объектах, подлежащих кластеризации, представлена данными разных типов. Впервые предложены такие характеристики декомпозиционного дерева, на основе которых можно анализировать или сравнивать результаты различных реализаций метода. Теоретические результаты диссертации используются в учебном процессе в рамках спецкурса «Основы нечеткого моделирования», а также при выполнении выпускных квалификационных работ. Практическая значимость диссертации заключается в том, что благодаря адаптации метода к исходной информации различных типов расширена сфера его применения. Преимуществом данного метода является то, что результат представляет собой множество вариантов разбиения заданных объектов на группы схожих, а, следовательно, используя дополнительную информацию о ситуации принятия решения, можно выбрать наиболее подходящий вариант.

Методология и методы исследования. При выполнении работы использовались основные положения и методы теории нечетких множеств и отношений, теории графов, дискретной математики, нечеткого моделирования.

Область исследования. Тематика работы соответствует п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях .» специальности 05.13.17 — «Теоретические основы информатики» Паспорта специальностей.

Степень достоверности и апробация работы. Теоретические выводы, приведенные в диссертации, обоснованы корректным использованием математического аппарата, подтверждены вычислительным экспериментом, который проводился с использованием разработанного программного комплекса. Научные результаты докладывались и обсуждались на научных конференциях профессорско-преподавательского состава, аспирантов и студентов Воронежского государственного университета, на Международных конференциях «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2010, 2011, 2012 гг.).

Публикации. Основные результаты диссертации опубликованы в 7 научных работах, в том числе 4 — в изданиях, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве, лично соискателю принадлежит: в [38] - теоретический анализ и выводы относительно влияния типа транзитивности на структуру деревачастично структурные и количественные характеристики декомпозиционного деревав [39, 41] -вывод формул и проведение экспериментальных расчетовв [40, 44] -проведение вычислительного эксперимента и его анализ для смешанных типов данныхв [43] - вариант корректирующей процедуры для отношения сходства.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложения. Основная часть работы изложена на 131 страницах текста и содержит 51 рисунков и 13 таблиц. В Приложение вынесены результаты вычислительного эксперимента.

Выводы по третьей главе:

1. Наличие разнородной, смешанной исходной информацией является особенностью многих задач, в которых требуется разбить множество объектов на группы схожих в некотором смысле. Для большинства типов информации предложены меры сходства/несходства, основанные на функциях расстояния. Это позволяет сформировать нечеткое отношение сходства/несходства, которое представляет собой исходную информацию для метода декомпозиционного дерева.

2. Для нечетких трапециевидных чисел вычислена функция подобия, которая, по сути, представляет собой скалярный индекс для сравнения нечетких множеств, и учитывает все возможные случаи расположения нечетких чисел на числовой прямой. Проведенный вычислительный эксперимент показал, что использование функции подобия вместо функций расстояния для формирования отношения несходства позволяет устранить «жесткость» (тах-тт) -композиции при переходе к отношению различия.

3. Если компоненты являются лингвистическими, то целесообразно использовать специальные функции расстояния для лингвистических шкал, на основе которых формируется отношение сходства/несходства для метода декомпозиционного дерева. Результаты вычислительного эксперимента полностью подтвердили его пригодность для формирования классов.

4. Если векторные оценки объектов содержат компоненты, относящиеся к различным типам информации, то расстояние между ними предлагается вычислять по формуле +) + (х, х), ч J / п п п 4 ' где п, п", п оипт, и, — число количественных, нечетких и лингвистических кия нач, липе компонентП — общее число компонент, Бко, (х, х/), Бпеч (х1,х1), 51Ш1г (х1,х/) нормированные расстояния между соответствующими разнородными компонентами векторных оценок объектов х, и Данный подход реализован в программном комплексе, который описывается в главе 4.

ГЛАВА 4. ОПИСАНИЕ ПРОГРАММНОГО КОМПЛЕКСА «COMPOUND FUZZY DISTANCE».

4Л. Структура программного комплекса.

В программном комплексе «Compound Fuzzy Distance» реализованы алгоритмы, разработанные в рамках диссертационного исследования. Программный комплекс «Compound Fuzzy Distance» состоит из двух частей:

• инвариантной части, содержащей алгоритмы вычисления расстояний для различных типов, алгоритмы преобразования матриц в соответствии с мерами нечеткой классификации, все описания базовых классов, используемых в приложении.

• проблемно-ориентированной части, предназначенной для решения определенных прикладных задач и состоящей из следующих модулей: механизм, предоставляющий доступ к базе данных, механизм динамического построения декомпозиционного дерева со множеством вариативных параметров.

Перечислим основные модули программного комплекса в табл. 4.1:

ЗАКЛЮЧЕНИЕ

Метод декомпозиционного дерева, рассмотренный в диссертации, относится к перспективным методам кластеризации, поскольку исходная информация для него формируется в виде нечеткого бинарного отношения сходства/несходства, которые можно построить с использованием функций расстояния, функций подобия и других индексов сравнения, применимых для различных типов данных. Если векторные оценки объектов содержат компоненты, относящиеся к различным типам данных, то можно вычислить виде взвешенной суммы расстояний между компонентами одно типа, причем весовой коэффициент учитывает количество компонент данного типа. Чтобы в этом случае получить матрицу отношения несходства необходимо использовать нормированные расстояния. Проведенные вычислительные эксперименты показали приемлемость и эффективность предложенного подхода. Его достоверность подтверждается обоснованием возможности использования метода для нечеткой и лингвистической информации. Выведены формулы для вычисления функции подобия для нечетких трапециевидных чисел, позволяющие вычислять сходство объектов на основе параметров функций принадлежности. Вычислительные эксперименты продемонстрировали преимущества использования функции подобия, если метод предполагает максминную транзитивность.

Таким образом, в диссертации получены следующие основные результаты:

1. Проанализированы подходы к решению задачи нечеткой классификации, выявлены преимущества и направления развития метода декомпозиционного дерева. Проведено исследование зависимости структуры дерева от типа треугольной нормы, значения параметров и способов формирования отношения сходства/несходства.

2. Предложен набор количественных и структурных характеристик декомпозиционного дерева, позволяющий сравнивать результаты нечеткой классификации.

3. Предложена корректирующая процедура, которая за счет усиления степени сходства позволяет повысить достоверность метода.

4. Для нечетких чисел выедены формулы для вычисления функции подобия и предложен подход для формирования отношения сходства для объектов, векторные оценки которых содержат числовую, нечеткую и лингвистическую информацию.

5. Разработан программный комплекс, позволяющий реализовать различные схемы метода декомпозиционного дерева на основе управления процессом классификации с помощью параметров.

Показать весь текст

Список литературы

Аверкин А.Н. Параметрические логики в интеллектуальных системах управления / А. Н. Аверкин, И. Н. Федосеева. М.: Вычислительный центр РАН, 2000. — 121 с.
Айвазян С.А. Прикладная статистика и основы эконометрики / С. А. Айвазян, B.C. Мхитарян. М.: ЮНИТИ, 1998. — 1022 с.
Айвазян С.А. Классификация многомерных наблюдений / С. А. Айвазян, З. И. Бежаева, О. В. Староверов. М.: Изд-во «Статистика», 1974. -238с.
Алгоритм Борувки: сайт. URL: http://cendomzn.ucoz.ru/index /13 358/ (дата обращения: 17.03.2013).
Андерсон Д. Дискретная математика и комбинаторика./ Пер. с англ. М. М. Беловой. М. Издательский дом Вильяме. 2004. — 958 с.
Буховец А.Г. Об одном подходе к задаче классификации / А. Г. Буховец // Социология: методология, методы, математические модели. -2004. -№ 18. -С. 82−105.
Буховец А.Г. Определение числа классов в задачах кластерного анализа методом имитационного моделирования / А. Г. Буховец, Т. Г. Долганова // Математика: Математическое образование. Матер. Междунар. конф. Воронеж, 26−30 мая 2003. Воронеж, 2003. — С. 83−86.
Бююль A. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей/ А. Бююль, П. Цефель. СПб.: ДиаСофтЮП, 2002, — 608 с.
Гайдышев И. Анализ и обработка данных: специальный справочник / И. Гайдышев. СПб.: Питер, 2001. — 762 с.
Галушкин А. И. Нейронные сети. Основы теории / А. И. Галушкин М.: Горячая Линия — Телеком, 2012. — 496 с.
Гитис J1.X. Кластерный анализ в задачах классификации, оптимизации и прогнозирования / JT.X. Гитис. М.: Изд-во Москов. гос. горного ун-та, 2001. 104 е.,
Городецкий А. Е. Нечеткие множества в моделях управления и искусственного интеллекта / А. Е. Городецкий, А. А. Ерофеев, А. Ю. Жуйков // Под ред. Поспелова Д. А. М.: Наука, 1986. 312 с.
Демидова JI.A. Методы кластеризации в задачах оценки технического состояния зданий и сооружений в условиях неопределенности / JI.A. Демидова, Е. И. Коняева. М.: Горячая Линия — Телеком, 2012. — 156 с.
Дубров A.M. Многомерные статистические методы / A.M. Дубров, B.C. Мхитарян, Л. И. Трошин. М.: Финансы и статистка, 2000. — 352 с.
Дюк В. Data Mining: учебный курс / В. Дюк, А. Самойленко. СПб.: Питер, 2001.-368 с.
Дюран Б. Кластерный анализ / Б. Дюран, П. Оделл. М.: Статистика, 1977. — 128 с.
Елисеева И.И. Группировка, корреляция, распознавание образов: Статистические методы классификации и измерения связей / И. И. Елисеева, В. О. Рукавишников. М.: Статистика, 1977. — 143с.
Жамбю М. Иерархический кластер-анализ и соответствия: Пер. с фр. / М. Жамбю М.: Финансы и статистика, 1988. — 342с.
Загоруйко Н.Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. Новосибирск: ИМ СО РАН, 1999. — 148 с.
Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений / Л. Заде // Перевод с английского Н. И. РИНГО. Под редакцией Н. Н. Моисеева и С. А. Орловского М.: Мир, 1976.- 168 с.
Зиновьев А.Ю. Визуализация многомерных данных / А. Ю. Зиновьев.- Красноярск: Изд-во Красноярского гос. техн. ун-та, 2000. 180 с.
Каплиева H.A. Исследование различных типов транзитивности в приложении к нечеткой классификации / H.A. Каплиева, Т. М. Леденева // Вестник Воронежского государственного университета. Сер. Физика. Математика. 2006. — № 2. — С. 206−216
Кластеризация категорийных данных: масштабируемый алгоритм CLOPE: сайт. URL: http://www.basegroup.ru/library/analysis/clusterization/ elope/ (дата обращения: 17.03.2013).
Кофман А. Введение в теорию нечетких множеств / А. Кофман. -М.: Радио и связь, 1982. 432 с.
Крянев A.B. Математические методы обработки неопределенных данных / A.B. Крянев, Г. В. Лукин. М.: ФИЗМАТЛИТ, 2003. — 216 с.
Леденева Т.М. Моделирование процесса агрегирования целей в целенаправленных системах / Т. М. Леденева Воронеж: Изд-во ВГТУ, 1999.- 155 с.
Леденева Т.М. Обработка нечеткой информации : учебное пособие / Т. М. Леденева — Воронеж, гос. ун-т. Воронеж: ИПЦ ВГУ, 2006 .— 233 с.
Леденева Т.М. Специальные главы математики. Прикладные дискретные модели: учебное пособие / Т. М. Леденева. Воронеж: Изд-во ВГТУ, 2000. — 98 с.
Леденева Т.М. Транзитивность как особое свойство нечетких отношений / Т. М. Леденева, H.A. Каплиева- Воронеж, ун-т. Воронеж, 2006. -51 с.-Деп. В ВИНИТИ 07.12.2006, № 1523-В2006.
Мандель И. Д. Кластерный анализ / И. Д. Мандель. М.: Финансы и статистика, 1988. — 176 с.
Марманис X., Бабенко Д. Алгоритмы интеллектуального Интернета / X. Марманис, Д. Бабенко. Издательство: М.: Символ-Плюс, Переплет: мягкий- 480 страниц- 2011 г.
Метод ближайшего соседа или метод одиночной связи: сайт. -URL: http://www.machineleaming.ru/wiki/index.php?title=KNN/. http://www. aiportal.ru/articles/autoclassification/single-link.html/ (дата обращения: 16.03. 2013).
Метод взвешенного попарного среднего WPGMA: сайт. — URL: http://www.aiportal.ru/articles/autoclassification/wpgma.html/ (дата обращения: 16.03.2013).
Методы кластерного анализа. Итеративные методы: сайт. URL: http://www.intuit.ru/department/database/datamining/14/ (дата обращения: 16.03.2013).
Метод наиболее удаленных соседей или метод полной связи: сайт. URL: http://www.aiportal.ru/articles/autoclassification/complete-link.html/ (дата обращения: 16.03.2013).
Метод невзвешенного попарного среднего UPGMA: сайт. — URL: http://www.aiportal.ru/articles/autoclassification/upgma.html/ (дата обращения: 16.03.2013).
Нгуен Н. X. О влиянии функции подобия на результаты нечеткой классификации / Н. X. Нгуен, Т. М. Леденева // Информационные технологии: научно-технический журнал. М.: Новые технологии, 2011. — № 11.С. 15−23
Нгуен Н. X. О вычисление функции подобия для нечетких чисел / Н. X. Нгуен, Т. М. Леденева // Научно-теоретический журнал. Белгород: Вестник БГТУ им. В. Г. Шухова, 2011. — № 4. С. 177 — 182
Нгуен Н. X. О представлении информации в задачах классификации / Т. М. Леденева, Н. X. Нгуен // Вестник Воронежского государственного технического университета. Воронеж: 2012 — Т.8, № 7.1 — С. 33−38
Нечеткие множества и теория возможностей. Последние достижения: Пер. с англ. / Под ред. P.P. Ягера. М.: Радио и связь, 1986.. -408 с.
Нейский И.М. Классификация и сравнение методов кластеризации / И. М. Нейский // Интеллектуальные технологии и системы: сб. статей. М.: НОК «CLAIM», 2006. — С. 130−142.
Омельченко В.В. Общая теория классификации. Часть 2. Теоретико-множественные основания /В.В. Омельченко. М.: Либроком, 2010.-296 с.
Патрик Э. Основы теории распознавания образов: Пер с англ./ Под ред. Б. Р. Левина М.: Сов. Радио, 1980. — 408 с.
Пегат А. Нечеткое моделирование и управление / А. Пегат М.: БИНОМ, Лаборатория знаний, 2009. — 798 с.
Погосян К.С. Согласование лингвистических экспертных оценок в процедуре группового выбора / К. С. Погосян, Т. М. Леденева // Вестник ВГУ, Серия: Системный анализ и информационные технологии. 2010. — № 2 с. 125−130
Презентация на тему: «Метод Варда.»: сайт. URL: http://www.myshared.ru/slide/214 831Аhttp://en.wikipedia.org/wiki/Ward'smethod/ (дата обращения: 16.03.2013).
Прикладная статистика. Классификация и снижение размерности / С. А. Айвазян и др. М.: Финансы и статистика, 1989. — 607 с.
Прикладные нечеткие системы / Под ред. Т. Тэрано, К. Асаи, М. Сугэно. М.: Мир, 1993.-368 с.
Роберте Ф.С. Дискретные математические модели с приложениями к социальным, биологическим и экономическим задачам / Ф. С. Роберте М.: Наука, Гл. ред. Физ.-мат. Лит., 1986. — 496 с.
Симчера В.М. Методы многомерного анализа статистических данных / В. М. Симчера. М.: Финансы и статистика, 2008. — 400 с.
Субботин А.Л. Классификация / А. Л. Субботин. М.: ИФРАН, 2001.-90 с.
Татарова Г. Г. Качественные методы в структуре методологии анализа данных / Г. Г. Татарова // Социология: методология, методы, математические модели, 2002. № 14. С. 33−52.
Типология и классификация в социологических исследованиях: Отв. ред. В. Г. Андреенков, Ю. Н. Толстова М.: Наука, 1982. — 296с.
Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего соседа / В. О. Толчеев // Приложение к журналу «Информационные технологии». 2005. № 3., С. 1−32.
Тюрин Ю.Н. Анализ данных на компьютере / Ю. Н. Тюрин, А. С. Макаров. М.: ИНФРА-М, 2003. — 544 с.
Факторный, дискриминантный и кластерный анализ / Ким Дж.-О., Мюллер Ч. У., Клекка У. Р. М.: Финансы и статистика, 1989. — 216 с.
Халафян А.А. STATISTICA 6. Статистический анализ данных / А. А. Халафян. М.: ООО «Бином-Пресс», 2010. — 528 с.
Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. Пособие / Н. Г. Ярушкина. М.: Финансы и статистика, 2004. — 320 с.
Agglomerative Nesting (AGNES): сайт. URL: http://www.unesco.org/webworld/idams/advguide/Chapt7l4.htm/ (дата обращения: 19.03.2013).
An Introduction to Cluster Analysis for Data Mining: сайт. URL: http://www.cs.umn.edu/~han/dmclass/clustersurvey100200.pdf (дата обращения: 19.03.2013).
Belacel N. Multicriteria fuzzy classification procedure PROCFTN: methodology and medical application / N. Belacel, N.R. Boulessels // Fuzzy Set and Systems, 2004. -№ 141. pp. 203−217.
Billard L. Symbolic Data-Analyses: Conceptual Statistics and Data mining // L. Billard, E. Diday 2006. John Wiley and Sons.
BIRCH: Balanced Iterative Reducing and Clustering using Hierarchies. Tian Zhang, Raghu Ramakrishnan, Miron Livny. Presented by Zhao Li 2009, Spring.
Blumenthal J. Weighted centroid localization in Zigbee-based sensor networks / J. Blumenthal and oth. in Proc. IEEE WISP, Madrid, Spain, EU, Oct.3.5, 2007.
Diday E. The symbolic approach in clustering, in: H.H. Bock (Ed.), Classication and Related Methods of Data Analysis, North-Holland, Amsterdam, 1988.
Divisive Analysis (DIANA): сайт. URL: http://www.unesco.org /webworld/idams/advguide/Chapt7 1 5. htm (дата обращения: 19.03.2013).
Ganti V. CACTUS Clustering Categorical Data Using Summaries / V. Ganti, J. Gerhke, R. Ramakrishan. In Proc KDD'99, 1999.
Guha S. CURE: An Efficient Clustering Algorithm for Large Databases / S. Guha, R. Rastogi, K. Shim. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1998.
Hoppner F. Fuzzy Cluster Analysis / F. Hoppner and oth. Wiley &Sons. LTD, 1999. 288 pp.
Ishibuchi H. Comparison of Heuristic Criteria for Fuzzy Rule Selection in Classification Problems / H. Ishibuchi, T. Yamamoto.// Fuzzy Optimization and Decision Making, 2002. № 3, pp.119−139.
J. Bilmes. A Gentle Tutorial on the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models / J. Bilmes., Tech. Report ICSI-TR-97−021, 1997
Kaufman L. Finding Groups in Data: An Introduction to Cluster Analysis PDF / L. Kaufman, P.J. Rousseeuw. Hoboken, New Jersey: John Wiley & Sons, Inc., 2005. 355 pages
Kuncheva L.I. Fuzzy Classifier Design / L.I. Kuncheva. Physica-Verlag, Heidelberg, 2000. 245 p.
Liu B. Integrating Classification and Association Rule Mining / B. Liu, W. Hsu, Y. Ma. KDD-98, New York, 1998N.
Parpinelli R.S. Data mining with an ant colony optimization algorithm / R.S. Parpinelli, H.S. Lopes, A.A. Freitas // IEEE Transactions on Evolutionary Computing, 6(4): 321−332, 2002.
Soukup T. Visual Data Mining: Techniques and Tools for Data Visualization and Mining / T. Soukup, I. Davidson. T. John Wiley &Sons. LTD, 1999.-288 pp.
Sudipto Guha CURE: A clustering algorithm for large databases / Sudipto Guha, R. Rastogi, and K. Shim Technical report, Bell Laboratories, Murray Hill, 1997.
Tran D. Fuzzy Entropy clustering/ D. Tran, M. Wagner / Fuzzy systems, 2000/ The Ninth IEEE International Conference, 4: 152−157, 2000.
Tsai C.F. A new data clustering approach for data mining in large databases / C.F. Tsai, H.C. Wu, C.W. Tsai // Parallel Architectures, Algorithms and Netwoks, 2002, I-SPAN'02 Proceedings International Symposium, pp.278
Weiqing J. Fuzzy classification based on fuzzy association rule mining / J. Weiqing // A dissertation submitted to the Graduate Faculty of North Carolina State University, Raleigh, NC, 2004.
Yang M. S. Fuzzy clustering algorithms for mixed feature variables / M. S. Yang, P. Y. Hwang, D. H. Chen // Fuzzy Set and Systems, 2004. № 141. — pp. 301−317.
Yang Y. CLOPE: A fast and Effective Clustering Algorithm for Transactional Data / Y. Yang, H. Guan, J. You. In Proc. of SIGKDD'02, July 23−26, 2002, Edmonton, Alberta, Canada.
Zhang T. BIRCH: An Efficient Data Clustering Method for Large Databases / T. Zhang, R. Ramakrishnan, M. Livny. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1996.283.

Заполнить форму текущей работой