Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Содержание

1. СОПРОВОЖДЕНИЕ БАЗ ДАННЫХ КОРПОРАТИВНОГО УРОВНЯ И СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ
- 1. 1. Обзор особенностей сопровождения баз данных корпоративного уровня
- 1. 2. Анализ современных методов аналитической обработки данных
- 1. 3. Обзор сфер применения технологии интеллектуального анализа данных
Выводы по главе 1
2. АНАЛИЗ МЕТОДОВ ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ, РАЗРАБОТКА МЕТОДОВ РЕАЛИЗАЦИИ И СТРУКТУР ДАННЫХ
- 2. 1. Алгоритмы поиска устоявшихся ассоциаций в данных
  - 2. 1. 1. Алгоритм Aprior
  - 2. 1. 2. Методы оптимизации алгоритма Aprior
    - 2. 1. 2. 1. Алгоритм «Разбиение»
    - 2. 1. 2. 2. Алгоритм «Выборочный анализ»
    - 2. 1. 2. 3. Алгоритм «Динамический подсчет наборов»
- 2. 2. Разработка методов реализации алгоритмов в реляционных
СУБД
- 2. 2. 1. Проблемы реализации алгоритмов поиска устоявшихся ассоциаций в данных
- 2. 2. 2. Структура исходных данных
- 2. 2. 3. Разработка структур рабочих и результирующих данных
- 2. 2. 4. Реализация алгоритмов и служебных функций
- 2. 3. Сравнительный анализ алгоритмов
- 2. 3. 1. Условия и методы сравнительного анализа
- 2. 3. 2. Анализ сравнительных характеристик работы алгоритмов
Выводы по главе 2
- 3. ОПЕРАТИВНОЕ ОБНАРУЖЕНИЕ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ
- 3. 1. Задача оперативного обнаружения устоявшихся ассоциаций в данных
- 3. 2. Разработка методов реализации оперативной обработки данных
- 3. 3. Параметры обработки и оценка результатов
Выводы по главе 3
- 4. РАЗРАБОТКА РЕАЛИЗАЦИИ ОПЕРАТИВНОГО ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ ДЛЯ СОПРОВОЖДЕНИЯ РБД АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ОПЕРАТИВНОГО ДИСПЕТЧЕРСКОГО УПРАВЛЕНИЯ ООО «ПЕРМТРАНСГАЗ»
- 4. 1. Особенности реализации базы данных системы оперативного диспетчерского управления
- 4. 2. Сбор исходных статистических данных использования БД
- 4. 3. Обработка статистических данных использования БД
- 4. 4. Анализ результатов обработки данных
Выводы по главе 4

Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня (реферат, курсовая, диплом, контрольная)

Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на всех уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления, их подразделения технического и программного обеспечения накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

Большие объемы и сложность потоков оперативной и статистической информации предполагают использование мощных систем управления базами данных (СУБД) [7], а также мощных серверов или их групп. На современном этапе развития, наиболее распространенные реляционные СУБД [7,15,22,51,52] позволяют хранить и обрабатывать миллиарды записей, выполнять параллельные вычисления, работать с распределенными базами данных (БД), предоставляют мощный инструментарий обработки данных, умелое использование которого может обеспечить значительное повышение производительности выполняемых задач. Но простое накопление и хранение данных, реализуемое в первую очередь, далеко не исчерпывает возможностей технологии баз данных.

Получив в конце 20-го века мощный инструментарий множество организаций, фирм и частных лиц накопили огромные объемы данных и возник логичный вопрос, что с ними делать и как с ними работать. Наиболее естественным и перспективным решением является аналитическая обработка накопленных данных, т.к. накопленные данные могут скрывать в себе множество ранее не выявленных знаний, которые могут оказаться чрезвычайно полезны в самых различных областях деятельности, а так же позволить проверить существующие знания. При этом объемы данных так велики, а зависимости так сложны, что их ручная обработка практически стала невозможна (человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации и не способен улавливать более двух-трех взаимосвязей даже в небольших выборках данных).

Автоматизация аналитической обработки данных имеет огромное значение для всех областей жизнедеятельности человека (стратегическое и бизнес планирование, исходная информация для систем принятия решений и управления, накопление информации для экспертных систем, основа самообучающихся систем, моделирование и проектирование, диагностика, мониторинг и многое другое). Автоматизация может снизить стоимость данных операций в тысячи раз, сократив труд экспертов, а также значительно повысить ценность получаемых данных за счет оперативности и достоверности. По оценкам экспертов и имеющимся примерам внедрения подобных технологий отдача может достигать 1000% [17].

В последние годы в мире оформился ряд взаимодополняющих концепций хранения и анализа данных. Наиболее эффективными и распространенными являются: оперативная аналитическая обработка (online analytical processing, OLAP) [29,43,53], хранилища данных (data warehouse) [19,28,65,23,51], интеллектуальный анализ данных (НАД) [14] или добыча данных (data mining) [24,57,67,77,80,92]. Все они занимают некоторую нишу на рынке информационных технологий и, в силу своих функциональных различий, и взаимодополнения по сферам применения, вероятнее всего, продолжат параллельно существовать и в дальнейшем.

Тем не менее, стремительно развивающийся сектор аналитической обработки данных, растущие объемы потоков данных и их интенсивность, объемы накопленных данных и сложность их структуры предъявляет все новые требования к методам анализа. В первую очередь, требования связаны с полнотой получаемой информации и снижением затрат на ее получения. Необходимо наиболее оперативно получать максимум информации, пригодной для аналитической обработки и принятия решений, как на основе накопленных данных, так и поступающих, своевременно реагировать на изменение тенденций и правил. В связи с этим возникает необходимость и в оперативном выявлении изменений в закономерностях, информация о которых может использоваться как в явном виде, так и для задания правил для прочих аналитических систем (например, OLAP — Оп-Line Transaction Processing). Как только на основе поступающих данных становится возможно говорить об изменениях в закономерностях и правилах, необходимо, чтобы эта информация становилась доступна, при этом выявление подобных изменений должно быть оптимизировано по затрачиваемым ресурсам. Растущие требования к масштабируемости аналитической обработки, полноте информации и оперативности извлечения новых знаний о закономерностях обосновывают выбор темы диссертации и ее актуальность.

Расширение области применения методов ИАД [8] в сторону оперативности кроет в себе огромный потенциал. Как правило, обработку данных с целью выявления правил выполняют с достаточно большой периодичностью, что связано с трудоемкостью и необходимостью обеспечения репрезентативности обрабатываемых данных. Методы же OLTP предусматривают обработку на основе заданных закономерностей и отношений, а не их выявление. Тем не менее, промежуточная информация об изменениях в выявленных ранее правилах, отклонениях и о появлении новых и краткосрочных (периодичных или апериодичных) закономерностях может быть также полезной. Она позволит реализовать большую гибкость и адекватность реальности информационно зависимых процессов. В частности, данные методы, в условиях эксплуатации развивающейся большой промышленной базы данных, позволят выявлять изменения в особенностях использования ресурсов и объектов БД и СУБД, трендах поведения пользователей и требований, структуре информационных потоков, выявлять закономерности в структуре транзакций, позволяющие анализировать особенности функционирования систем и т. п. по мере обретения ими значимости.

Предметом исследования являются методы автоматизации аналитической обработки [14,53] оперативных данных в промышленных реляционных БД фактографического типа [7,27,32]. В частности, решение задачи выявления устоявшихся ассоциаций в данных [8], которое позволит оперативно выявлять текущие изменения, обладает значительным потенциалом в области поддержки принятия решения и стратегического планирования.

Основным препятствием для реализации автоматизированного оперативного анализа данных являются затраты на обработку больших объемов данных сложной структуры, характерных для данного типа БД, с целью выявления закономерностей, что влечет за собой как снижение оперативности, так и отрицательное влияние на выполнение параллельных оперативных процессов. Следовательно, необходимы методы, позволяющие снизить объем вычислений и затраты ресурсов на обработку данных.

Целью исследования является повышение эффективности автоматизации обнаружения устоявшихся ассоциаций в данных [36,49,91] за счет обеспечения возможности обработки и учета поступающих оперативных данных в реляционных СУБД. Исходя из этого, основными задачами исследования являются:

1. Анализ существующих средств аналитической обработки данных и, в частности, методов ИАД и задач обнаружения устоявшихся ассоциаций в данных и проблем их реализации.

2. Анализ специфики оперативной обработки данных с целыо выявления устоявшихся ассоциаций в данных, области ее применения и основных требований к реализации.

3. Разработка методов реализации алгоритмов поиска устоявшихся ассоциаций в данных в рамках реляционных баз данных, включая разработку структуры рабочих данных и методов их обработки, выбор и обоснование формата входных данных, средств преобразования к требуемому формату.

4. Сравнительный анализ наиболее эффективных существующих алгоритмов поиска устоявшихся ассоциаций в данных, определение их достоинств и недостатков, выявление возможных путей оптимизации их выполнения.

5. Разработка методов, основанных на модификации и синтезе существующих алгоритмов, обеспечивающих возможности оперативного выявления изменений закономерностей в оперативных данных (в множестве устоявшихся ассоциаций). Обработка должна выполняться параллельно остальным процессам оперативной обработки данных, что накладывает дополнительные требования по минимизации затрат ресурсов вычислительной системы.

6. Разработка методов параметризации обработки данных и расширения атрибутики рабочих и результирующих данных, обеспечивающих возможность учета особенностей обработки данных и трактовку семантики получаемых данных.

7. Реализация программных модулей оперативного обнаружения ассоциаций для анализа данных аудита использования объектов промышленной БД пользователями и процессами.

Теоретическая значимость диссертации заключается в выполнении синтеза результатов современных исследований и разработок в области аналитической обработки данных, в части задач интеллектуального анализа данных [8], связанных с обнаружением устоявшихся ассоциаций в данных [40]. Существующие подходы к решению задач выявления закономерностей в данных [4], в частности, устоявшихся ассоциаций в данных, связаны с обработкой больших объемов ранее накопленных данных и требуют значительных затрат ресурсов на выполнение обработки, в следствие чего практически не пригодны для обработки поступающих в реальном времени данных с целью оперативного выявления происходящих изменений в закономерностях. В данной работе осуществляется попытка разработки методов, позволяющих осуществлять оперативное обнаружение изменений в тенденциях формирования наборов в данных при решении задач сопровождения промышленных БД корпоративного уровня.

Научная новизна работы заключается в:

• выполнении сравнительного анализа ряда современных, масштабируемых алгоритмов поиска устоявшихся ассоциаций в данных, определение их достоинств и недостатков, выявлении возможности оптимизации выполнения алгоритмов;

• разработке алгоритма оперативного обнаружения устоявшихся ассоциаций в данных, позволяющего выявлять значимые изменения в тенденциях формирования наборов по мере их появления;

• разработке методов параметризации обработки данных, позволяющих учитывать широкий спектр особенностей реализации и использования, и расширения возможностей толкования семантического значения получаемых данных за счет расширения спектра атрибутов рабочих и результирующих данных;

• разработке методов использования предложенных алгоритмов и методов для автоматизации аналитической обработки данных аудита использования объектов БД в рамках выполнения задач сопровождения БД корпоративного уровня, разработке и апробации элементов ИС.

Разработанные алгоритмы и методы расширяют возможности выявления и анализа тенденций и закономерностей [40], в частности, анализа физической реализации базы данных и информационных систем [18], с точки зрения выполняемых задач обработки данных, сокращают затраты ресурсов на выполнение анализа, автоматизируют процесс мониторинга использования базы данных, повышают качество информационного обслуживания администраторов.

В практическом плане ценность диссертации заключается в разработке и апробации методик реализации оперативного обнаружения устоявшихся ассоциаций в данных аудита [23] использования объектов БД для осуществления анализа релевантности физической структуры данных, выявления трендов поведения пользователей и прикладных систем и отклонений от них. Результаты, полученные в диссертации, доведены до практического использования в предприятиях нефтегазовой промышленности. Разработан программный комплекс, позволяющий в интерактивном режиме получать оперативные данные об использовании объектов базы данных для принятия решений по перепроектированию и модификации физической структуры БД, настроек СУБД, программных комплексов и обеспечению безопасности и сохранности данных.

Разработанные методы и алгоритмы прошли апробацию и внедрены для практического применения в ЗАО"АтлантикТрансгазСистема", 000"Пермтрансгаз", а также используются в учебном процессе в МАДИ (ГТУ).

Диссертационная работа состоит из введения, 4-х глав основного текста, заключения, списка литературы, состоящего из 91-го наименования и приложения.

Выводы по главе 4.

1. Реализация программного комплекса, осуществляющего обработку данных аудита использования объектов БД системы оперативного диспетчерского управления ООО «Пермтрансгаз» посредством предложенного алгоритма оперативного обнаружения устоявшихся ассоциаций в данных, позволяет судить как об эффективности алгоритма, так и о целесообразности его использования для автоматизации выполнения аналитических задач при сопровождении БД корпоративного уровня. При уровне затрат ресурсов, потребовавшихся для выполнения обработки, позволяющем использовать данный алгоритм в фоновом режиме, может осуществляться обработка, позволяющая в кротчайшие сроки выявлять значимые изменения в закономерностях группирования элементов, что чрезвычайно актуально в условиях быстро меняющихся параметров использования БД.

2. При сопровождении промышленной БД, использование предложенной программной реализации позволило эффективно автоматизировать аналитическую обработку данных об использовании групп объектов БД и повысить ее продуктивность за счет подготовки данных, более пригодных для проведения аналитической обработки, и снижения затрат человеческих и вычислительных ресурсов на ее выполнение. При минимальных затратах человеческих и вычислительных ресурсов, был проведен анализ, позволивший значительно повысить производительность ряда систем, работающих с БД.

3. За счет реализации возможности варьировать параметры обработки и введения дополнительной справочной информации о выявляемых наборах, расширяется область применения и степень автоматизации аналитической обработки.

ЗАКЛЮЧЕНИЕ

В итоге выполнения диссертации были получены следующие основные результаты, определяющие ее научную новизну и практическую значимость:

1. Выполнен анализ наиболее эффективных, с точки зрения реализации в рамках СУБД корпоративного уровня, масштабируемых алгоритмов поиска устоявшихся ассоциаций в данных. Выявлены основные особенности алгоритмов, влияющие на производительность.

2. Разработаны методы реализации и обработки структуры рабочих данных, представляющих хеш-дерево, позволяющие повысить скорость обработки данных о выявляемых наборах. В частности, использованы методы повышения скорости навигации по узлам и поиска узлов, применяемые в иерархических БД.

3. Выполнен анализ зависимости времени выполнения предложенных реализаций алгоритмов от объема исходных данных и величины порогового обеспечения. По результатам анализа сделаны выводы об эффективности алгоритмов и использованных методов реализации, а также предложено обоснование основных показателей и сформулированы рекомендации по областям использования и методам реализации.

4. Разработан алгоритм оперативного обнаружения устоявшихся ассоциаций в данных, эффективно использующий ресурсы вычислительной системы, что позволяет ускорить обработку и снизить негативное влияние на прочие процессы оперативной обработки данных, выполняемые параллельно.

5. Разработаны методы параметризации обработки данных и расширения атрибутики рабочих и результирующих данных, обеспечивающие возможность учета особенностей обработки данных и особенностей предметной области при трактовке семантики получаемых данных.

6. На основе разработанных алгоритмов и методов реализован программный комплекс автоматизации сопровождения фактографической промышленной БД в части анализа данных аудита использования объектов БД и трендов поведения пользователей. Программный комплекс позволил выявлять изменения в тенденциях использования объектов БД и выполнении групп операций по обработке данных, и снизить затраты на сопровождение БД, реализацию и апробацию автоматизированных систем, использующих БД. Комплекс был внедрен в ЗАО «АтлантикТрансгазСистема», ООО «Пермтрансгаз», а также используется в учебном процессе в МАДИ (ГТУ).

Показать весь текст

Список литературы

Арагон Л. Долой грязь! // PC Week/RE, — 1998. — № 6, — С. 53−54
Вайну Я.Я.-Ф. Корреляция рядов динамики. М: Статистика, 1977. — 119с.
Вирт Н. Алгоритмы + структуры данных = программы: Пер. с англ. — М.: Мир, 1985.-406 с.
Ганти Венкатеш, Герке Йоханнес, Рамакришнан Раджу. Добыча данных в сверхбольших базах данных // Открытые системы. 1999. — № 9−10.
Гик Дж., ван. Прикладная общая теория систем. — М.: Мир, 1981.
Грабер М. Справочное руководство по SQL: Пер. с англ. М.: ЛОРИ, 1997. ISBN 5−85 582−022-Х.
Дейт К. Дж. Введение в системы баз данных: издание 7.- М.: Вильяме, 2001.-848с.
Дюк В., Самойленко A. Data Mining: учебный курс. СПб.: Питер, 2001.- 366 с.
Дюран Б., Оделл П. Кластерный анализ: Пер. с англ. — М: Статистика, 1977.- 128 с.
Ю.Жамбю М. Иерархический кластер-анализ и соответствия: Пер. с франц.- М.: Финансы и статистика, 1988. 342 с.
Кириллов В.В. Структуризованный язык запросов (SQL). СПб.: ИТМО, 1994.-80 с.
Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. — № 4. — С. 41- 44.
Коннолли Т., Бегг К., Страчан А. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. — М.: Вильяме, 2001. -1120с.
Корнеев В.В., Гареев А. Ф., Васютин С. В., Райх В. В. Базы данных. Интеллектуальная обработка информации. // М.: Нолидж, 2001
Кодц Е.Ф. Реляционная модель данных для больших совместно используемых банков данных // СУБД. 1995. — № 1. — С. 145−160.
Кравчук В.А. и др. Введение в Oracle PL/SQL. К.: Издательство «ДиаСофт». 1998.-400 с.
Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных // ComputerWeek-Москва, 1997. — № 14−15. — С. 32−39.
Крейг С. Маллинс. Администрирование баз данных. Полное справочное руководство по методам и процедурам. М.: Кудиц-образ. 2003. — 752с.
Кузнецов С.Д., Артемьев В. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (Data Warehouse) // 3-я ежегодная конференция Корпоративные базы данных '98: Доклады и тезисы/Центр информационных технологий. М., 1998.-С. 153−161.
Мандель И.К. Кластерный анализ. М.: Финансы и статистика, 1988. — 176 с.
Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир.-1980.-662 стр.
Мейер М. Теория реляционных баз данных. М.: Мир, 1987. — 608 с.
Пейдж Вильям Дж., Хьюз Натан, Остин Дэвиди др. Использование Oracle 8. К., М., СПб.: Издат. Дом «Вильяме», 1998. — 752с.
Прижиялковский В.В. Сложный анализ данных большого объема: новые перспективы компьютеризации // СУБД. — 1996. — № 4. — С. 71−83.
Раден Н. Данные, данные и только данные // ComputerWeek-Москва. -1996.-№ 8.-С. 28.
Райордан P.M. Основы реляционных баз данных. — М.: Русская редакция, 2001.-384с.
Ролланд Фред. Основные концепции баз данных. — М.: Вильяме, 2002. — 256с.
Сахаров Л.Л. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД — 1996. — № 5. С. 55−70.
Сахаров Л.Л. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // СУБД. 1996. — № 3. -С. 44−59.
Туо Дж. Инструменты для анализа информации на настольных ПК // ComputerWeek-Москва. 1996. — № 38. — С. 34−35,46.
Туо Дж. Каждому пользователю свое представление данных // ComputerWeek-Москва. — 1996. -№ 38. С. 1, 32−33.
Ульман Дж., Уцдом Дж. Введение в системы баз данных. — М.: Лори, 2000. 274с.
Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. — М.: Мир, 1992.-240 с.
Харрингтон Дж. Проектирование реляционных Баз Данных. Просто и доступно. М.: Лори, 2000. — 230с.
Эделстейн Г. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах // ComputerWeek-Москва.- 1996.-№ 16.-С. 32−33.
Agrawal R. and Srikant R. Fast algorithms for mining association rules. In Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994. P. 487 499.
Agrawal R. and Srikant R. Mining Sequential Patterns. In Proceedings of the 11th International Conference on Data Engineering, Taipei, Taiwan, 1995. P. 3−14.
Agrawal R. et al. Fast Discovery of Association Rules. Advances in Knowledge Discovery and Data Mining, Fayyad U.M. et al., eds., AAAI/MIT Press, Menlo Park, Calif., 1996, P. 307−328.
Agrawal R., Imilienski Т., and Svvami A. Database Mining: A perfomance Perspective. IEEE Transaction on Knowledge and Data Engineering, № 5(6): -december 1993. P. 914−925.
Agrawal R., Imilienski Т., and Swami A. Mining Association Rules between Sets of Items in Large Databases. Proc. of the ACM SIGMOD Int’l Conf. on Management of Data. May 1993. P. 207−216.
Agrawal R., Lin K., Sawhney S., and Shim K. Fast similarity search in the presence of noise, scaling and translation in time-series databases. In Proc. of the Int’l Conf. on Very Large DataBases (VLDB), 1995. P. 490−501.
Alalouf C. Hybrid OLAP. — St. Laurent, Canada: Speedware Corporation Inc., 1997.
An Introduction to Multidimensional Database Technology. Kenan System Corporation, 1995.
ANSI X3.135−1992, American National Standard for Information Systems -Database Language SQL, November, 1992.
Boulding К. E. General Systems Theory The Skeleton of Science // Management Science. 1956. — № 2.
Bradley P., Fayyad U., and Reina C. Scaling Clustering Algorithms to Large Databases. Proc. 4th Int’l Conf. Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Calif., 1998, P. 9−15.
Brand E., Gerritsen R. Data mining and Knowledge Discovery // DBMS. —1998.-№ 7.
Brin S., Motwani R., Silverstain C. Beyond Market Baskets: Generalizing Association Rules to Correlations. SIGMOD Conference. 1997. P. 265−276.
Brin S. et al. Dynamic Itemset Counting and Implication Rules for Market Basket Data. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1997, P. 255−264.5Q.CFO Vision. SAS Institute Inc., 1997.
Codd E. F. Л Relational Model of Data for Large Shared Databanks // Communications of the ACM. -v. 13.6, 1970. — P. 377−387.
Codd E.F. Relational database: a practical foundation for productivity // Communications of the ACM, v. 25.2. — 1982. — P. 109−117.
Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E.F. Codd & Associates, 1993.
Demarset M. Building the Data Mart. DBMS. 1994. — № 7. — P. 44−50.
Ester M. et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proc. 2nd Int’l Conf. Knowledge Discovery Databases and Data Mining, AAAI Press, Menlo Park, Calif., 1996, P. 226 231.
Fausett L. V. Fundamentals of Neural Networks: Architectures, Algorithms, and Applications. Englewood Cliffs, New Jersey: Prentice Hall, 1994. — P. 461.
Fayyad U.M. et al., eds. Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, Calif., 1996.
Frawley W.L., Piatetsky-Shapiro G., Matheus C.J. Knowledge discovery in database: An overview. Al Magazine. 1992. — № 13(3). — P. 57−70.
Fuernkranz J. A Brief Introduction to Knowledge Discovery in Databases // OEGAI Journal. 1995.-№ 14(4).-P. 14−17.
Ganti V. et al. Clustering Large Datasets in Arbitrary Metric Spaces. Proc. 15th Int’l Conf. Data Eng., IEEE CS Press, Los Alamitos, Calif., 1999, P. 502−511.
Gehrke J., Ramakrishnan R., and Ganti V. RainForest- a Framework for Fast Decision Tree Construction of Large Datasets. Proc. 24th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1998, P. 416−427.
Gray J. Chaudhuri S., Bosworth Л., etc. Data Cube: Л relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals // Data Mining and Knowledge Discovery. 1997. -№ 1. — P. 29−53.
Guha S., Rastogi R., and Shim K. CURE: An Efficient Clustering Algorithm for Large Databases. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1998, P. 73−84.
Harinarayan V., Rajaraman A., Ullman J.D. Implementing Data cubes efficiently // SIGMOD Conference. Montreal, CA, — 1996.
Inmon W.H. Building the Data Warehouse (Second Edition). — NY, NY: John Wiley, 1993.
Johnson Joe. Using Oracle Database Auditing to Tune Performance // Oracle magazine, November 1999.
Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? Tandem Computers Inc., 1996.
Kosko B. Neural Networks and Fuzzy Systems: A Dynamical System Approach to Machine Intelligence. Englewood Cliffs, New Jersey: Prentice Hall, 1992.-452 p.
Kramer S. Structural Regression Tree. — Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-95−35, 1995.
Kulkarni J., King R. Business Intelligence System and Data Mining. — SAS Institute Inc., 1996.
Mannila H., Toivonen H., and Verkamo A.I. Discovering Frequent Episodes in Sequences. Proc. 1st Int’l Conf. Knowledge Discovery Databases and Data Mining, AAAI Press, Menlo Park, Calif., 1995, P. 210−215.
Mannila H., Toivonen H. On an algorithm for finding all interesting sentences. In Cybernetics and Systems, Volume II, The Thirteenth European Meeting on Cybernetics and System Research, Vienna, Austria, April 1996. — P. 973−978.
Mehta M., Agrawal R. and Rissanen J. Sliq: A fast scalable classifier for data mining. March 1996. P. 18−32.
Meiton J. and Simon A.R., «Understanding The New SQL: A Comlete Guide», Morgan Kaufmann. 1993. '
Michie D., Spiegelhalter D.J., and Taylor C.C. Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK. 1994.
Mumick I.S., Quass D., Mumick B.S. Maintenance of Data Cubes and Summary Tables in a Warehouse. Standford University, Database Group. 1996.
Newquist H.P. Data Mining. The AI Metamorphosis // Database Programming and Design. 1996. — № 9.
Ng R.T. and Han J. Efficient and Effective Clustering Methods for Spatial Data Mining. Proc. 20th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1994. P. 144−155.
Park J.S., Chen M.-S., and Philip S.Y. An Effective HashBased Algorithm for Mining Association Rules. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York. 1995. P.175−186.
Parsaye K. A Characterization of Data mining technologies and Processes // The Journal of Data Warehousing. 1998. — № 1.
Parsaye K. Surveing Decision Support: New Realms of Analysis // Database Programming and Design. 1996. № 4. P. 26−33.
Pyne A. The SAS System and Web Integration. SAS Institute Inc. 1996.
Raden N. Star Schema. Santa Barbara, CA: Archer Decision Sciences, Inc. 1995−1996.
Ramaswamy S., Mahajan S., and Silbershatz A. On the Discovery of Interesting Patterns in Association Rules. Proc. 24th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1998. P. 368−379.
Silverstain C, Brin S., Motwani R., Ullman J.D. Scalable Techniques for Mining Causal Structures. Data Mining and Knowledge Discovery. 4(2/3). 2000. P. 163−192.
Srikant R. and Agrawal R. Mining generalized association rules. 1995. P. 407−419.
Toivonen H. Sampling Large Databases for Association Rules. Proc. 22nd Int’l Conf. Very Large Data Bases (VLDB), Morgan Kaufmann, San Francisco. 1996.-P. 134−145.
Tukey J. Exploratory Data Analysis. NY: McMillan. 1973.
Zhang Т., Ramakrishnan R., and Livny M. Birch: An Efficient Data Clustering Method for Large Databases. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York. 1996. P. 103−114.

Заполнить форму текущей работой