Разработка методов оперативного обнаружения устоявшихся ассоциаций в данных и их использование при сопровождении баз данных корпоративного уровня
Диссертация
Теоретическая значимость диссертации заключается в выполнении синтеза результатов современных исследований и разработок в области аналитической обработки данных, в части задач интеллектуального анализа данных, связанных с обнаружением устоявшихся ассоциаций в данных. Существующие подходы к решению задач выявления закономерностей в данных, в частности, устоявшихся ассоциаций в данных, связаны… Читать ещё >
Содержание
- 1. СОПРОВОЖДЕНИЕ БАЗ ДАННЫХ КОРПОРАТИВНОГО УРОВНЯ И СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ
- 1. 1. Обзор особенностей сопровождения баз данных корпоративного уровня
- 1. 2. Анализ современных методов аналитической обработки данных
- 1. 3. Обзор сфер применения технологии интеллектуального анализа данных
- Выводы по главе 1
- 2. АНАЛИЗ МЕТОДОВ ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ, РАЗРАБОТКА МЕТОДОВ РЕАЛИЗАЦИИ И СТРУКТУР ДАННЫХ
- 2. 1. Алгоритмы поиска устоявшихся ассоциаций в данных
- 2. 1. 1. Алгоритм Aprior
- 2. 1. 2. Методы оптимизации алгоритма Aprior
- 2. 1. 2. 1. Алгоритм «Разбиение»
- 2. 1. 2. 2. Алгоритм «Выборочный анализ»
- 2. 1. 2. 3. Алгоритм «Динамический подсчет наборов»
- 2. 1. Алгоритмы поиска устоявшихся ассоциаций в данных
- 2. 2. Разработка методов реализации алгоритмов в реляционных
- 2. 2. 1. Проблемы реализации алгоритмов поиска устоявшихся ассоциаций в данных
- 2. 2. 2. Структура исходных данных
- 2. 2. 3. Разработка структур рабочих и результирующих данных
- 2. 2. 4. Реализация алгоритмов и служебных функций
- 2. 3. Сравнительный анализ алгоритмов
- 2. 3. 1. Условия и методы сравнительного анализа
- 2. 3. 2. Анализ сравнительных характеристик работы алгоритмов
- 3. ОПЕРАТИВНОЕ ОБНАРУЖЕНИЕ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ
- 3. 1. Задача оперативного обнаружения устоявшихся ассоциаций в данных
- 3. 2. Разработка методов реализации оперативной обработки данных
- 3. 3. Параметры обработки и оценка результатов
- 4. РАЗРАБОТКА РЕАЛИЗАЦИИ ОПЕРАТИВНОГО ОБНАРУЖЕНИЯ УСТОЯВШИХСЯ АССОЦИАЦИЙ В ДАННЫХ ДЛЯ СОПРОВОЖДЕНИЯ РБД АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ОПЕРАТИВНОГО ДИСПЕТЧЕРСКОГО УПРАВЛЕНИЯ ООО «ПЕРМТРАНСГАЗ»
- 4. 1. Особенности реализации базы данных системы оперативного диспетчерского управления
- 4. 2. Сбор исходных статистических данных использования БД
- 4. 3. Обработка статистических данных использования БД
- 4. 4. Анализ результатов обработки данных
Список литературы
- Арагон Л. Долой грязь! // PC Week/RE, — 1998. — № 6, — С. 53−54
- Вайну Я.Я.-Ф. Корреляция рядов динамики. М: Статистика, 1977. — 119с.
- Вирт Н. Алгоритмы + структуры данных = программы: Пер. с англ. — М.: Мир, 1985.-406 с.
- Ганти Венкатеш, Герке Йоханнес, Рамакришнан Раджу. Добыча данных в сверхбольших базах данных // Открытые системы. 1999. — № 9−10.
- Гик Дж., ван. Прикладная общая теория систем. — М.: Мир, 1981.
- Грабер М. Справочное руководство по SQL: Пер. с англ. М.: ЛОРИ, 1997. ISBN 5−85 582−022-Х.
- Дейт К. Дж. Введение в системы баз данных: издание 7.- М.: Вильяме, 2001.-848с.
- Дюк В., Самойленко A. Data Mining: учебный курс. СПб.: Питер, 2001.- 366 с.
- Дюран Б., Оделл П. Кластерный анализ: Пер. с англ. — М: Статистика, 1977.- 128 с.
- Ю.Жамбю М. Иерархический кластер-анализ и соответствия: Пер. с франц.- М.: Финансы и статистика, 1988. 342 с.
- Кириллов В.В. Структуризованный язык запросов (SQL). СПб.: ИТМО, 1994.-80 с.
- Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. — № 4. — С. 41- 44.
- Коннолли Т., Бегг К., Страчан А. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. — М.: Вильяме, 2001. -1120с.
- Корнеев В.В., Гареев А. Ф., Васютин С. В., Райх В. В. Базы данных. Интеллектуальная обработка информации. // М.: Нолидж, 2001
- Кодц Е.Ф. Реляционная модель данных для больших совместно используемых банков данных // СУБД. 1995. — № 1. — С. 145−160.
- Кравчук В.А. и др. Введение в Oracle PL/SQL. К.: Издательство «ДиаСофт». 1998.-400 с.
- Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных // ComputerWeek-Москва, 1997. — № 14−15. — С. 32−39.
- Крейг С. Маллинс. Администрирование баз данных. Полное справочное руководство по методам и процедурам. М.: Кудиц-образ. 2003. — 752с.
- Кузнецов С.Д., Артемьев В. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (Data Warehouse) // 3-я ежегодная конференция Корпоративные базы данных '98: Доклады и тезисы/Центр информационных технологий. М., 1998.-С. 153−161.
- Мандель И.К. Кластерный анализ. М.: Финансы и статистика, 1988. — 176 с.
- Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир.-1980.-662 стр.
- Мейер М. Теория реляционных баз данных. М.: Мир, 1987. — 608 с.
- Пейдж Вильям Дж., Хьюз Натан, Остин Дэвиди др. Использование Oracle 8. К., М., СПб.: Издат. Дом «Вильяме», 1998. — 752с.
- Прижиялковский В.В. Сложный анализ данных большого объема: новые перспективы компьютеризации // СУБД. — 1996. — № 4. — С. 71−83.
- Раден Н. Данные, данные и только данные // ComputerWeek-Москва. -1996.-№ 8.-С. 28.
- Райордан P.M. Основы реляционных баз данных. — М.: Русская редакция, 2001.-384с.
- Ролланд Фред. Основные концепции баз данных. — М.: Вильяме, 2002. — 256с.
- Сахаров Л.Л. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД — 1996. — № 5. С. 55−70.
- Сахаров Л.Л. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // СУБД. 1996. — № 3. -С. 44−59.
- Туо Дж. Инструменты для анализа информации на настольных ПК // ComputerWeek-Москва. 1996. — № 38. — С. 34−35,46.
- Туо Дж. Каждому пользователю свое представление данных // ComputerWeek-Москва. — 1996. -№ 38. С. 1, 32−33.
- Ульман Дж., Уцдом Дж. Введение в системы баз данных. — М.: Лори, 2000. 274с.
- Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. — М.: Мир, 1992.-240 с.
- Харрингтон Дж. Проектирование реляционных Баз Данных. Просто и доступно. М.: Лори, 2000. — 230с.
- Эделстейн Г. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах // ComputerWeek-Москва.- 1996.-№ 16.-С. 32−33.
- Agrawal R. and Srikant R. Fast algorithms for mining association rules. In Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994. P. 487 499.
- Agrawal R. and Srikant R. Mining Sequential Patterns. In Proceedings of the 11th International Conference on Data Engineering, Taipei, Taiwan, 1995. P. 3−14.
- Agrawal R. et al. Fast Discovery of Association Rules. Advances in Knowledge Discovery and Data Mining, Fayyad U.M. et al., eds., AAAI/MIT Press, Menlo Park, Calif., 1996, P. 307−328.
- Agrawal R., Imilienski Т., and Svvami A. Database Mining: A perfomance Perspective. IEEE Transaction on Knowledge and Data Engineering, № 5(6): -december 1993. P. 914−925.
- Agrawal R., Imilienski Т., and Swami A. Mining Association Rules between Sets of Items in Large Databases. Proc. of the ACM SIGMOD Int’l Conf. on Management of Data. May 1993. P. 207−216.
- Agrawal R., Lin K., Sawhney S., and Shim K. Fast similarity search in the presence of noise, scaling and translation in time-series databases. In Proc. of the Int’l Conf. on Very Large DataBases (VLDB), 1995. P. 490−501.
- Alalouf C. Hybrid OLAP. — St. Laurent, Canada: Speedware Corporation Inc., 1997.
- An Introduction to Multidimensional Database Technology. Kenan System Corporation, 1995.
- ANSI X3.135−1992, American National Standard for Information Systems -Database Language SQL, November, 1992.
- Boulding К. E. General Systems Theory The Skeleton of Science // Management Science. 1956. — № 2.
- Bradley P., Fayyad U., and Reina C. Scaling Clustering Algorithms to Large Databases. Proc. 4th Int’l Conf. Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Calif., 1998, P. 9−15.
- Brand E., Gerritsen R. Data mining and Knowledge Discovery // DBMS. —1998.-№ 7.
- Brin S., Motwani R., Silverstain C. Beyond Market Baskets: Generalizing Association Rules to Correlations. SIGMOD Conference. 1997. P. 265−276.
- Brin S. et al. Dynamic Itemset Counting and Implication Rules for Market Basket Data. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1997, P. 255−264.5Q.CFO Vision. SAS Institute Inc., 1997.
- Codd E. F. Л Relational Model of Data for Large Shared Databanks // Communications of the ACM. -v. 13.6, 1970. — P. 377−387.
- Codd E.F. Relational database: a practical foundation for productivity // Communications of the ACM, v. 25.2. — 1982. — P. 109−117.
- Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E.F. Codd & Associates, 1993.
- Demarset M. Building the Data Mart. DBMS. 1994. — № 7. — P. 44−50.
- Ester M. et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proc. 2nd Int’l Conf. Knowledge Discovery Databases and Data Mining, AAAI Press, Menlo Park, Calif., 1996, P. 226 231.
- Fausett L. V. Fundamentals of Neural Networks: Architectures, Algorithms, and Applications. Englewood Cliffs, New Jersey: Prentice Hall, 1994. — P. 461.
- Fayyad U.M. et al., eds. Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, Calif., 1996.
- Frawley W.L., Piatetsky-Shapiro G., Matheus C.J. Knowledge discovery in database: An overview. Al Magazine. 1992. — № 13(3). — P. 57−70.
- Fuernkranz J. A Brief Introduction to Knowledge Discovery in Databases // OEGAI Journal. 1995.-№ 14(4).-P. 14−17.
- Ganti V. et al. Clustering Large Datasets in Arbitrary Metric Spaces. Proc. 15th Int’l Conf. Data Eng., IEEE CS Press, Los Alamitos, Calif., 1999, P. 502−511.
- Gehrke J., Ramakrishnan R., and Ganti V. RainForest- a Framework for Fast Decision Tree Construction of Large Datasets. Proc. 24th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1998, P. 416−427.
- Gray J. Chaudhuri S., Bosworth Л., etc. Data Cube: Л relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals // Data Mining and Knowledge Discovery. 1997. -№ 1. — P. 29−53.
- Guha S., Rastogi R., and Shim K. CURE: An Efficient Clustering Algorithm for Large Databases. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1998, P. 73−84.
- Harinarayan V., Rajaraman A., Ullman J.D. Implementing Data cubes efficiently // SIGMOD Conference. Montreal, CA, — 1996.
- Inmon W.H. Building the Data Warehouse (Second Edition). — NY, NY: John Wiley, 1993.
- Johnson Joe. Using Oracle Database Auditing to Tune Performance // Oracle magazine, November 1999.
- Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? Tandem Computers Inc., 1996.
- Kosko B. Neural Networks and Fuzzy Systems: A Dynamical System Approach to Machine Intelligence. Englewood Cliffs, New Jersey: Prentice Hall, 1992.-452 p.
- Kramer S. Structural Regression Tree. — Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-95−35, 1995.
- Kulkarni J., King R. Business Intelligence System and Data Mining. — SAS Institute Inc., 1996.
- Mannila H., Toivonen H., and Verkamo A.I. Discovering Frequent Episodes in Sequences. Proc. 1st Int’l Conf. Knowledge Discovery Databases and Data Mining, AAAI Press, Menlo Park, Calif., 1995, P. 210−215.
- Mannila H., Toivonen H. On an algorithm for finding all interesting sentences. In Cybernetics and Systems, Volume II, The Thirteenth European Meeting on Cybernetics and System Research, Vienna, Austria, April 1996. — P. 973−978.
- Mehta M., Agrawal R. and Rissanen J. Sliq: A fast scalable classifier for data mining. March 1996. P. 18−32.
- Meiton J. and Simon A.R., «Understanding The New SQL: A Comlete Guide», Morgan Kaufmann. 1993. '
- Michie D., Spiegelhalter D.J., and Taylor C.C. Machine Learning, Neural and Statistical Classification, Ellis Horwood, Chichester, UK. 1994.
- Mumick I.S., Quass D., Mumick B.S. Maintenance of Data Cubes and Summary Tables in a Warehouse. Standford University, Database Group. 1996.
- Newquist H.P. Data Mining. The AI Metamorphosis // Database Programming and Design. 1996. — № 9.
- Ng R.T. and Han J. Efficient and Effective Clustering Methods for Spatial Data Mining. Proc. 20th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1994. P. 144−155.
- Park J.S., Chen M.-S., and Philip S.Y. An Effective HashBased Algorithm for Mining Association Rules. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York. 1995. P.175−186.
- Parsaye K. A Characterization of Data mining technologies and Processes // The Journal of Data Warehousing. 1998. — № 1.
- Parsaye K. Surveing Decision Support: New Realms of Analysis // Database Programming and Design. 1996. № 4. P. 26−33.
- Pyne A. The SAS System and Web Integration. SAS Institute Inc. 1996.
- Raden N. Star Schema. Santa Barbara, CA: Archer Decision Sciences, Inc. 1995−1996.
- Ramaswamy S., Mahajan S., and Silbershatz A. On the Discovery of Interesting Patterns in Association Rules. Proc. 24th Int’l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1998. P. 368−379.
- Silverstain C, Brin S., Motwani R., Ullman J.D. Scalable Techniques for Mining Causal Structures. Data Mining and Knowledge Discovery. 4(2/3). 2000. P. 163−192.
- Srikant R. and Agrawal R. Mining generalized association rules. 1995. P. 407−419.
- Toivonen H. Sampling Large Databases for Association Rules. Proc. 22nd Int’l Conf. Very Large Data Bases (VLDB), Morgan Kaufmann, San Francisco. 1996.-P. 134−145.
- Tukey J. Exploratory Data Analysis. NY: McMillan. 1973.
- Zhang Т., Ramakrishnan R., and Livny M. Birch: An Efficient Data Clustering Method for Large Databases. Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York. 1996. P. 103−114.