Помощь в учёбе, очень быстро...
Работаем вместе до победы

Технологии Data Mining

РефератПомощь в написанииУзнать стоимостьмоей работы

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Паттерны представляют собой устойчивые повторяющиеся сочетания данных, отражающие присущие подвыборкам данных закономерности, которые могут быть компактно выражены в понятной… Читать ещё >

Технологии Data Mining (реферат, курсовая, диплом, контрольная)

В основу современной технологии Data Mining положена концепция паттернов, отражающих фрагменты многоаспектных взаимоотношений в данных.

Определение.

Паттерны представляют собой устойчивые повторяющиеся сочетания данных, отражающие присущие подвыборкам данных закономерности, которые могут быть компактно выражены в понятной человеку форме.

Поиск паттернов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределения значений анализируемых показателей. Найденные паттерны могут отражать неочевидные, неожидаемые регулярности в данных, раскрывающие так называемые скрытые знания. Также как и при добыче полезных ископаемых, «сырые» данные могут содержать глубинный пласт знаний, при грамотной раскопке которого можно обнаружить настоящие самородки, дающие ощутимые преимущества в конкурентной борьбе. В первую очередь методы Data Mining заинтересовали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных. Их опыт показывает, что прибыль от использования Data Mining может достигать 1000%.

Примеры заданий на поиск для решения одной и той же задачи при использовании технологии Data Mining и OLAP-технологии приведены в табл. 4.5'.

Сравнение OLAP и Data Mining технологий[1]

Таблица 4.5

OLAP.

Data Mining

Каковы средние показатели травматизма для курящих и некурящих?

Встречаются ли точные паттерны в описании людей, подверженных повышенному травматизму?

Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов, отказавшихся от услуг телефонной компании?

Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?

Какова средняя величина ежедневных закупок по украденной и не украденной кредитной карте?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными картами?

В целом технологию Data Mining достаточно точно определяет один из основателей этого направления Г. Пятецкий-Шапиро[2].

Определение.

Data Mining это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Data Mining является существенно многодисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда проистекает обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining [3], многие из которых интегрируют в себе сразу несколько подходов. Тем не менее в каждой системе имеется некая ключевая компонента, решающая поставленную конкретную задачу.

Обратите внимание!

Существует пять стандартных типов закономерностей, выявляемых с помощью методов Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в компьютерном супермаркете, может показать, что 55% купивших компьютер берут также и принтер, а при наличии скидки за такой комплект принтер приобретают в 80% случаев.

Цепочка связанных во времени событий образует последовательность. Так, например, после покупки квартиры в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие класс, к которому принадлежит тот или иной объект. Это делается посредством анализа заранее классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами классы заранее не заданы, средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти паттерны, адекватно отражающие динамику поведения целевых показателей, то с их помощью можно предсказать и поведение системы в будущем.

  • [1] Дюк В. A. Data Mining — интеллектуальный анализ данных [Электронный ресурс]. URL: http://www.inftcch.webservis.ru/it/database/datamining/ar2.1пт1#Розничная торговля (датаобращения: 04.08.2015).
  • [2] 2 Piatetsky-Shapiro G. Data Mining and Knowledge Discovery/ G. Piatetsky-Shapiro // 1996to 2005: Overcoming the Hvpc and moving from «University» to «Business» and «Analytics». Data Mining and Knowledge Discovery Journal. 2007.
  • [3] Дюк В. А., Самойленко А. П. Data Mining: учебный курс. СПб.: Питер, 2001. С. 368.
Показать весь текст
Заполнить форму текущей работой