Разработка структуры хранилища данных
Измерение — последовательность значений одного из анализируемых параметров. В таблице 3.6 представлены используемые для анализа данных оптовых закупок сумок сетями спортивных магазинов. Факт — значение, соответствующее измерению. Факты — это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, доход (см. таблицу 3.8). Информация о принадлежности данных… Читать ещё >
Разработка структуры хранилища данных (реферат, курсовая, диплом, контрольная)
Хранилище данных Deductor Warehouse — это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удобный доступ к информации. ХД Deductor Warehouse соответствует модели ROLAP (схема «снежинка») и может быть развернуто на СУБД Firebird.
Хранилище данных Deductor Warehouse включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так называемые метаданные (данные о данных). Семантический слой и сами данные хранятся в одной СУБД.
Запрос к хранилищу осуществляется непосредственно сквозь семантический слой, который через внутреннюю систему команд (скрытую от пользователя и аналитика) подбирает запрашиваемую информацию из многообразия хранимых данных. Работу семантического слоя можно сравнить с деятельностью библиотекаря, который по просьбе читателя достает с разрозненных полок книги и раскрывает их на нужных страницах.
Все данные в Deductor Warehouse хранятся в структурах типа «снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение. Именно эта схема используется в данном хранилище данных.
Для описания структуры таблиц хранилища данных и связей между ними была использована модель ERD в нотации DM .
В Deductor Warehouse имеются следующие типы объектов:
Измерение — последовательность значений одного из анализируемых параметров. В таблице 3.6 представлены используемые для анализа данных оптовых закупок сумок сетями спортивных магазинов.
Таблица 3.6 — «Измерения»
Метка. | Имя. | Тип данных. | Размер поля. |
Менеджер | S_MANAGER. | Строковый. | |
Код сети. | Kod_seti. | Целый. | |
Код товара. | Kod_tovara. | Целый. | |
Дата. | DATE. | Дата/Время. |
Атрибут — свойство измерения (то есть точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. В таблице 3.7 представлены используемые атрибуты.
Таблица 3.7 — «Атрибуты»
Метка. | Имя. | Тип данных. | Размер поля. | Ссылка на измерение. |
Название сети. | Set. | Строковый. | Код сети. | |
Тип товара. | Tip. | Строковый. | Код типа товара. | |
Наименование товара. | Tovar. | Строковый. | Код товара. | |
Регион. | Region. | Строковый. | Код сети. |
Факт — значение, соответствующее измерению. Факты — это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, доход (см. таблицу 3.8).
Таблица 3.8 — «Факты»
Метка. | Имя. | Тип данных. | Размер поля. |
Количество товара. | Kolichestvo. | Вещественный. | |
Сумма. | Summa. | Вещественный. |
Ссылка на измерение — установленная связь между двумя и более измерениями. Дело в том, что некоторые бизнес-понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии. В данном случае измерение «Код товара» содержит ссылку на измерение «Код типа товара».
Процесс — совокупность измерений, фактов и атрибутов. По сути, процесс и есть «снежинка». Процесс описывает определенное действие.
Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт.
Информация о принадлежности данных к тому или иному типу (измерение, ссылка на измерение, атрибут или факт) содержится в семантическом слое хранилища.
Структура процесса «Хранилище» представлена на рисунке 3.1.
Рисунок 3.1 — Процесс «Хранилище».