Помощь в учёбе, очень быстро...
Работаем вместе до победы

Разработка механизма загрузки данных в хранилище

РефератПомощь в написанииУзнать стоимостьмоей работы

Выполнение процесса выгрузки данных и перенаправление ошибок выполнения в отдельный файл, для последующего анализа. Подключение к объекту назначения, то есть к таблице в базе данных, в которую будет производиться выгрузка. Рисунок 5 Сопоставление полей источника и целевой таблицы. Подключение к источнику: файлу с данными или базе данных. Рисунок 4 Процесс загрузки данных из XML файла в БД Часть 2. Читать ещё >

Разработка механизма загрузки данных в хранилище (реферат, курсовая, диплом, контрольная)

Геоинформационный сервис «OpenStreetMap» предоставляет свои данные в виде выгрузок в файлы формата XML. Существует несколько способов выгрузки данных. Первый способ заключается в использовании непосредственно сайта openstreetmap.org, на котором расположен основной сервис системы — географическая карта. На данном сайте расположен раздел «Экспорт». Этот раздел представляет собой интерфейс, при помощи которого пользователь может выделить необходимую ему область карты и скачать ее в виде файла формата XML. Другой способ заключается в то, чтобы использовать готовые выгрузки карт, которые формируются ежедневно. Непосредственно «OpenStreetMap», предоставляет выгрузки только всей карты мира, виде фала с названием «OSMPlanet», который занимает порядка 250 ГБ пространства на жестком диске. Однако, конечным пользователям нет необходимости, скачивать выгрузку всей карты. Существует множество сервисов, которые занимаются тем, что вырезают из общего файла отдельные блоки, соответствующие конкретным странам, регионам и городам мира. В данном исследовании будет использован именно такой подход. В качестве источника выгрузки, будет использоваться сервис «GIS-LAB.info», который предоставляет «вырезки» из файла «OSMPlanet» по Российской Федерации, ее Федеральным округам, областям и городам.

Для того, чтобы заполнить, разработанное хранилище данных необходимо разработать механизм загрузки, который позволит автоматизировать данный процесс. В качестве инструмента, используемого для реализации подобного механизма, была выбрана служба SQL Server Integration Services среды Microsoft SQL Server Business Intelligence Development Studio. Стоит отметить, что в настоящее время на рынке присутствует множество ETL средств, отличающихся, прежде всего, набором инструментов. В частности наиболее популярными программными продуктами являются «SAS Data Integration Studio», а так же пакет программных средств, для интеграции данных от компании «Informatica». Выбор инструментов от компании Microsoft был обоснован прежде всего богатым набором инструментов для работы с данными, выгружаемыми из файлов, в частности крайне простой и удобный механизм работы с XML. Одним из решающих факторов в выборе инструментов была возможность использования специального класса «SqlGeography», который используется SQL Server. Данный класс позволяет оперировать географическими координатами как объектами типа «Точка», «Линия» или «Полигон», что существенно облегчает вычисления и процесс написания SQL процедур.

Весь процесс загрузки данных разделен на два этапа:

Во время первого этапа, все данные, в полном объеме загружаются в базу данных без каких либо изменений. Это необходимо для того, чтобы впоследствии облегчить и ускорить более трудоемкие операции, связанные с вычислениями.

Второй этап подразумевает, непосредственную загрузку данных в хранилище данных. Большая часть этого процесса будет проходить с использованием разработанных SQL процедур, которые производят необходимые вычисления и заполняют справочники и измерения Типичный процесс загрузки данных состоит из следующих этапов:

Исполнение SQL процедуры, создающей необходимые таблицы в базе данных, в том случае, если они не были созданы до этого. Кроме того возможна очистка таблицы, если это требуется, например при обновлении таблиц-справочников.

Подключение к источнику: файлу с данными или базе данных.

Сопоставление полей источника и таблицы назначения.

Произведение необходимых преобразований с данными.

Подключение к объекту назначения, то есть к таблице в базе данных, в которую будет производиться выгрузка.

Выполнение процесса выгрузки данных и перенаправление ошибок выполнения в отдельный файл, для последующего анализа.

На рисунках 3 и 4 представлен процесс загрузки данных из XML файла в базу данных. Пакет использует три вида объектов: Источник — XML файл, инструмент преобразования данных и назначение. Сначала данные, при помощи XML схемы считываются из файла. В файле, все данные представлены в следующем виде:

То есть сначала, в теле документа перечисляются в «Узлы», затем все «Пути» и в конце список всех «Отношений». Каждый из этих тегов может иметь дочерние элементы. Для узла это только атрибуты, заключенные в тег. «Путь» может включать как атрибуты, так и ссылки на «Узлы». «Отношение» может включать атрибуты и члены, входящие в состав отношения, которые могут быть любыми элементами: «Узел», «Путь» или другое «Отношение».

Процесс загрузки данных из XML файла в БД Часть 1.

Рисунок 3 Процесс загрузки данных из XML файла в БД Часть 1.

Процесс загрузки данных из XML файла в БД Часть 2.

Рисунок 4 Процесс загрузки данных из XML файла в БД Часть 2.

Сопоставление полей источника и целевой таблицы.

Рисунок 5 Сопоставление полей источника и целевой таблицы.

Показать весь текст
Заполнить форму текущей работой