Способы организации хранения данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Транзакция представляет собой группу операций, которая имеет начало и конец и должна быть выполнена либо полностью, либо не выполнена вообще. При любом исходе транзакции целостность данных не нарушается. Прерывание транзакции (например, из-за сбоя технических средств, отключения питания или программных ошибок) не должно отражаться на состоянии базы данных. Все современные системы управления… Читать ещё >

Способы организации хранения данных (реферат, курсовая, диплом, контрольная)

Данные могут быть организованы по-разному. В зависимости от степени регламентации способа представления данных говорят о неструктурированных и структурированных данных. Между ними находится бесконечное число градаций степени структурированности, но обычно их не различают и используют термин «частично структурированные данные». Поясним сказанное на примерах.

Рассмотрим хорошо всем известный документ текстового процессора MS Word.

Во-первых, разные документы могут содержать абсолютно разную информацию, поэтому говорить о знании того, что находится внутри документа, не приходится.

Во-вторых, одни и те же сведения в файле могут быть представлены различными способами: факты могут быть изложены исключительно в виде текста, может быть дано их табличное представление, а может быть приведена диаграмма, иллюстрирующая тот же вопрос. Наконец, информация может быть представлена в комбинированном виде.

Такую информацию называют неструктурированной, она труднее всего поддается автоматической обработке, а при ее анализе требуется человеческий интеллект.

Теперь возьмем простейшую базу данных, например, созданную в настольной системе управления базами данных (СУБД) MS Access. Пусть она состоит из одной таблицы. Информация, которая в пей содержится, имеет жестко заданную структуру:

• определен состав полей записи базы данных (столбцы таблицы);
• каждому полю присвоены определенное имя, тип и свойства;
• все записи базы данных (строки таблицы) имеют одинаковый состав нолей;
• маска ввода, формат вывода, условия проверки полей одинаковы у всех записей.

Все эти сведения хранятся в базе данных вместе с содержимым таблицы, т. е. база данных содержит не только информацию, которая должна быть сохранена, но и метаданные (информацию об информации). Такую информацию называют структурированной, т. е. имеющей известную внутреннюю организацию. Структурированная информация лучше всего поддается автоматизированной обработке.

Два следующих примера иллюстрируют случай, когда имеет место не полная структуризация информации.

Представим таблицу Excel, содержащую те же сведения, что и в предыдущем случае. Как и всякая таблица, она имеет более высокую степень структуризации, чем обычный текст. Но в отличие от таблицы Access, здесь меньше ограничений. Так, каждая ячейка таблицы может иметь свой тип, следовательно, в одном столбце могут оказаться сведения разного содержания. Фиксированных имен столбцов нет, а есть их номера или буквенные обозначения, которые не раскрывают содержание хранимой информации. Порядок следования столбцов и строк должен учитываться при обработке, так как обращение к содержимому ячеек осуществляется по их координатам, но не факт, что он соблюдается при эксплуатации. Таким образом, фактическая внутренняя организация данных известна, но не полностью.

Пусть та же информация находится в так называемом плоском файле. В некоторых языках программирования его называют типизированным. Он состоит из записей фиксированной длины, а каждая запись побайтно условно поделена на элементы-поля. Каждое поле, как и в базе данных, имеет свой тип, поэтому запись имеет жесткую структуру. Порядок следования информации в записи типизированного файла неизменен. Но плоский файл не содержит метаданных, поэтому в общем случае неизвестно, какие данные в записи расположены и в каком порядке идут отдельные элементы записи, а также какой тип они имеют. Только если есть документированная информация или тексты исходных файлов программы, можно правильно «разобрать» запись на поля. В противном случае сделать это очень сложно или даже невозможно.

Такую информацию с жесткой структурой при неполных сведениях о ее внутренней организации следует считать частично структурированной.

Необходимо избегать создания и приобретения приложений, которые хранят данные в плоских файлах, так как здесь неизбежно возникает зависимость данных от программ, которые их обрабатывают, а, значит, от фирмы-разработчика или даже от конкретного физического лица. Такие данные сложно сопровождать.

Информация, накапливаемая в базах данных, в отличие от плоских файлов, может жить своей собственной жизнью, независимой от прикладного программного обеспечения. Благодаря наличию метаданных и СУБД структура информации может меняться без утраты содержания накопленных сведений. В противоположность этому любое изменение структуры плоского файла делает программное обеспечение, предназначенное для его обработки, непригодным к использованию, т. е. требует обязательной модификации исходного кода программ, что не всегда возможно и экономически целесообразно.

Возможности по управлению структурированными, неструктурированными и частично структурированными данными разные. Так как наилучшие условия для автоматизированной обработки создаются при наличии структурированных данных, то развитие информационных технологий направлено на то, чтобы максимально возможный объем информации, которая имеется в компании, превратить в структурированную или частично структурированную, что ведет в увеличению доли информации, хранящейся в базах данных и электронных таблицах.

Тем не менее, далеко не вся информация, используемая в компаниях, поддается полной или частичной структуризации. Несмотря на прогресс в ИТ-сфере, сохраняется мощный пласт данных, которые ни при каких обстоятельствах не могут быть структурированы полностью (юридическая информация, договорная, делопроизводственная (входящая и исходящая корреспонденция, приказы, распоряжения, служебные записки, заявления и письма граждан, запросы государственных и правоохранительных органов и т. п.)). Для хранения и поиска такой информации используют электронные образы документов, которые могут храниться как в древовидных каталогах, так и в базах данных с индексацией для полнотекстового поиска или без нее.

Одной из фундаментальных задач управления данными на предприятиях и в организациях является минимизация избыточности данных, когда в базах данных сохраняется много информации одинакового содержания. Так, например, в розничной торговле один товар в течение дня может продаваться тысячи раз, поэтому записи о продажах будут отличаться друг от друга только количеством проданного товара, а такие реквизиты, как наименование товара и его цена будут одинаковыми во всех записях. Таким образом, если не принимать мер, то в базе данных будет многократно указываться, например, длинное наименование товара, что не только увеличит расход памяти на запоминающих устройствах и замедлит обработку информации, но и создаст угрозу возникновения противоречивости данных.

Устоявшийся термин «противоречивость» понимается достаточно широко и под него попадает множество случаев несоответствия данных действительным фактам (разночтения в наименовании товара, названии контрагента, дате осуществления операции, несогласованность сведений с другой информацией, хранимой в базе данных (например, отгрузка товара несуществующему покупателю), осуществленный благодаря ошибкам персонала ввод в текущую БД информации за прошлые или будущие периоды, ввод значений, выходящих за допустимые диапазоны, и т. д.).

Сокращение избыточности в данных происходит за счет нормализации и связывания таблиц, что, в свою очередь, способствует предотвращению противоречивости. Риск возникновения противоречивости уменьшается также за счет контроля со стороны СУБД за целостностью данных, осуществляемого через встроенные механизмы, контроля вводимой информации, что не позволяют нарушить информационные связи между таблицами.

Важной технологической процедурой, характерной для информационных систем, являются транзакции.

Транзакция представляет собой группу операций, которая имеет начало и конец и должна быть выполнена либо полностью, либо не выполнена вообще. При любом исходе транзакции целостность данных не нарушается. Прерывание транзакции (например, из-за сбоя технических средств, отключения питания или программных ошибок) не должно отражаться на состоянии базы данных. Все современные системы управления базами данных работают с транзакциями. Транзакции журналируются (ведется их история) и могут откатываться назад. Благодаря этому возможно корректное исправление ошибок. Термин «транзакция» широко используется при рассмотрении различных аспектов управления данными, так как он фактически означает определенную единицу «информационной работы». Например, бухгалтерская проводка не может считаться завершенной, если запись по дебету счета сделана, а по кредиту — нет.

Информационные системы могут по-разному использовать транзакции. Так, например, платежные системы, работающие с банковскими картами, кроме собственно работы, которую нужно выполнить (перевести деньги со счета на счет) отправляют друг другу так называемые транзакционные данные — информацию о предстоящей работе, позволяющую начать транзакцию по существу или отклонить ее, проанализировав сведения о банковской карте и платежном терминале.

Имеется целый класс систем — OLTP (Online Transaction Processing), ориентированных на работу в режиме реального времени с большим числом коротких транзакций, требующих минимальное время отклика. К ним относятся банковские системы, складские системы, торговые системы и др.

Также существуют системы OLAP (Online Analytical Processing), приспособленные для обработки сложных аналитических запросов, выполняемых по большому числу связанных таблиц. Такая обработка требует полного просмотра таблиц и потому может требовать значительного времени, а следовательно, создать нагрузку на СУБД и замедлить другие транзакции. Так как аналитические системы не требуют быстрой реакции на запрос, в последние годы нашел признание подход, получивший название OLAP-куба. Его суть состоит в том, что информация из оперативной базы данных извлекается, денормализуется и агрегируется (консолидируется) по нескольким измерениям. После построения куба появляется возможность анализировать информацию оперативно в любых разрезах, которые были предусмотрены при его построении. Построение OLAP-куба требует значительных временных затрат, поэтому выполняется в периоды наименьшей загруженности информационной системы.

Показать весь текст

Заполнить форму текущей работой