Сложность поиска в случайных базах данных

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Под базой данных в работе понимается способ хранения и представления информации и соответствующие этим способам алгоритмы поиска информации. Самой распространенной задачей поиска, которая встречается в любой базе данных, является задача поиска по ключу. Суть ее состоит в том, что любой объект базы данных имеет свой уникальный ключ. Это может быть порядковый номер, уникальное имя, или уникальное… Читать ещё >

Содержание

Глава 1. Оптимальный информационный граф с переключательной нагрузкой
- 1. 1. Формализация задачи поиска. Понятие информационного графа с переключательной нагрузкой (графа переключателей)
- 1. 2. Основные понятия и результаты главы
- 1. 3. Структура оптимального графа переключателей
- 1. 4. Алгоритм построения оптимального графа переключателей
- 1. 5. Алгоритм построения графа переключателей бинарного поиска
- 1. 6. Универсальные оценки сложности оптимального графа переключателей
Глава 2. Классы задач поиска с логарифмической средней сложностью оптимального графа переключателей
- 2. 1. Основные понятия и результаты главы
- 2. 2. Классы задач поиска для равномерно распределенных данных
- 2. 3. Нижняя оценка средней сложности оптимального графа переключателей
- 2. 4. Классы задач поиска с известной асимптотикой средней сложности оптимального графа переключателей
Глава 3. Классы задач поиска с не логарифмической средней сложностью оптимального графа переключателей
- 3. 1. Основные понятия и результаты главы
- 3. 2. Классы задач поиска с ограниченной средней сложностью оптимального графа переключателей
- 3. 3. Классы задач поиска с неограниченной средней сложностью оптимального графа переключателей

Сложность поиска в случайных базах данных (реферат, курсовая, диплом, контрольная)

Актуальность темы

Одним из актуальных направлений дискретной математики и математической кибернетики является направление хранения и поиска информации в базах данных. Развитие этого направления невозможно без тщательного анализа накопленного опыта и построения математической модели баз данных. Исследование математической модели помогает решать задачи, позволяющие повысить эффективность поиска в базах данных.

Под базой данных в работе понимается способ хранения и представления информации и соответствующие этим способам алгоритмы поиска информации. Самой распространенной задачей поиска, которая встречается в любой базе данных, является задача поиска по ключу [10]. Суть ее состоит в том, что любой объект базы данных имеет свой уникальный ключ. Это может быть порядковый номер, уникальное имя, или уникальное значение некоторого поля, например, номер паспорта. Задача состоит в том, чтобы по заданному в запросе ключу найти в базе данных объект с этим ключом.

Более формально задачу поиска по ключу можно описать следующим образом [9]. Имеется некоторое множество объектов У, на котором введен линейный порядок. Данные — это конечное подмножество V, V С У. Множество V далее будет называться также библиотекой. Множество запросов X совпадает с множеством У. Требуется по произвольному запросу из множества X найти в библиотеке V объект, равный запросу, если такого объекта нет — указать в какой промежуток между данными попал запрос. Полагается, что для решения этой задачи можно сравнивать любые два объекта из множеств X и У.

Рассматривается случай, когда множества X и У представляют собой интервал (0,1), и база данных — статическая, то есть библиотека V фиксирована. Предполагается, что к статической базе данных происходит многократное обращение с запросами на поиск по ключу, поэтому при ее проектировании внимание акцентируется на организации данных и алгоритме поиска, минимизирующих среднее время поиска.

В данной работе задача поиска по ключу исследуется с позиции информационно-графовой модели данных [9]. В этой модели структура данных задается управляющей системой — информационным графом (ИГ), который представляет собой ориентированный граф, ребра и вершины которого нагружены элементами данных и функциями. Алгоритм поиска —это «волновой» процесс на графе, который управляется нагрузочными функциями. Под сложностью информационного графа понимается среднее время поиска. Информационный граф, на котором достигается минимум сложности, называется оптимальным.

В пятидесятые годы двадцатого века возникла идея представлять алгоритмы для задачи поиска по ключу с помощью деревьев. В 1959 году Э. Н. Гильберт и Э. Ф. Мур показали, что можно построить оптимальное дерево поиска за 0(п3) шагов (п — мощность библиотеки), и привели оценки сложности такого дерева поиска [22]. Оптимальным называлось дерево поиска, имеющее минимальную сложность среди всех деревьев. В 1971 году Д. Э. Кнут показал, что построение оптимального дерева поиска можно улучшить до порядка 0(п2) шагов [21]. Дальнейшие упрощения методов построения были произведены в 1977 А. М. Гарсия и М. Л. Вочем [23]. Их метод позволяет построить оптимальное дерево поиска за 0(п • п) шагов.

В общем случае оптимальный информационный граф не является древовидным, поэтому возникает вопрос, есть ли среди множества древовидных информационных графов оптимальный и применимы ли имеющиеся результаты к построению оптимального ИГ. В случае утвердительного ответа, возникает следующий вопрос о сложности оптимального информационного графа.

Любую задачу поиска по ключу можно решить с помощью информационного графа, реализующего бинарный поиск, со сложностью равной логарифму от мощности библиотеки V. Сложность же оптимального ИГ в зависимости от конкретной задачи поиска может быть как логарифмом, так и константой. Поэтому возникает вопрос о поведении средней сложности оптимального информационного графа для случайных библиотек.

Цель работы.

Целью работы является исследование структуры оптимального информационного графа для решения задачи поиска по ключу и изучение поведения его средней сложности для случайных библиотек.

Научная новизна.

Результаты работы являются новыми и состоят в следующем.

1. Показано, что для любой задачи поиска по ключу существует оптимальный информационный граф с древовидной структурой, в котором количество всех используемых операций сравнения равняется мощности библиотеки. Описан условный алгоритм построения такого ИГ. Приведены универсальные оценки сложности оптимального ИГ.

2. Рассмотрено поведение сложности оптимального ИГ для двух «равномерных» библиотек. В первом случае библиотека представляет собой равномерную сетку на интервале (0,1), во втором случае библиотека — случайный равномерно распределенный вектор, и запросы также распределены равномерно. В первом случае установлено, что сложность оптимального ИГ имеет асимптотику двоичного логарифма от мощности библиотеки п. Во втором случае показано, что средняя сложность оптимального ИГ также имеет асимптотику log2 п, п —> оо, и получена нижняя оценка средней сложности оптимального ИГ, которая отличается от log2 п на константу.

3. Исследовано поведение средней сложности оптимального ИГ в случае, когда распределение данных и запросов может быть отлично от равномерного. Распределение данных задается функцией плотности д, а распределение запросов — функцией плотности /. При слабых ограничениях на / и д доказана нижняя оценка средней сложности оптимального ИГ. Получены условия для / и д, при которых средняя сложность оптимального ИГ имеет порядок логарифма от мощности библиотеки. Уточнены эти условия до получения асимптотики такой сложности.

4. Рассмотрены случаи, когда средняя сложность оптимального информационного графа является ограниченной функцией при увеличении мощности библиотеки. Показано, что для любого отрезка вида [Ь, 6 + 2], Ь е К, Ь > 1, можно построить такие функции плотности распределения запросов / и данных д, для которых средняя сложность оптимального ИГ не выходит за пределы отрезка при увеличении мощности библиотеки.

5. Рассмотрены случаи, когда средняя сложность оптимального ИГ является неограниченно возрастающей функцией по порядку меньшей логарифма от мощности библиотеки. Описано семейство 5 возможных асимптотик и семейство 5* возможных порядков функций роста, которые являются неограниченно возрастающими функциями по порядку меньше логарифма.

Методы исследования.

В работе используются методы теории графов, теории вероятностей, математического анализа, комбинаторики, алгебры.

Теоретическая и практическая ценность.

Работа носит теоретический характер и может быть полезна специалистам по синтезу и сложности управляющих систем. Результаты работы могут быть использованы при проектировании баз данных.

Апробация работы.

Результаты диссертации неоднократно докладывались на семинарах механико-математического факультета МГУ им. М. В. Ломоносова: на семинаре «Вопросы сложности алгоритмов поиска» под руководством профессора Э. Э.

Гасанова (2006;2009 гг.), на семинаре «Теория автоматов» под руководством академика В. Б. Кудрявцева (2007;2009 гг.).

Они докладывались также на следующих конференциях: IX международная конференция «Интеллектуальные системы и компьютерные науки» (Москва, 2006 г.), IX международный семинар «Дискретная математика и ее приложения», посвященный 75-летию со дня рождения академика О. Б. Лупа-нова (Москва, 2007 г.), международная конференция студентов, аспирантов и молодых ученых «Ломоносов» (Москва, 2007 г., 2008 г., 2009 г.), международная конференция «Современные проблемы математики, механики и их приложений», посвященная 70-летию ректора МГУ академика В. А. Садовни-чего (Москва, 2009 г.), X Международный семинар «Дискретная математика и ее приложения» (Москва, 2010 г.), научная конференция «Ломоносовские чтения» (Москва, 2007 г., 2008 г., 2010 г.).

Структура и объем работы.

Диссертация состоит из введения и трех глав. Объем диссертации 179 страниц.

Список литературы

содержит 23 наименования.

Показать весь текст

Заполнить форму текущей работой