Помощь в учёбе, очень быстро...
Работаем вместе до победы

Метод извлечения информации из слабоструктурированных источников, основанный на xml

РефератПомощь в написанииУзнать стоимостьмоей работы

С помощью Xpath чрезвычайно упрощается задача поиска и описание типов обрабатываемых вершин в документе. Существенно сокращается объем создаваемой программы, поскольку остается только обойти дерево, чтобы проверить различные части. Поскольку Xpath, по сути, представляет стандарт, он может применяться в самых различных модулях. Ключевым моментом в предложенном методе является преобразование… Читать ещё >

Метод извлечения информации из слабоструктурированных источников, основанный на xml (реферат, курсовая, диплом, контрольная)

С учетом анализа существующих подходов и методов извлечения информации из Интернет-источников и проведенных экспериментальных исследований ряда новостных сайтов, был выбран подход, основанный на информации об HTML-разметке, который использует в качестве этой информации дерево, отображающее структуру Web-страницы. Это позволяет использовать преимущества иерархической структуры тэгов.

Для того, чтобы иметь возможность характеризовать структурные свойства документа, мы рассматриваем его в виде дерева разбора согласно стандартной объектной модели представления документов DOM (Document Object Model — DOM) .

Корнем DOM-дерева для HTML страницы является тэг «html». Внутренние узлы дерева соответствуют другим, используемым в документе HTML-тэгам, дуги между которыми характеризуют вложенность их использования. Листья дерева могут быть не только тэгами, но также и представлять текстовые литералы.

Далее возникают две проблемы, которые нужно решить: 1) отсутствует стандартный язык навигации по HTML, 2) отсутствует какая-либо стандартная структура HTML-документов. Поэтому предполагается, что значительно проще извлекать информацию из HTML-документов, если предварительно привести этот документ к некоторой известной нам структуре, и после чего извлекать информацию уже из нее [12−14]. Такой структурой будет XML-представление документа, к которому будет преобразовываться исходный HTML-документ.

Необходимо также отметить, что HTML является основным, но не единственным форматом представления данных в сети Интернет. Поэтому предлагается следующий подход: если источником является HTML-страница, то она преобразуется в формат XML, если это файл XML (например, RSS), то соответственно преобразование опускается; затем из XML-документа извлекаются необходимые данные и преобразуются к определенному формату (им может быть также XML). На рисунке 1 дано схематичное представление предлагаемого метода извлечения информации, основанного на XML.

Применение данного метода позволяет решить следующие задачи: 1) обеспечение доступа к источнику данных; 2) получение информации из HTML-страницы; 3) структурирование информации (правка неверно сформированного HTML); 4) сохранение информации в формате XML; 5) опрос XML-документа для извлечения нужных пользователю данных.

Ключевым моментом в предложенном методе является преобразование HTML-документа, имеющего слабовыраженную структуру, в формат XML. Дополнительная сложность на этом этапе возникает из-за того, что многие страницы Web-сайтов имеют дефектный формат, хотя целый ряд браузеров, допускают такой формат и могут его обработать.

Для того, чтобы получить доступ к конкретной части XML-документа возможно использование специального языка адресации частей XML-документа — Xpath. Запрос на XPath не ограничивается обработкой элементов. Можно указать различные виды узлов, включая атрибуты, текст, команды обработки и комментарии, или оставить его настраиваемым с селектором для любого типа вершины.

С помощью Xpath чрезвычайно упрощается задача поиска и описание типов обрабатываемых вершин в документе. Существенно сокращается объем создаваемой программы, поскольку остается только обойти дерево, чтобы проверить различные части. Поскольку Xpath, по сути, представляет стандарт, он может применяться в самых различных модулях.

Схематичное представление метода извлечения.

Рис. 1. Схематичное представление метода извлечения.

Важным этапом извлечения является однозначная идентификация нужной информации в слабоструктурированном источнике и включение ее в результирующий документ (например, XML-документ, структура которого строго определена). Обычно для этого используют информацию об абсолютном пути к нужным элементам или привязку к их содержанию при помощи правил на языке регулярных выражений, а также комбинацию этих способов [13−14]. Оба подхода могут быть успешными для некоторых видов источников, но мало подходят для сбора новостной информации, т.к. невозможно привязаться к контексту новости, а структура новостных блоков на сайте также подвержена изменениям (меняется количество новостных статей, некоторые блоки в какой-то момент могут быть пустыми и т. д.). При этом комбинация подходов, также будет неэффективной. Поэтому в предлагаемом методе применялись более сложные правила идентификации, использующие, наряду с традиционными способами, привязку к типам элементов, определяемых их атрибутами и учитывающие их разметку. На основании этих правил строятся фильтры, которые связываются с конкретным источником.

Показать весь текст
Заполнить форму текущей работой