Структура таксономии.
Интеллектуальные системы и технологии

РефератПомощь в написанииУзнать стоимостьмоей работы

Структура таксономии. Интеллектуальные системы и технологии (реферат, курсовая, диплом, контрольная)

При разработке классификатора очень важно выявить структуру таксономии.

Поведение агентов системы классификации и подготовка внутреннего формата документов связаны с организацией тем таксономии. В простых случаях иерархическая таксономия имеет структуру дерева.

Для примера на рис. 21.5 приведена таксономия в виде дерева тем с индексами тем (термами) Тц Т₂, т₃, т_и, т₁₂,…, Т_ШЛг.

Рис. 21.5. Таксономия типа дерева.

Пусть L (i = 1,2,…, L) будет числом термов первого уровня, М (j = 1,2, …, М) — второго уровня и N (k = 1, 2,…, N) — третьего уровня таксономии. В приведенном примере Tj представляет первый терм первого (верхнего) уровня, Т_и — первый терм второго уровня, который вложен в терм Tj первого уровня, и Т|]2 — второй терм третьего уровня, который вложен в терм Т_и второго уровня таксономии. Другие термы первого уровня, Т₂ и Т₃, также имеют подчиненные термы второго и третьего уровней таксономии.

Можно использовать обобщенное отношение SubCategoryOf, чтобы показать, что один терм категории подчинен другому терму субкатегории. Используя это отношение, можно формально записать таксономию, представленную на рис. 21.5, в виде:

SubCategoryOf ({Т121, Т123, Т124}, Т12).

SubCategoryOf ({Т12, Т13, Т14}, Tl).

NotCategoryOf (T121, T13).

Документы будут присоединены к термам самого нижнего уровня иерархии (для нашего примера — к термам третьего уровня). Поэтому можно говорить, что первый и второй уровни тем представляют категории и субкатегории, а третий уровень содержит контейнеры документов самой низкой третьей категории.

В некоторых случаях документ может принадлежать к нескольким категориям. Это можно формализовать обобщенным отношением BelongsTo. Для нашего примера можно присоединить документ D_x к категориям Т₁₁₃, Т₁₂₃ и Т₃₂₃ одновременно, используя выражения.

BelongsTo (DX, Т113).

BelongsTo (DX, Т123).

BelongsTo (DX, T323).

В системе классификации все полученные документы должны быть вставлены в таксономию через все уровни от первого до последнего, пока они не получат желаемое положение, или положение в иерархии категорий. Когда система получит документ, который должен быть классифицирован, то сначала документ будет проанализирован на предмет отнесения его к категориям первого уровня, а затем, как только найдется подходящая категория (или категории) этого уровня, документ будет передан далее для более глубокой категоризации.

Так, если документ D, получен системой, то он будет просмотрен и проверен на предмет того, будет ли его образец соответствовать желаемым образцам (шаблонам) для одного из термов первого уровня. При этом образец документа может соответствовать более чем одному терму — тогда необходимо учитывать силу этого соответствия. Если она больше, чем некоторый желаемый уровень, то документ передается обоим (или всем) термам с наибольшей силой. Далее тот же самый процесс имеет место на втором уровне или уровнях, в случае если две соответствующие категории или больше будут найдены на первом уровне. В конечном счете документ получает некоторое фиксированное место в одной категории или более третьего уровня. Только в этом случае можно утверждать, что документ прошел категоризацию полностью.

Пример таксономии «Стратегия»

Фрагмент таксономии «Стратегия», которая имеет структуру типа дерева, представлен на рис. 21.6.

Рассмотрим терм 1 первого уровня таксономии «Стратегия» и последующие термы второго и третьего уровней, подчиненных терму «Стратегия». Все эти термы принадлежат единственному родительскому терму. Однако, в соответствии с разными уровнями и позициями в отдельных уровнях, они имеют различные внутренние отношения. Например, термы 1.2.2 «Бизнес-стратегия» и 1.2.3 «Стратегия развития» принадлежат терму 1.2 «Стратегии, версии», а термы 1.3.1 «Развитие стратегии» и 1.3.2 «Реализация стратегии» принадлежит терму 1.3 «Стратегия, стадии управления». Вместе они все принадлежат терму 1 «Стратегия», однако они находятся в разных субкатегориях 1.2 и 1.3.

Когда документ поступает в классификатор для обработки, генерируется его образец. Затем этот образец сопоставляется с образцами, представляющими категории 1.2 и 1.3, подчиненные категории 1 «Стратегия», если образец документа сопоставляется с образцом «Стратегия» с очень высокой вероятностью на первом уровне. После сопоставления образцов всех категорий с этим входным образцом выделяются те категории, которые показали максимальную вероятность совпадения. Теперь можно с уверенностью утверждать, что это и есть категории данного документа, и разместить его в этих категориях.

Рис. 21.6. Фрагмент таксономии.

21.3. Поиск информации Интеллектуальные методы позволяют повысить эффективность накопления, хранения и использования информации в информационных системах. Важным применением таких систем являются систематизированное накопление информации и поиск нужной информации по запросам пользователей. Эффективный информационный поиск является главной задачей при работе с большими корпоративными базами данных и знаний. Особенно актуальна организация эффективной структуризации накапливаемой информации и ее поиска по запросам в интернет-ресурсах. Для этого используются специальные программные средства для распределенной обработки и поиска документов: их основу составляют машины поиска, в которых используются сетевые роботы и поисковые агенты.

Существует много известных и широко используемых машин поиска информации в Интернете, таких как Yahoo, Yandex, Google и др. В некоторых из них используются сетевые поисковые роботы типа Spider или Indexer, которые перемещаются от сайта к сайту (или от сервера к серверу) беспорядочно или используя статистику посещаемости сайтов. Исследовав сайт, такой робот посылает отчет своей машине поиска. В таких роботах могут использоваться механизмы поиска с индексированием содержания страниц сайта, что ускоряет поиск и сбор информации. Фактически сетевые роботы являются мобильными агентами, реализующими параллельный поиск информации по запросам пользователей на многих сайтах.

Современные машины поиска характеризуются используемыми языками запросов, методами представления документов, временем индексации и поиска, объемом индекса и др.

Типичный процесс работы машины поиска включает:

• поиск новых сайтов и известных машине поиска документов;
• переход по ссылкам на другие страницы;
• построение ориентированного графа сетевого пространства для поиска;
• обход графа по циклу (найти новый сайт, отметить его как извлеченный, раскрыть в нем ссылки, проиндексировать содержание документов).

Отсюда следует, что основными режимами работы являются поиск документов в реальном времени и индексирование документов.

Типовые машины поиска хранят в своих базах данных информацию в индексах. Индекс формируется для каждого документа в виде его метаданных. Например, ключевым словам из документа приписывается вес, равный частоте их появления, отнесенной к частоте появления слова в ссылках на другие документы. Такой индекс позволяет ускорить нахождение по ключевому слову ссылки на содержащие его документы. Для множества документов обрабатываемого сайта проводится индексация и строится структурированный индекс. При поиске обрабатывается запрос в виде ключевого слова или фразы, и с использованием структурированного индекса выводится список документов, в которых эта ключевая информация содержится. Обработка информации, содержащейся в структурированном индексе, позволяет значительно (в десятки и сотни раз) ускорить обработку запроса по сравнению с прямым поиском, основанном на переборе доступных файлов и проверке их названий и содержимого. Заметим, что прямой поиск традиционно используется во всех операционных системах и инструментальных пакетах.

Найденные документы выводятся в результирующем списке согласно релевантности, т. е. соответствию документа тексту запроса. Существуют разные методы поиска и определения релевантности документа. Часто используются количество вхождений слова и его частота упоминания в документе, соотношение этих параметров и общего количества слов в документе, расстояние между словами фразы запроса в искомых файлах и т. д. На основе этих параметров определяется вес документа, и в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции.

В системах поиска информации используется ряд популярных программ поиска, таких как dtSearch Desktop, Google Desktop Search, Searchinform, Copernic Desktop Search, I SYS Desktop. Эти программы могут индексировать базы документов и веб-страницы в разных форматах, но с различными скоростями. Например, программа dtSearch Desktop может проиндексировать 20 Гб информации приблизительно за 6 часов, создавая для нужд поиска индекс размером около 8 Гб.

В программах используются различные возможности поиска, например:

• морфологический поиск, т. е. поиск слова во всех его морфологических формах, — позволяет находить слова, используемые в документах независимо от падежа;
• поиск с коррекцией ошибок — применяется для поиска слов, содержащих синтаксические ошибки в документах;
• поиск с использованием синонимов — дает возможность использовать список синонимов различных слов;
• поиск с использованием фраз, состоящих из слов, соединенных логическими операциями.

Каждому слову в запросе можно устанавливать свою значимость. Могут использоваться также словари, состоящие из незначимых слов, чтобы не учитывать их при поиске. Могут обрабатываться и сложные запросы, составленные из нескольких абзацев какого-либо документа.

Поиск документов по индексам является низкоуровневым сервисом поиска. Для современных систем информационного поиска разрабатываются надстройки, расширяющие возможности поиска типовых машин поиска, — различные типы поисковых агентов с интеллектуальными средствами обработки и поиска документов. Извлечением документов из сети занимаются одновременно 10—15 агентов. Поисковый механизм находит свободного агента и дает ему задание. Агент идет на разрешенные для его посещения сайты и возвращает содержание документа или объяснение с отказом. Агенты запускаются как отдельные процессы, изолированные от основного процесса машины поиска.

Неспециализированные поисковые агенты являются первым уровнем надстройки. Эти компоненты имеются практически у всех современных машин поиска. Они обеспечивают поиск по ключевым словам и устойчивым словосочетаниям. Могут использоваться дополнительно некоторые сервисы, такие как передача запросов пользователя на многие серверы, настройка на личные предпочтения пользователя, формирование тематической базы данных. Однако, как правило, такие агенты не могут самостоятельно отобрать полезную информацию, эго должен делать сам пользователь.

Специализированные поисковые агенты являются вторым уровнем надстройки над машиной вывода. Они позволяют приспособиться к поиску тематической информации (музыка, книги и т. д.). Большинство таких агентов устроено жестко. Они хорошо работают на определенных сайтах с фиксированным форматом данных. Адреса этих сайтов должны быть у агентов. Системы поиска со специализированными агентами дополнительно предоставляют средства организации и управления найденной информацией. Они содержат набор специализированных агентов, но темам и могут иметь доступ к сотням ресурсов Интернета, включая специализированные БД. Пользователь может формировать запрос на естественном языке. Результаты поиска сопровождаются аннотациями, списками ключевых слов и другой облегчающей выделение нужных ресурсов информацией. Агенты могут сохранять и использовать повторно историю запросов, параллельно обрабатывать множество запросов на множестве ресурсов, оформлять результаты как отчеты, следить за обновлением ресурсов в сети.

Интеллектуальные поисковые агенты являются третьим уровнем надстройки. Эти средства поиска считаются наиболее перспективными и бурно развиваются. В них используются разнообразные интеллектуальные сродства. Такие агенты используются в системах интеллектуального поиска и обработки информации. Примерами таких систем являются Autonomy, Webcompass, MARRI, 1RBOW. Эти, пока исследовательские, системы используют интеллектуальных поисковых агентов для обеспечения пользователей интегрированными средствами поиска релевантной его интересам информацией (настройку на пользователя).

Одной из особенностей интеллектуальных поисковых агентов является ориентация на разные категории пользователей — конечных или продвинутых, которые могут дать структурные описания своих интересов.

При описании предметной области и поиске могут быть использованы такие интеллектуальные средства, как представление знаний в виде системы продукций или семантических сетей, вывод на знаниях, специальные методы распознавания образов, семантические сети, нейронные сети и др.

Запросы пользователей возможны на естественном языке с извлечением смысла в конфигурационный файл и представлением в виде семантической сети с ключевыми словами и выражениями в узлах и отношениями IS-А, PART-OF, HAS-PART, KIND-OF и др. Спецификация запросов может быть построена на прямом использовании сформированного пользователем описания проблемной области с помощью таксономии понятий и маркировки интересующих его тем.

Для повышения эффективности поиска релевантной информации могут использоваться нечетко-логические средства и механизм динамических рассуждений. При этом используются: сравнение концептов входного текста и заранее составленного списка; создание агента, использующего концепты из тренировочного текста и других источников; параллельный поиск несколькими агентами слов в тексте на основе ключевых слов, список которых задан. Используются также онтологии, т. е. спецификации проблемной области, построенные на базе семантических или фреймовых сетей.

Анализ естественно-языковых предложений проводится с построением дерева текстов, выявлением смысла и действий по глагольной группе, наложением анализируемого текста на онтологию для быстрого поиска релевантных документов. Важным средством настройки агентов на предпочтения пользователя является его обучение.

В рамках этой главы рассмотрены задачи раскопки данных, категоризации и кластеризации документов, а также поиска информации, при решении которых используются разнообразные интеллектуальные средства. Эти средства позволяют значительно повысить эффективность обработки больших объемов «сырой» информации и поиска документов с учетом потребностей пользователей в больших базах данных. Дальнейшее развитие этого направления проводится в рамках нового подхода к обработке больших объемов плохо структурированных данных, который уже получил название big data.

Показать весь текст

Заполнить форму текущей работой