Помощь в учёбе, очень быстро...
Работаем вместе до победы

Аннотация. 
Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе

РефератПомощь в написанииУзнать стоимостьмоей работы

Исходная система, разработанная в 2012 году, использовала известный алгоритм шинглов в упрощенной формулировке и была написана на языке C#, представляя собой настольное Windows-приложение с графическим интерфейсом пользователя (рис. 1). Выбор именно архитектуры Intel Many Integrated Cores — много интегрированных ядер (далее — MIC) обусловлен, в частности, доступностью большого числа… Читать ещё >

Аннотация. Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе (реферат, курсовая, диплом, контрольная)

документ алгоритм многоядерный ускоритель В работе рассматривается параллельная реализация упрощенного алгоритма шинглов для сокращения времени сравнения текстовых документов на неоднородной вычислительной системе на базе многоядерных процессоров и Many Integrated Core (MIC) ускорителей. Показана поэтапная модификация исходной однопоточной программы, рассмотрена архитектура распределенной программной системы для сравнения документов. Приведены результаты тестирования разработанных прототипов, показывающие возможность сокращения времени сравнения документов до 12 раз при использовании нескольких ускорителей в системе.

Ключевые слова: aлгоритм шинглов, CRC32, Intel Xeon Phi™, MIC, OpenMP, Mono, ASP.NET.

Введение

Задача определения степени схожести текстовых документов имеет достаточно большое практическое значение, прежде всего — для определения степени оригинальности заданного текста. Ее решают и поисковые системы Интернет, принимая решение об индексации или отказе от индексации новых ресурсов, и эксперты, оценивающие степень оригинальности учебных и научных работ. В последнем случае на помощь экспертам приходят различные системы антиплагиата. В частности, хорошо известна система Antiplagiat.ru [1], в течение ряда лет использующаяся в различных организациях. Для доступа к полным функциям системы, в частности, для поддержки своей базы работ, требуются определенные вложения, как на начальном этапе, так и на этапе поддержки лицензии. В связи с этим в разных учебных заведениях разрабатываются собственные системы, менее функциональные и менее надежные, но не требующие существенных вложений и имеющие при этом ограниченную полезность.

Одна из таких систем была разработана C.С. Серовым в 2012 году в рамках выпускной работы бакалавра и с тех пор достаточно успешно применяется на кафедре ЭВМ и систем факультета электроники и вычислительной техники (далее ФЭВТ) Волгоградского государственного технического университета (далее ВолгГТУ) в качестве вспомогательного средства оценки схожести студенческих работ.

Одним из положительных свойств подобных систем собственной разработки является возможность их модификации и развития в любом из интересующих авторов и пользователей направлении.

В данной работе предпринята попытка развития системы с точки зрения сокращения затрат времени на выполнение оценки текстов, а также — в направлении создания удаленного сервиса, использующего базу документов и возможности имеющегося вычислительного комплекса (кластера) ФЭВТ ВолгГТУ, оснащенного недавно новыми серверными платформами на базе процессоров Intel® Xeon® E5 v3 и ускорителей Intel® Xeon Phi™ [2].

Исходная система, разработанная в 2012 году, использовала известный алгоритм шинглов в упрощенной формулировке и была написана на языке C#, представляя собой настольное Windows-приложение с графическим интерфейсом пользователя (рис. 1).

Внешний вид программы для оценки схожести файлов.

Рис. 1 Внешний вид программы для оценки схожести файлов

Система оценивает степень схожести текстов и позволяет выявлять существенно похожие тексты. К недостаткам системы можно отнести низкую скорость работы, отсутствие возможности работы с базой документов (только сравнение документа с документами в заданном каталоге), возможность работы только с определенной версией документов Microsoft Word и другие.

Развитие системы предполагалось в следующих направлениях:

  • — использование многопоточных вычислений (в частности, на MIC архитектуре);
  • — создание сервиса для удаленного доступа, использующего серверное оборудование;
  • — создание клиента для предобработки документов в формате Microsoft Word, отправки заданий и отображения результатов;
  • — создание и использование базы имеющихся документов.

Выбор именно архитектуры Intel Many Integrated Cores — много интегрированных ядер (далее — MIC) обусловлен, в частности, доступностью большого числа MIC-ускорителей Intel® Xeon Phi™ в составе вычислительного кластера ВолгГТУ.

Показать весь текст
Заполнить форму текущей работой