Помощь в учёбе, очень быстро...
Работаем вместе до победы

Программное обеспечение для бикластерного анализа

РефератПомощь в написанииУзнать стоимостьмоей работы

В связи с этим, перед нами стояла задача разработать программу, предоставляющую методы бикластеризации англоязычных текстов для исследователей и разработчиков ПО. Разработанная программа также отличается тем, что предлагает возможность загружать коллекции текстов — аннотации к научным статьям на заданную тематику от известных издателей (IEEE, Springer), выделять ключевые слова и словосочетания… Читать ещё >

Программное обеспечение для бикластерного анализа (реферат, курсовая, диплом, контрольная)

На сегодняшний день существует несколько инструментов, позволяющих использовать бикластерные алгоритмы для анализа данных. Среди них стоит упомянуть реализацию алгоритма Диллона (спектрального разложения двудольного графа) в популярной в последнее время Python-библиотеке для машинного обучения Scikit-Learn.

Также в 2008 году был представлен алгоритм бикластеризации DisCo, работающий поверх архитектуры Hadoop MapReduce и реализующий алгоритм бикластеризации Брегмана, представленный в 2007 году.

В целом, алгоритмы бикластеризации получили довольно широкое распространение в биоинформатике и вычислительной биологии. В этой области существует несколько примеров специализизированного программного обеспечения для бикластеризации биологических данных.

Стоит отметить, что алгоритмы бикластеризации уже успели проникнуть в область анализа текстовых данных и стать одним из базовых инструментов для исследователей. Отсюда можно сделать вывод, что на сегодняшний день существует потребность в специализированном программном обеспечении для бикластерного анализа текстовых данных, которого на сегодняшний день, по-видимому, не существует. Такое программное обеспечение должно обладать достаточной гибкостью для удовлетворения потребностей различных исследователей и разработчиков программного обеспечения (ПО) — это касается использования различных алгоритмов бикластеризации, метрик релевантности и так далее. Также нужно отметить, что применение алгоритмов бикластеризации в области обработки текстов в основном касается только матриц/графов связей между словами и документами, но при этом не уделяется внимание бикластерам ключевых фраз, что лишь подтверждает актуальность разработки ПО для бикластерного анализа текстов.

В связи с этим, перед нами стояла задача разработать программу, предоставляющую методы бикластеризации англоязычных текстов для исследователей и разработчиков ПО. Разработанная программа также отличается тем, что предлагает возможность загружать коллекции текстов — аннотации к научным статьям на заданную тематику от известных издателей (IEEE, Springer), выделять ключевые слова и словосочетания из коллекции текстов и загружать ключевые словосочетания, предоставляемые непосредственно электронной библиотекой. Всё это может освободить пользователя от необходимости самостоятельно подготавливать коллекции текстов и ключевых фраз для анализа.

Упор здесь делается на анализ именно англоязычных текстов, так как большинство существующих методов обработки естественного языка заточено на работу с английскими словами. Также наиболее популярные электронные библиотеки (такие как IEEE Xplore и Springer) предоставляют доступ только к англоязычным статьям. Однако в дальнейшем планируется адаптировать реализованный инструмент для работы и с русскоязычными текстами.

Показать весь текст
Заполнить форму текущей работой