На сегодняшний день существует несколько инструментов, позволяющих использовать бикластерные алгоритмы для анализа данных. Среди них стоит упомянуть реализацию алгоритма Диллона (спектрального разложения двудольного графа) в популярной в последнее время Python-библиотеке для машинного обучения Scikit-Learn.
Также в 2008 году был представлен алгоритм бикластеризации DisCo, работающий поверх архитектуры Hadoop MapReduce и реализующий алгоритм бикластеризации Брегмана, представленный в 2007 году.
В целом, алгоритмы бикластеризации получили довольно широкое распространение в биоинформатике и вычислительной биологии. В этой области существует несколько примеров специализизированного программного обеспечения для бикластеризации биологических данных.
Стоит отметить, что алгоритмы бикластеризации уже успели проникнуть в область анализа текстовых данных и стать одним из базовых инструментов для исследователей. Отсюда можно сделать вывод, что на сегодняшний день существует потребность в специализированном программном обеспечении для бикластерного анализа текстовых данных, которого на сегодняшний день, по-видимому, не существует. Такое программное обеспечение должно обладать достаточной гибкостью для удовлетворения потребностей различных исследователей и разработчиков программного обеспечения (ПО) — это касается использования различных алгоритмов бикластеризации, метрик релевантности и так далее. Также нужно отметить, что применение алгоритмов бикластеризации в области обработки текстов в основном касается только матриц/графов связей между словами и документами, но при этом не уделяется внимание бикластерам ключевых фраз, что лишь подтверждает актуальность разработки ПО для бикластерного анализа текстов.
В связи с этим, перед нами стояла задача разработать программу, предоставляющую методы бикластеризации англоязычных текстов для исследователей и разработчиков ПО. Разработанная программа также отличается тем, что предлагает возможность загружать коллекции текстов — аннотации к научным статьям на заданную тематику от известных издателей (IEEE, Springer), выделять ключевые слова и словосочетания из коллекции текстов и загружать ключевые словосочетания, предоставляемые непосредственно электронной библиотекой. Всё это может освободить пользователя от необходимости самостоятельно подготавливать коллекции текстов и ключевых фраз для анализа.
Упор здесь делается на анализ именно англоязычных текстов, так как большинство существующих методов обработки естественного языка заточено на работу с английскими словами. Также наиболее популярные электронные библиотеки (такие как IEEE Xplore и Springer) предоставляют доступ только к англоязычным статьям. Однако в дальнейшем планируется адаптировать реализованный инструмент для работы и с русскоязычными текстами.