Аналитический инструментарий.
Big Data

РефератПомощь в написанииУзнать стоимостьмоей работы

Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов… Читать ещё >

Аналитический инструментарий. Big Data (реферат, курсовая, диплом, контрольная)

Некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:

· 1010data;
· Apache Chukwa;
· Apache Hadoop;
· Apache Hive;
· Apache Pig!;
· Jaspersoft;
· LexisNexis Risk Solutions HPCC Systems;
· MapReduce;
· Revolution Analytics (на базе языка R для мат. статистики).

Особый интерес в этом списке представляет Apache Hadoop — ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. В настоящее время практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Визуализация

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.

· Облако тегов

· Кластерграмма Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров — важная составляющая кластерного анализа.

· Исторический поток Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной — вклад каждого из соавторов, т. е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма — результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.

· Пространственный поток Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия — тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Анализ согласованности требований и спецификаций

На приведена диаграмма последовательности для функции создания анкеты сотрудника. При создании анкеты Сотрудник отдела кадров вводит атрибуты сотрудника, для которого создается анкета: Код, ФИО сотрудника, Документ, удостоверяющий личность, Серия и номер документа, Пол, Подразделение, Семейное положение, Должность, Категория сотрудника, Разряд, Дата рождения, Адрес, Образование, ИНН, Дата приема…

Реферат