Помощь в учёбе, очень быстро...
Работаем вместе до победы

Анализ основных понятий предмета исследования

РефератПомощь в написанииУзнать стоимостьмоей работы

Несмторя на то, что понятие БД еще формируется, некоторые специалисты готовы представить конкретные цифровые значения для оценки определения. На конференции «Большие данные и бизнес-аналитика 2012» в докладе менеджера по исследованиям IDC Александра Прохорова к классическому определению было добавлено четвертое V — Value (ценность) и числовые оценки характеристик больших данных: объем БД не менее… Читать ещё >

Анализ основных понятий предмета исследования (реферат, курсовая, диплом, контрольная)

Определение понятия больших данных (БД)

1) Определение БД и разногласия

Термин «большие данные» впервые появился в 1997 году в научных трудах сотрудников NASA при описании трудностей визуализации данных таких объемов, при которых они не могли быть размещены на основных, локальных и удаленных дисках. Массовую же популярность БД получили позже, в 2008 году, когда группа американских ученых впервые подняла вопрос важности обработки БД и перспектив применения вычислений больших данных как для частного бизнеса, так и для государственных организаций [http://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/].

Традиционное определение, на которое в дальнейшем ссылались первые работы в области больших данных, описано в Oxford English Dictionary (OED). Согласно словарю, большие данные — это данные таких значительных размеров, при которых их обработка и управление такими данными представляют технические проблемы для существующих систем (ориг.: «big data is a data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges»).

Одно из весьма распространенных определений, к которому обращаются современные работы, представлено независимым исследовательским подразделением MGI (McKinsey Global Institute). В отчете, опубликованном в 2011 году, говорится о больших наборах данных, размер которых значительно превышает возможности типичных программных средств сбора, хранения, управления и анализа данных. Авторы признают субъективность данного определения, не приводя конкретные цифровые значения в Тб, ссылаясь на то, что со временем размеры «больших» данных заметно вырастут. Также они отмечают, что определение БД может отличаться в зависимости от индустрии, используемых программных средств и определенных размеров данных в той или иной области. Таким образом, объемы БД могут находиться в диапазоне от нескольких террабайтов до нескольких петабайтов. В исследовании дается понимание цифровых больших данных, ценность работы с ними как для частных, так и для публичных компаний на примере детального рассмотрения пяти областей: медицина, ритейл в США, государственный сектор в Европе, производство и управление частными данными на глобальном рынке.

Идею о том, что при определении «больших данных», не стоит ограничивать размеры информации точными численными значениями, поддерживается также в одной из популярнейших книг, посвященной исследованию больших данных — «Большие данные. Революция, которая изменит то, как мы живем и мыслим», В. Майер-Шенбергер, К. Кукьер [" Большие данные. Революция, которая изменит то, как мы живем и мыслим", В. Майер-Шенбергер, К. Кукьер]. Авторы отмечают, что не существует единого строго определения БД, при этом в рамках одиного из подходов, рассматриваемых в книге, понятие «больших данных» относится к операциям, которые можно выполнять исключительно в большом масштабе, т. е. в основе БД лежит понимание того, что с ними можно сделать и почему размер данных имеет значение: «…things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value.» В книге также подчеркивается важность корреляций, которые могут быть обнаружены благодаря аналитике БД, и которые, возможно, в корне поменяют понимание причинности рассматриваемых процессов.

Такое понимание БД применяется различными компаниями на практике. Так ведущий вендор решений Big Data — компания SAP — определяет большие данные как «группу технологий и методов производительной обработки динамически растущих объемов данных (структурированных и неструктурированный) в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информацией» [презентация САП].

В основе этого определения лежит описание технологии БД, данное в 2001 году аналитиком Дугом Лэйни, которое описывает три главные характеристики «больших» данных 3Vs: — Volume, Variety, Velocity:

1. Volume — объем (эффективное хранение и обработка больших объемов данных). Рост объема накопленных данных также характеризуется большим количеством нерелевантных данных, таким образом уменьшая относительную ценность отдельно взятой единицы данных [http://blogs. gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/] http://blogs. gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/.

Deja VVVu: Others Claiming Gartner’s Construct for Big Data];

  • 2. Variety — разнообразие (обработка и классификация структурированной, полуструктурированной и неструктурированной информации (к ним относят неструктурированные файлы, цифровое видео, изображения, данные датчиков, log-файлы и вообще любые данные, не содержащие в записях специальных поисковых полей. Неструктурированные данные интересны, но из них трудно синтезировать бизнес-аналитику или сделать выводы, если они не коррелируют со структурированными данными);
  • 3. Velocity — скорость обработки информации. Например, в электронной коммерции существует понятие point-of-interaction (POI) speed — темп данных поддерживающих выполнений итерации и генерируемых в ходе ее выполнения. Высокий уровень данного показателя дает бизнесу конкурентные преимущества, такие как более бытсрое реагирования веб-сайта на действия пользователя, аналитика в режиме реального времени о свойствах поведения посетителя интернет-ресурса, управление поставками и логистика товара и т. д.

Эти три характеристики также представлены в определении компании Gartner: «большие» данные — «технологии и архитектуры нового поколения для экономичного извлечения ценности из разноформатных данных большого объема путем их быстрого захвата, обработки и анализа» [http://compress.ru/article. aspx? id=23 469#10].

Несмторя на то, что понятие БД еще формируется, некоторые специалисты готовы представить конкретные цифровые значения для оценки определения. На конференции «Большие данные и бизнес-аналитика 2012» в докладе менеджера по исследованиям IDC Александра Прохорова к классическому определению было добавлено четвертое V — Value (ценность) и числовые оценки характеристик больших данных: объем БД не менее 100 Тбайт; скорость представлена двумя видами — это скорость захвата и обработки данных в режиме реального времени более 60Гбит/с и скорость накапливания информации более 10% в год (такие значения характеризуют ситуацию, при которой объем накопленных данных велик, но расширение возможностей существующей ИТ-инфраструктуры будет экономически нецелесообразно — в такой ситуации рекомендуется рассмотреть переход на технологии Big Data); вариативность или разнообразие данных означает сбор данных либо из разных источников, либо данных разных форматов. При этом, специалисты IDC отмечают, что данные критерии не обязательно должны выполняться одновременно, и численные оценки являются актуальными только на текущий момент.

Иногда, говоря о БД, в различных источниках упоминают пятую характеристику — Veracity (достоверность) [ http://blogs. sap.com/innovation/big-data/2-more-big-data-vs-value-and-veracity-1 242 817, http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/]. Достоверность данных очень сильно может повлиять на окончательный результат, полученный на выходе после обработки не совсем «чистых» данных. Цена такой погрешности, например, в медицине может быть весьма велика. Но в данной работе эта характеристика не будет рассматриваться отдельно, поскольку для решения этой проблемы недостаточно совершенствования только информационных технологий, необходимо улучшение процедур рассматриваемого процесса и учет влияния человеческого фактора в ходе работы с данными, и внашем исследоавнии она не будет играть критически важную роль в определении «Больших» данных, предположив, что рассматриваемые нами данные достоверны по своей сути (при это не исключены «шумы» в данных на уровне, не влияющем на процесс принятия решения на основе представленной и полученной информации).

БД в других трендах (Маки)

Но при этом ряд работ ([Big Data: A Survey Min Chen · Shiwen Mao · Yunhao Liu, Springer], исследование McKinsey) подчеркивают важность понимания того, какое место большие данные занимают среди других технологий, которые будут определять стратегическое развитие компаний в ближайшие годы. К таким технологиям относятся облачные вычисления, Интернет вещей, дата-центры и технология Hadoop — лидирующие ИТ-тренды, согласно спискам Gartner 2014;2015.

Большие данные являются неотъемлемой частью облачных технологий и предоставляют широкие возможности для использования как традиционной, структурированной информации из баз данных, так и неструткурированной и полу-структурированной информации, собранной из различных источников. Данные больших объемов участвуют в вычислительных операциях и в организации хранения данных в «облаке». Суть облачных вычислений заключается в предоставлении достаточных вычислительных мощностей для приложений, работающих с большими объемами информации, здесь «облака» могут рассматриваться как решения для хранения и обработки БД: распределенные вычисления могут стать ключом к управлению, а также анализу данных. Несмотря на то, что эти технологии во многом схожи, помимо различных целевых аудиторий, облачные вычисления отличаются тем, что преобразуют ИТ-инфраструктуру предприятия, в то время как большие данные влияют на процесс принятия решений в бизнесе. Согласно исследования ЕМС, роль облачных технологий в управлении БД будет расти ти видоизменяться. Количество сервероыв в мире вырастет примерно в 10 раз, в то время как объем обрабатываемых данных из ЦОД увеличится в 14 раз. Все больше «облака» будут использоваться для работы с личными данными, сферой развлечения, данными систем видеонаблюдения и т. п., менее чем с традиционными корпоративными данными, обрабатываемыми сейчас.

Еще одна технология, тесно связанная с понятием БД — это Интернет вещей (Internet of Things). Эта область порождает огромное количество данных, например, данные датчиков, установленных на различных приборах и машинах. Такие сенсоры могут применяться в любой отрасли и передавать информацию о состоянии окружающей среды, данные управления транспортом, об эмоциональном настрое покупателей, данные системы управления «умным домом». Такие данные обладают высоким уровнем разнообразия, неструктурированности, зачастую отличающихся присутствием шумов, избыточностью нерелевантных данных. Данные «Интернета вещей» пока не составляют основную часть среди больших данных, тем не менее к 2030 году, согласно исследованию McKinsey, количество датчиков и сенсоров достигнет порядка 1 триллиона и Интернет вещей составит превалирующую долю «больших данных», согласно исследованию НР [BigDataSurvey2014]. Кроме того, развитие Интернета вещей будет способствовать росту доли полезной информации — до 35% к 2020 году. Сегодня только 22% собранной информации является полезной, и только 5% действительно анализируются.

Большие данные также напрямую связаны с дата-центрами, поскольку организация дата-центров — это не только платформа хранения данных, но и управление данными, использование аналитических инструментов, что требует развитие не только аппаратного, но и программного обеспечения. Вместе с развитием больших данных будет увеличиваться роль дата-центров и разнообразие выполняемых ими функций.

Технология Hadoop, упоминание которой неразврывно связано с развитием БД, широко используется в приложениях по боработке данных в различных отраслях, например, для фильтрации спама, поиска взаимосвязей между объектами, потокового анализа информации, отслежвания социальных активностей целевой аудитории и т. д. Hadoop используется для надежных, масштабируемых и распределенных вычислений, но может также применяться и как хранилище файлов общего назначения, способное вместить петабайты данных. Многие компании используют Hadoop в исследовательских и производственных целях. Сегодня фреймворк Apache Hadoop лежит в основе большинства решений «больших» данных таких крупных ИТ-компаний, как Cloudera, IBM, MapR, EMC, Oracle.

Таким образом, под термином «большие» данные — одно из лидирующих стратегических направлений среди «Интернета вещей», облачных вычислений, дата-центров — мы будем понимать набор технологий и методов обработки динамически растущих объемов данных, анализирующихся в распределенных информационных системах, обладающих одной или несколькими характеристиками в совокупности.

  • 1) данные поступают из одного или нескольких разных источников или (и) обладают разной степенью структурированностью и форматом представления;
  • 2) объем накопленных данных превышает 100 Тбайт;
  • 3) данные поступают через высокоскоростную потоковую передачу и объем генерируемых данных растет со скоростью более 60% в год;

и обеспечивающих организацию качественно новой полезной информацией.

Показать весь текст
Заполнить форму текущей работой