Big Data: что это такое и какие технологии применения?
Сейчас можно все чаще услышать термин Big Data, но не каждый понимает, что это такое и как оно работает. Big Data – это большие объемы информации – структурированные или неструктурированные, а также технологии, инструменты и методы для ее обработки. Большие данные используются для решения задач и достижения конкретных целей.
Сам термин появился в 2008 году, его ввел журналист Клиффорд Линч, однако сами по себе большие данные существовали и до этого. К Big Data специалисты относят данные, объем которых превышает 150 ГБ в день.
Простыми словами технология представляет собой хранение и обработку информации. Вплоть до 2011 года большими данными интересовались только в разрезе исследований и научной деятельности, но с 2012 года появилась потребность в их практическом применении.
Уже в 2014 году на Big Data обратили внимание ведущие вузы и крупные корпорации, а сегодня работа с большими массивами данных проводится во многих отраслях и даже государственных органах.
Что такое Big Data?
Big Data не является обычной базой данных, даже если в ней содержится большой объем информации. Для более глубокого понимания советуем вам ознакомиться с таблицей, в которой представлены основные отличия:
Не большие данные | Большие данные |
База с данными о сотрудниках; такой сет включает, как правило, известные заранее характеристики. | Журнал всех действий персонала. |
Информация о сотрудниках (независимо от их количества) – это всего лишь большая база данных. | Биг дата содержит информацию обо всех действиях пользователей. |
Архивы видеозаписей с городских камер. | Информация, полученная непосредственно при использовании этих камер. Например, номера автомобилей, фотографии лиц, распознанных в метро с помощью нейросети и другое. |
С совершенствованием технологий увеличивается и объем данных. Например, несколько десятилетий назад большими данными можно было считать информацию до 5 мегабайт, ведь именно такого размера был самый объемный жесткий диск в 1960-х, при этом его реальный вес был около тонны. Теперь такая информация может спокойно уместиться на жестком диске домашнего компьютера.
В наше время единица измерения для Big Data – петабайт, который равен миллиону гигабайт. Чтобы лучше представить масштаб, в качестве примера можно взять популярный видеохостинг YouTube. Размер всего сервиса равен 5 петабайтам.
Для работы с Big Data требуется специальное программное обеспечение, так как большинство базовых технологий, не рассчитанных на работу с большими данными, не смогут с ними справиться.
Такие технологии называются «горизонтально масштабируемыми», потому что в основе их работы лежит распределение задач на несколько компьютеров. Программы обработки больших данных функционируют на основе MapReduce.


Основы функционирования
Исследователь задает условия для фильтрации и сортировки больших данных, далее они распределяются между компьютерами.
Путем параллельной обработки узлы рассчитывают блоки данных и передают результат на следующую итерацию.
Сам MapReduce представляет собой технологию для обработки больших данных. На ее основе разрабатывается ПО.


Примеры ПО на основе MapReduce
Hadoop. Популярностью пользуется благодаря открытому исходному коду и возможности совместной обработки данных.
Apache Spark. Заинтересовал многих специалистов своей универсальностью. Такое ПО применяют как для простой обработки данных, так и для машинного обучения.
Специалисты, работающие с большими данными, используют обе технологии. Hadoop помогает создать инфраструктуру данных, а Apache Spark обрабатывает потоковую информацию. Для работы с Big Data используются многие сервисы, но эти наиболее распространены.
Также стоит сказать о характеристиках данных. Сегодня специалисты, работающие с Big Data, выдвигают следующие основные характеристики больших данных.


Характеристики
Volume. Под ним подразумевается объем больших данных – от 150 гб в сутки.
Velocity. Скорость накопления и обработки больших данных. Для работы с большими данными требуются актуальные технологии, так как они регулярно обновляются.
Variety. Разнообразие видов больших данных. Они могут быть структурированными или неструктурированными.
Veracity. Достоверность набора и результатов анализа больших данных.
Variability. Изменчивость больших данных. У Big Data могут быть пики и спады под влиянием различных факторов. Данные наибольшей нестабильности сложнее анализировать.
Value. Ценность больших данных. По классу восприятия и анализа большие данные могут быть как простыми, так и сложными.
Большие данные отличаются широкой сферой применения. Сюда можно причислить науку, маркетинг, здравоохранение и даже автомобилестроение. Большие данные используются во всех сферах, где происходит обработка массивных потоков информации. Таким образом можно выделить основные задачи, с которыми бизнесу помогают справляться большие данные.

Многие рутинные процессы можно автоматизировать и оптимизировать с помощью больших данных. Например, такая технология используется при обучении чат-ботов.
01
Анализ больших данных в сфере продаж помогает предсказать поведение клиентов и спрос на определенные товары в зависимости от определенных условий. Таким образом Big Data помогает стратегии развития компании.
02
Работа с Big Data позволяет как систематизировать большие данные, так и устанавливать причинно-следственные связи, которые на первый взгляд кажутся неочевидными.
03
На основе обработки больших данных предприятия строят модели прогнозирования выручки.
04Несмотря на то, что практически любой бизнес заинтересован в использовании Big Data, есть несколько отраслей, в которых большие данные пользуются наибольшим спросом.
Это лишь некоторые отрасли, в которых используются data-сервисы. Сегодня они набирают обороты с невиданной скоростью. Так, например, каждые десять минут в 2015 году в мире генерировалось информации примерно столько же, сколько за весь 2003 год.
Год за годом большие данные постепенно меняют мир. Если изначально подобные технологии использовались лишь в профессиональной деятельности, то сегодня влияние больших данных можно заметить даже в повседневной жизни.
Способы анализа больших данных
Для более глубокого понимания что такое Big Data, стоит также рассмотреть методы анализа, которые используются в работе с данными.

Предиктивная аналитика служит средством для прогнозирования вероятности развития тех или иных событий на основе имеющихся данных. Данный метод анализа полезен в банковской деятельности и финансовой сфере, так как он, например, может предсказывать ситуацию на фондовом рынке или оценивать возможность заемщика, подающего заявку на кредит.
01
Описательная аналитика – это наиболее распространенный способ работы с данными, который занимается анализом поступающей информации в реальном времени, а также исторических сведений. На основе этого она позволяет ответить на вопрос «что произошло?». Главная задача описательной аналитики заключается в выяснении причин успехов или неудач; в последующем эти результаты используются для построения наиболее эффективных моделей. Сюда можно отнести социологические исследования и веб-статистику.
02
В предписательной аналитике данными выявляются проблемные места на предприятии и рассчитывается сценарий, который помогает избежать подобных проблем в будущем. Например, в медицине такой подход может снизить процент повторных госпитализаций.
03
Диагностическая аналитика отвечает на вопрос «почему так произошло?», она выявляет связи между событиями, которые привели к тем или иным ситуациям в бизнесе.
04

Технологии для работы с данными
ПО: NoSQL, MapReduce, Apache Spark и другие.
Data mining.
Нейросети, которые с помощью данных строят модели.
Визуализация аналитики – различные графики и схемы, в основе которых лежат данные.
Кто работает с Big Data
С большими данными работают дата-сайентисты, дата-инженеры и аналитики.
Ключевой задачей дата-сайентистов является поиск закономерностей и прогнозирование событий на их основе. Они используют математический анализ и языки программирования (наиболее распространенным является Python), а также SQL-базы данных.
Аналитики пользуются тем же инструментарием, но выполняют другую задачу. Они готовят описательный анализ, а после интерпретируют и переводят в удобочитаемый вид. На его основе строится статистика и прогнозы.
Дата-инженеры создают программное обеспечение и помогают в автоматизации процессов на предприятиях. Вместе с инструментарием сайентистов, они должны обладать компетенцией работы с фреймворками.
Помимо этого, данными пользуется ряд других специалистов:
- дизайнеры пользовательских интерфейсов, которые используют аналитику поведенческих особенностей пользователей для создания удобного интерфейса;
- NLP-инженеры, занимающиеся разработкой программного обеспечения для чат-ботов;
- маркетологи, пользуясь данными, выстраивают маркетинговую политику компании;
- штатные программисты, занимающиеся обработкой информации.
Перспективы
С каждым годом растет не только объем данных, но и их востребованность. Положительный расклад предполагает, что рынок Big Data в России в ближайшие пару лет вырастет до 230 млрд рублей.
Те компании, которые не прибегают к работе с данными, уже могут заметить упущенную выгоду. Некоторые крупные холдинги ежегодно упускали до 18 млрд долларов, не желая внедрять технологии обработки больших данных.
Вместе с тем растет и востребованность в специалистах, которые могут грамотно работать с большими массивами информации. За последние несколько лет число вакансий на подобные должности увеличилось в десятки раз.


Достоинства
Они становятся инструментом для решения глобальных мировых проблем, например выступают ключом к предотвращению экологического кризиса, а также важным элементом в поиске лекарства от многих неизлечимых заболеваний.
Решают проблемы транспорта.
Помогают экономить средства целым государствам, яркий пример – Германия, которая вернула в бюджет около 15 млрд евро, по транзакциям отследив людей, получающих пособие по безработице без весомых оснований.
Многие эксперты, занимающиеся изучением этой отрасли, говорят о том, что в ближайшие несколько лет большие данные будут главным инструментом в решении еще большего спектра мировых и локальных проблем.
Малому и среднему бизнесу они обеспечивают эффективную стратегию развития и конкурентоспособность.


Популярные технологии на основе Big Data
Облачные хранилища, позволяющие работать с данными в онлайн пространстве.
Нейронные сети для решения задач и оптимизации процессов.
Dark data-сервисы, собирающие информацию, которая не имеет явного интереса для развития бизнеса, но необходима на законодательном уровне.
Блокчейн, упрощающий транзакции и снижающий расходы на проведение операций.
Читайте также

Миграция базы данных

Интеграции информационных систем: виды и применение

Минусы работы с Big data
Остались вопросы?
Оставьте контактные данные и мы свяжемся с вами в ближайшее время