Что такое большие данные (Big Data)

Термин большие данные (Big Data) появился в начале 2000-х, когда глобальные IT-корпорации, в частности, Google, уже накопили данные такого объема, что с ними невозможно стало справляться традиционными методами.

А метод на тот момент был следующий — вертикальное масштабирование:

Т.е. тогда единственным ответом на необходимость увеличения объемов обрабатываемых данных было постоянное повышение мощности сервера, обрабатывающего эти данные. Более мощные процессоры. Больше более быстрой оперативной памяти, желательно с контролем четности. Более быстрые шины передачи данных. Более производительные и отказоустойчивые жесткие диски. Но… в какой-то момент времени это просто перестало работать. Мало того, что серверы такого уровня стали стоить как крыло самолета, так и в целом индустрия уперлась в потолок повышения производительности серверного оборудования.

В ответ на это и на необходимость как-то хранить и обрабатывать терабайты и петабайты данных глобальной сети Интернет в 2000-м году корпорация Google разработала Google File System, которая работала по принципам горизонтального масштабирования. При необходимости обработки бОльшего объема данных в вычислительный кластер просто добавлялись дополнительные компьютеры (ноды). Сама технология позволяла работать с кластерами недорогих и не особо надежных машин, тем не менее, добиваясь высокой надежности хранения и производительности обработки данных. На основе этой архитектуры в 2005-м году компанией Yahoo был разработан фреймворк с открытым исходным кодом Hadoop.

Именно с этого момента зародился сам термин Big Data, зародилась и постепенно улучшалась сама технология обработки больших данных (а фирмы, выпускавшие дорогие high-end сервера, обанкротились).

Основные характеристики больших данных (5V):

Volume (объем). Огромные массивы данных: тера- и петабайты.
Velocity (скорость). Данные генерируются и обрабатываются очень быстро. Часто — в режиме реального времени.
Variety (многообразие). Данные поступают в разных форматах: структурированном виде (табличный формат) и неструктурированном: банковские транзакции, текст, изображения, видео, данные сенсоров, логи, посты в социальных сетях и т. д.
Veracity (проблема достоверности). Данные могут быть неполными, дублированными, частично отсутствующими, или ошибочными. Здесь приходим к необходимости системной работы над качеством данных.
Value (ценность). Цель состоит в выработке основы для принятия data-driven решений и создании бизнес-ценности.

Как это все работает:

Сбор. Данные поступают из разных источников (онлайн-платформы, приложения, устройства).
Хранение. Используются распределенные хранилища (Hadoop и/или облачные решения).
Обработка и анализ. Данные очищаются, обрабатываются и хранятся для принятия бизнес-решений. К ним могут применяться методы машинного обучения, алгоритмы Data Science для поиска закономерностей.

Применение:

Маркетинг. Персонализация предложений и таргетированная реклама.
Финансы. Оценка рисков, обнаружение мошенничества.
Ритейл. Анализ и предсказание покупательского спроса.
Телеком. Оптимизация сети и анализ поведения абонентов.

Специалисты, работающие с Big Data, включают аналитиков, инженеров данных (Data Engineers) и Data Scientists.