
Термин большие данные (Big Data) появился в начале 2000-х, когда глобальные IT-корпорации, в частности, Google, уже накопили данные такого объема, что с ними невозможно стало справляться традиционными методами.
А метод на тот момент был следующий — вертикальное масштабирование:

Т.е. тогда единственным ответом на необходимость увеличения объемов обрабатываемых данных было постоянное повышение мощности сервера, обрабатывающего эти данные. Более мощные процессоры. Больше более быстрой оперативной памяти, желательно с контролем четности. Более быстрые шины передачи данных. Более производительные и отказоустойчивые жесткие диски. Но… в какой-то момент времени это просто перестало работать. Мало того, что серверы такого уровня стали стоить как крыло самолета, так и в целом индустрия уперлась в потолок повышения производительности серверного оборудования.
В ответ на это и на необходимость как-то хранить и обрабатывать терабайты и петабайты данных глобальной сети Интернет в 2000-м году корпорация Google разработала Google File System, которая работала по принципам горизонтального масштабирования. При необходимости обработки бОльшего объема данных в вычислительный кластер просто добавлялись дополнительные компьютеры (ноды). Сама технология позволяла работать с кластерами недорогих и не особо надежных машин, тем не менее, добиваясь высокой надежности хранения и производительности обработки данных. На основе этой архитектуры в 2005-м году компанией Yahoo был разработан фреймворк с открытым исходным кодом Hadoop.


Термин большие данные (Big Data) появился в начале 2000-х, когда глобальные IT-корпорации, в частности, Google, уже накопили данные такого объема, что с ними невозможно стало справляться традиционными методами.
А метод на тот момент был следующий — вертикальное масштабирование:

Т.е. тогда единственным ответом на необходимость увеличения объемов обрабатываемых данных было постоянное повышение мощности сервера, обрабатывающего эти данные. Более мощные процессоры. Больше более быстрой оперативной памяти, желательно с контролем четности. Более быстрые шины передачи данных. Более производительные и отказоустойчивые жесткие диски. Но… в какой-то момент времени это просто перестало работать. Мало того, что серверы такого уровня стали стоить как крыло самолета, так и в целом индустрия уперлась в потолок повышения производительности серверного оборудования.
В ответ на это и на необходимость как-то хранить и обрабатывать терабайты и петабайты данных глобальной сети Интернет в 2000-м году корпорация Google разработала Google File System, которая работала по принципам горизонтального масштабирования. При необходимости обработки бОльшего объема данных в вычислительный кластер просто добавлялись дополнительные компьютеры (ноды). Сама технология позволяла работать с кластерами недорогих и не особо надежных машин, тем не менее, добиваясь высокой надежности хранения и производительности обработки данных. На основе этой архитектуры в 2005-м году компанией Yahoo был разработан фреймворк с открытым исходным кодом Hadoop.


