Хранение Больших Данных

Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data».
- Объём. Как мы только что заметили, данных очень много и их объём постоянно растет. Это требует принципиально новых устройств и алгоритмов для хранения информации.
- Скорость. Сами по себе данные почти бесполезны, если их не обрабатывать, причем обрабатывать быстро. Кстати, скорость – понятие весьма относительное, и то, что для одних данных – очень быстро, для других будет непозволительно медленно.
- Неоднородность. Данные могут быть самыми разными: по важности, скорости обновления, дополнения и т. п. Всё это требует разных форматов хранения.
- Безопасность. Данные не должны теряться; несанкционированный доступ к ним также нежелателен.
Этот список можно продолжать, однако любая проблема – обратная сторона возможностей. Компания Amazon, известная своим онлайн-магазином, только в 2013 году заработала на своих облачных сервисах около 4 млрд долларов. В 2014 году, по разным оценкам, эта сумма может составить от 6 до 10 млрд.
Существует три способа хранения цифровых данных:
- Традиционный: «где-то у себя» – на дисках, лентах, локальных хранилищах и т. д.;
- В публичных «облаках»: от таких гигантов, как Amazon, Microsoft и Google или от компаний поменьше;
- В частных «облаках»: вариант, более характерный для корпоративного сегмента; хранилище входит в инфраструктуру компании и доступно только её сотрудникам.
Разберём некоторые плюсы и минусы этих подходов.
▍Хранение «у себя»
Наиболее привычно для большинства из нас. Информация записывается на локальные хранилища – диски, RAID массивы, ленты и пр.Плюсы
- Это привычно. Данные всегда рядом, и нам так спокойнее.
- Скорость доступа. Как правило, к локальному носителю можно легко и быстро подключиться.
- Цена. Хотя она может быть и минусом.
Минусы
- Ненадёжность. Диски и серверы выходят из строя в результате физического износа. Каким бы надежным ни был сервер, он не защитит данные от природных катаклизмов или от банального воровства.
- Доступ к данным. Издалека отсутствует, неудобен, или, как минимум, не всегда безопасен.
- Масштабирование. Его возможности, как правило, ограничены. Нужно покупать новые носители и где-то их размещать. Что если сегодня вам надо 10 Тб, завтра – всего лишь 5, а послезавтра – все 50?
▍Публичные облака
Предоставляют возможность хранить данные в облаке за определенную плату, которая зависит от объёма данных и сопутствующих услуг.Source: habrahabr.ru
javakube статьи по разработке приложений для kubernetes