Что такое Big Data и почему их называют «новой нефтью»
Смартфоны предлагают нам загрузить все данные в облако, а большие компании вроде Google и «Яндекса» — воспользоваться своими экосистемами. Проще говоря, мы живем в эпоху Big Data. Но что это значит на самом деле?
Что такое Big Data?
Big Data или большие данные — это структурированные или неструктурированные массивы данных большого объема. Их обрабатывают при помощи специальных автоматизированных инструментов, чтобы использовать для статистики, анализа, прогнозов и принятия решений. Сам термин «большие данные» предложил редактор журнала Nature Клиффорд Линч в спецвыпуске 2008 года [1]. Он говорил о взрывном росте объемов информации в мире. К большим данным Линч отнес любые массивы неоднородных данных более 150 Гб в сутки, однако единого критерия до сих пор не существует.
«Лиза Алерт» использует Big Data, чтобы находить пропавших людей
До 2011 года анализом больших данных занимались только в рамках научных и статистических исследований. Но к началу 2012-го объемы данных выросли до огромных масштабов, и возникла потребность в их систематизации и практическом применении.
Всплеск интереса к большим данным в Google Trends
С 2014 на Big Data обратили внимание ведущие мировые вузы, где обучают прикладным инженерным и IT-специальностям. Затем к сбору и анализу подключились IT-корпорации — такие, как Microsoft, IBM, Oracle, EMC, а затем и Google, Apple, Facebook (с 21 марта 2022 года соцсеть запрещена в России решением суда) и Amazon. Сегодня большие данные используют крупные компании во всех отраслях, а также — госорганы. Подробнее об этом — в материале «Кто и зачем собирает большие данные?»
Какие есть характеристики Big Data?
- Volume — объем данных: от 150 Гб в сутки;
- Velocity — скорость накопления и обработки массивов данных. Большие данные обновляются регулярно, поэтому необходимы интеллектуальные технологии для их обработки в режиме онлайн;
- Variety — разнообразие типов данных. Данные могут быть структурированными, неструктурированными или структурированными частично. Например, в соцсетях поток данных не структурирован: это могут быть текстовые посты, фото или видео.
Сегодня к этим трем добавляют еще три признака [3]:
- Veracity — достоверность как самого набора данных, так и результатов его анализа;
- Variability — изменчивость. У потоков данных бывают свои пики и спады под влиянием сезонов или социальных явлений. Чем нестабильнее и изменчивее поток данных, тем сложнее его анализировать;
- Value — ценность или значимость. Как и любая информация, большие данные могут быть простыми или сложными для восприятия и анализа. Пример простых данных — это посты в соцсетях, сложных — банковские транзакции.
Как работает Big Data: как собирают и хранят большие данные?
Большие данные необходимы, чтобы проанализировать все значимые факторы и принять правильное решение. С помощью Big Data строят модели-симуляции, чтобы протестировать то или иное решение, идею, продукт.
Главные источники больших данных:
- интернет вещей (IoT) и подключенные к нему устройства;
- соцсети, блоги и СМИ;
- данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
- показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;
- статистика городов и государств: данные о перемещениях, рождаемости и смертности;
- медицинские данные: анализы, заболевания, диагностические снимки.
С 2007 года в распоряжении ФБР и ЦРУ появилась PRISM — один из самых продвинутых сервисов, который собирает персональные данные обо всех пользователях соцсетей, а также сервисов Microsoft, Google, Apple, Yahoo и даже записи телефонных разговоров.
Современные вычислительные системы обеспечивают мгновенный доступ к массивам больших данных. Для их хранения используют специальные дата-центры с самыми мощными серверами.
Как выглядит современный дата-центр
Помимо традиционных, физических серверов используют облачные хранилища, «озера данных» (data lake — хранилища большого объема неструктурированных данных из одного источника) и Hadoop — фреймворк, состоящий из набора утилит для разработки и выполнения программ распределенных вычислений. Для работы с Big Data применяют передовые методы интеграции и управления, а также подготовки данных для аналитики.
Big Data Analytics — как анализируют большие данные?
Благодаря высокопроизводительным технологиям — таким, как грид-вычисления или аналитика в оперативной памяти, компании могут использовать любые объемы больших данных для анализа. Иногда Big Data сначала структурируют, отбирая только те, что нужны для анализа. Все чаще большие данные применяют для задач в рамках расширенной аналитики, включая искусственный интеллект.
Выделяют четыре основных метода анализа Big Data [4]:
1. Описательная аналитика (descriptive analytics) — самая распространенная. Она отвечает на вопрос «Что произошло?», анализирует данные, поступающие в реальном времени, и исторические данные. Главная цель — выяснить причины и закономерности успехов или неудач в той или иной сфере, чтобы использовать эти данные для наиболее эффективных моделей. Для описательной аналитики используют базовые математические функции. Типичный пример — социологические исследования или данные веб-статистики, которые компания получает через Google Analytics.
«Есть два больших класса моделей для принятия решений по ценообразованию. Первый отталкивается от рыночных цен на тот или иной товар. Данные о ценниках в других магазинах собираются, анализируются и на их основе по определенным правилам устанавливаются собственные цены.
Второй класс моделей связан с выстраиванием кривой спроса, которая отражает объемы продаж в зависимости от цены. Это более аналитическая история. В онлайне такой механизм применяется очень широко, и мы переносим эту технологию из онлайна в офлайн».
2. Прогнозная или предикативная аналитика (predictive analytics) — помогает спрогнозировать наиболее вероятное развитие событий на основе имеющихся данных. Для этого используют готовые шаблоны на основе каких-либо объектов или явлений с аналогичным набором характеристик. С помощью предикативной (или предиктивной, прогнозной) аналитики можно, например, просчитать обвал или изменение цен на фондовом рынке. Или оценить возможности потенциального заемщика по выплате кредита.
3. Предписательная аналитика (prescriptive analytics) — следующий уровень по сравнению с прогнозной. С помощью Big Data и современных технологий можно выявить проблемные точки в бизнесе или любой другой деятельности и рассчитать, при каком сценарии их можно избежать их в будущем.
Сеть медицинских центров Aurora Health Care ежегодно экономит $6 млн за счет предписывающей аналитики: ей удалось снизить число повторных госпитализаций на 10% [5].
4. Диагностическая аналитика (diagnostic analytics) — использует данные, чтобы проанализировать причины произошедшего. Это помогает выявлять аномалии и случайные связи между событиями и действиями.
Например, Amazon анализирует данные о продажах и валовой прибыли для различных продуктов, чтобы выяснить, почему они принесли меньше дохода, чем ожидалось.
Данные обрабатывают и анализируют с помощью различных инструментов и технологий [6] [7]:
- Cпециальное ПО: NoSQL, MapReduce, Hadoop, R;
- Data mining — извлечение из массивов ранее неизвестных данных с помощью большого набора техник;
- ИИ и нейросети — для построения моделей на основе Big Data, включая распознавание текста и изображений. Например, оператор лотерей «Столото» сделал большие данные основой своей стратегии в рамках Data-driven Organization. С помощью Big Data и искусственного интеллекта компания анализирует клиентский опыт и предлагает персонифицированные продукты и сервисы;
- Визуализация аналитических данных — анимированные модели или графики, созданные на основе больших данных.
Примеры визуализации данных (data-driven animation)
Как отметил в подкасте РБК Трендов менеджер по развитию IoT «Яндекс.Облака» Александр Сурков, разработчики придерживаются двух критериев сбора информации:
- Обезличивание данных делает персональную информацию пользователей в какой-то степени недоступной;
- Агрегированность данных позволяет оперировать лишь со средними показателями.
Чтобы обрабатывать большие массивы данных в режиме онлайн используют суперкомпьютеры: их мощность и вычислительные возможности многократно превосходят обычные. Подробнее — в материале «Как устроены суперкомпьютеры и что они умеют».
Big Data и Data Science — в чем разница?
Data Science или наука о данных — это сфера деятельности, которая подразумевает сбор, обработку и анализ данных, — структурированных и неструктурированных, не только больших. В ней используют методы математического и статистического анализа, а также программные решения. Data Science работает, в том числе, и с Big Data, но ее главная цель — найти в данных что-то ценное, чтобы использовать это для конкретных задач.
В каких отраслях уже используют Big Data?
- Государственное управление. Изучение и анализ больших данных помогает правительствам принимать решения в таких областях, как здравоохранение, занятость населения, экономическое регулирование, борьба с преступностью и обеспечение безопасности, реагирование на чрезвычайные ситуации;
- Промышленность. Внедрение инструментов Big Data помогает повысить прозрачность промышленных процессов и внедрять «предиктивное производство», позволяющее более точно прогнозировать спрос на продукцию и, соответственно, планировать расходование ресурсов;
- Медицина. Огромное количество данных, собираемых медицинскими учреждениями и различными электронными приспособлениями (фитнес-браслетами и т.п.) открывает принципиально новые возможности перед индустрией здравоохранения. Большие данные помогают находить новые лекарства, точнее ставить диагнозы, подбирать эффективное лечение, бороться с пандемий;
- Ретейл. Развитие сетевой и электронной торговли невозможно представить без основанных на Big Data решениях — так магазины персонализируют ассортимент и доставку;
- Интернет вещей. Big Data и интернет вещей неразрывно связаны между собой. Промышленные и бытовые приборы, подключенные к интернету вещей, собирают огромное количество данных, на основе анализа которых впоследствии регулируется работа этих приборов;
- Рынок недвижимости. Девелоперы используют технологии Big Data, чтобы собрать и проанализировать весь массив информации, а затем выдать пользователю наиболее интересные для него варианты. Уже сейчас будущий покупатель может посмотреть понравившийся дом без продавца;
- Спорт. С помощью больших данных футбольные клубы отбирают самых перспективных игроков и разрабатывают эффективную стратегию для каждого противника.
Выпуск «Индустрии 4.0» о том, как используют Big Data в футболе
«IoT-решение из области так называемого точного земледелия — это когда специальные метеостанции, которые стоят в полях, с помощью сенсоров собирают данные (температура, влажность) и с помощью передающих радио-GSM-модулей отправляют их на IoT-платформу. На ней посредством алгоритмов big data происходит обработка собранной с сенсоров информации и строится высокоточный почасовой прогноз погоды. Клиент видит его в интерфейсе на компьютере, планшете или смартфоне и может оперативно принимать решения», — прокомментировали в «МегаФоне».
Big Data в России и мире
По данным компании IBS [8], в 2012 году объем хранящихся в мире цифровых данных вырос на 50%: с 1,8 до 2,7 Збайт (2,7 трлн Гбайт). В 2015-м в мире каждые десять минут генерировалось столько же данных, сколько за весь 2003 год.
По данным компании NetApp, к 2003 году в мире накопилось 5 Эбайтов данных (1 Эбайт = 1 млрд Гбайт). В 2015-м — более 6,5 Збайта, причем тогда большие данные использовали лишь 17% компаний по всему миру [9]. Большую часть данных будут генерировать сами компании, а не их клиенты. При этом обычный пользователь будет коммуницировать с различными устройствами, которые генерируют данные, около 4 800 раз в день.
Первыми Big Data еще пять лет назад начали использовать в ИТ, телекоме и банках. Именно в этих сферах скапливается большой объем данных о транзакциях, геолокации, поисковых запросах и профилях в Сети. В 2019 году прибыль от использования больших данных оценивались в $189 млрд [10] — на 12% больше, чем в 2018-м, при этом к 2022 году она ежегодно будет удваиваться.
Сейчас в США с большими данными работает более 55% компаний [11], в Европе и Азии — около 53%. Только за последние пять лет распространение Big Data в бизнесе выросло в три раза.
Как большие данные помогают онлайн-кинотеатрам подбирать персональные рекомендации
Мировыми лидерами по сбору и анализу больших данных являются США и Китай. Так, в США еще при Бараке Обаме правительство запустило шесть федеральных программ по развитию больших данных на общую сумму $200 млн. Главными потребителями Big Data считаются крупные корпорации, однако их деятельность по сбору данных ограничена в некоторых штатах — например, в Калифорнии.
В Китае действует более 200 законов и правил, касающихся защиты личной информации. С 2019 года все популярные приложения для смартфонов начали проверять и блокировать, если они собирают данные о пользователях вопреки законам. В итоге данные через местные сервисы собирает государство, и многие из них недоступны извне.
С 2018 года в Евросоюзе действует GDPR — Всеобщий регламент по защите данных. Он регулирует все, что касается сбора, хранения и использования данных онлайн-пользователей. Когда закон вступил в силу год назад, он считался самой жесткой в мире системой защиты конфиденциальности людей в Интернете.
В России рынок больших данных только зарождается. К примеру, сотовые операторы делятся с банками информацией о потенциальных заемщиках [12]. Среди корпораций, которые собирают и анализируют данные — «Яндекс», «Сбер», Mail.ru. Появились специальные инструменты, которые помогают бизнесу собирать и анализировать Big Data — такие, как российский сервис Ctrl2GO.
Big Data в бизнесе
Большие данные полезны для бизнеса в трех главных направлениях:
- Запуск продуктов и сервисов, которые точнее всего «выстрелят» по потребностям целевой аудитории;
- Анализ клиентского опыта в отношении продукта или услуги, чтобы улучшить их;
- Привлечение и удержание клиентов с помощью аналитики.
Большие данные помогают MasterCard предотвращать мошеннические операции со счетами клиентов на сумму более $3 млрд в год [13]. Они позволяют рекламодателям эффективнее распределять бюджеты и размещать рекламу, которая нацелена на самых разных потребителей.
Крупные компании — такие, как Netflix, Procter & Gamble или Coca-Cola — с помощью больших данных прогнозируют потребительский спрос. 70% решений в бизнесе и госуправлении принимается на основе геоданных. Подробнее — в материале о том, как бизнес извлекает прибыль из Big Data.
Каковы проблемы и перспективы Big Data?
Главные проблемы:
- Большие данные неоднородны, поэтому их сложно обрабатывать для статистических выводов. Чем больше требуется параметров для прогнозирования, тем больше ошибок накапливается при анализе;
- Для работы с большими массивами данных онлайн нужны огромные вычислительные мощности. Такие ресурсы обходятся очень дорого, и пока что доступны только большим корпорациям;
- Хранение и обработка Big Data связаны с повышенной уязвимостью для кибератак и всевозможных утечек. Яркий пример — скандалы с профилями Facebook;
- Сбор больших данных часто связан с проблемой приватности: не все хотят, чтобы каждое их действие отслеживали и передавали третьим лицам. Герои подкаста «Что изменилось» объясняют, почему конфиденциальности в Сети больше нет, и технологическим гигантам известно о нас все;
- Большие данные используют в своих целях не только корпорации, но и политики: например, чтобы повлиять на выборы.
Плюсы и перспективы:
- Большие данные помогают решать глобальные проблемы — например, бороться с пандемией, находить лекарства от рака и предотвращать экологический кризис;
- Big Data — хороший инструмент для создания умных городов и решения проблемы транспорта;
- Большие данные помогают экономить средства даже на государственном уровне: например, в Германии вернули в бюджет около €15 млрд [14], обнаружив, что часть граждан получают пособие по безработице без всяких оснований. Их вычислили с помощью транзакций.
Как Big Data и ИИ меняют наше представление о справедливости
В ближайшем будущем большие данные станут главным инструментом для принятия решений — начиная с сетевых бизнесов и заканчивая целыми государствами и международными организациями [15].
Big Data: основные понятия
Раньше компании анализировали относительно небольшие наборы упорядоченных данных, хранящихся в корпоративных базах. Сейчас появляются технологии для сбора и обработки потоков неупорядоченной информации в онлайн-режиме. Такой информацией может быть все, что угодно, от текста до информации с датчиков.
Объемы данных огромны, а скорость поступления настолько высока, что привычные средства хранения и аналитики с ними не справляются. Например, ежеминутно на YouTube загружается 500 часов видеороликов. Для эффективной работы с такими данными нужны новые технологии и подходы вроде Hadoop, Spark, NoSQL баз данных.
Начнем с определения.
Что такое Большие данные
Большие данные (англ. Big Data) — это термин, обозначающий огромные неупорядоченные объемы данных, которые постоянно с огромной скоростью генерируются из множества источников.
Главная цель Big Data — извлечение ценности и знаний из данных, а не просто хранение.
Свойства и особенности
Big Data кардинально отличаются от традиционных структурированных данных. Давайте узнаем об их особенностях поближе:
- Большие объемы данных измеряются в терабайтах, петабайтах или даже экзабайтах. Это связано с постоянным ростом данных, генерируемых пользователями, датчиками и другими источниками.
- Необходима высокая скорость обработки данных в реальном времени или с минимальными задержками: процесс обработки и анализа должен быть масштабируемым и способным обрабатывать данные на высоких скоростях.
- Разнообразие поступающих данных происходит из-за того, что они загружаются с различных источников, таких как социальные сети, сенсоры Интернета Вещей и веб-сайты. Они могут иметь различную природу — тексты, изображения, аудио, видео или иные показатели. Также они бывают структурированными, полуструктурированными и неструктурированными.
- Необходима проверка подлинности данных для обеспечения целостности и точности данных, а также избежания подделки или изменения данных.
- Требуются сложные алгоритмы и инструменты такие, как машинное обучение и искусственный интеллект для обнаружения и анализа сложных связей, шаблонов или трендов, так как традиционным методам это не под силу.
* Для работы с большими данными необходимо пройти множество этапов: сбор, хранение, обработку, анализ и использование. На каждом этапе применяются свои технологии и инструменты.
Сбор больших данных
Сбор Big Data — это процесс извлечения информации из многих источников и передачи их в систему хранения.
Источники данных
- Интернет: глобальная сеть содержит огромный объем информации в виде сайтов, блогов, почты, чатов, видео и другого контента.
- Мобильные устройства: смартфоны и планшеты генерируют данные о звонках, сообщениях, фото, видео, геолокации, использовании приложений.
- Различные приборы: данные поступают от многочисленных датчиков и сенсоров, которые с высокой точностью измеряют температуру, давление, влажность, освещенность, звук и другие физические параметры.
- Медицинская техника: предоставляющая данные анализов, снимков, электрокардиограмм, томографии для диагностики и лечения.
- Спутники: они делают снимки и карты Земли, а также собирают данные о других космических объектах
- А также социальные сети, видеокамеры, умные дома и автомобили.
Для сбора информации из этих источников используются специальные программы, которые называются краулерами (crawlers), парсерами (parsers), скраперами (scrapers) или коллекторами (collectors). Эти программы способны автоматически обходить веб-страницы, извлекать нужную информацию, преобразовывать ее в нужный формат и отправлять ее в систему хранения.
* Поисковые системы, такие как Google или Bing, используют краулеры для индексации содержимого интернета.
Для передачи данных в систему хранения существуют специальные протоколы и форматы данных, которые обеспечивают высокую скорость и надежность передачи.
Например, для передачи потоковых данных применяются протоколы, такие как Apache Kafka или Amazon Kinesis, а для передачи пакетных данных используются форматы, такие как Apache Avro или Apache Parquet.
При извлечении данных важно учитывать
- Тип и формат данных: текст, изображение, видео или что-то другое. Для каждого типа подходят свои методы сбора и обработки
- Доступность данных: открытые или закрытые. Нужно соблюдать правила и ограничения на использование
- Разрешение: выбирать оптимальное качество данных для анализа
- Частоту и объем поступления данных: подбор подходящих протоколов и форматов передачи данных.
Учет всех этих факторов позволит максимально эффективно извлечь данные из первоисточников для дальнейшего анализа и использования. Это критически важный этап работы с big data.
Хранение
Хранение больших объемов данных — сложная задача, требующая тщательно продуманного подхода. Традиционные реляционные базы данных не подходят для работы огромными массивами информации, поскольку не масштабируются и не отвечают требованиям по продуктивности и гибкости. Чтобы решить данную проблему, применяют специализированные системы, такие как:
- NoSQL базы данных. Они используют нестандартные модели данных, оптимизированные для высокой производительности и масштабируемости. Они позволяют гибко структурировать данные и обрабатывать огромные массивы информации в режиме реального времени.
* Примеры популярных NoSQL баз данных: MongoDB, Cassandra, Redis.
- Распределенные файловые системы. Эти системы предназначены для надежного хранения информации на кластерах из сотен и тысяч серверов. Они обеспечивают высокую доступность данных за счет репликации и балансировки нагрузки.
* Наиболее известные распределенные файловые системы: HDFS, Google File System.
Также для хранения Big Data активно используются облачные решения, такие как Amazon S3, Google Cloud Storage, Azure Blob Storage. Они предоставляют практически неограниченное хранилище по модели оплаты по мере использования и избавляют от необходимости закупать и обслуживать дорогостоящее оборудование.
Обработка
Перед проведением анализа данных необходимо выполнить процесс подготовки данных для того, чтобы устранить шум, исправить ошибки и привести данные в удобный для анализа формат. Обработка больших данных включает в себя следующие этапы:
- Очистка — удаление лишних, ошибочных или некорректных данных. Устранение дубликатов, пропусков, шумов.
- Интеграция — объединение данных из разных источников в единый набор. Соединение таблиц, приведение к одному формату.
- Трансформация — изменение формы или содержания данных. Происходит фильтрация, сортировка, группировка, вычисление новых значений.
- Редукция — сокращение объема данных за счет удаления или сжатия избыточной информации.
- Агрегация — обобщение данных путем вычисления итогов по группам. Подсчет средних, минимумов, максимумов, сумм.
Для реализации этих этапов применяются специальные технологии и инструменты: Hadoop, Spark, Hive и Pig, а также параллельные вычисления, распределенные вычисления, потоковая обработка, облачные вычисления и другие технологии.
Качественная обработка — залог успешного анализа big data!
Анализ
Аналитика больших данных (Big Data Analytics) — это процесс извлечения полезных знаний из огромных массивов информации при помощи специальных технологий. Цель — выявить закономерности, тенденции, корреляции, прогнозы.
* Как же анализируют большие данные.
Существует четыре типа анализа
- Описательная аналитика показывает общую картину в данных. Использует статистику для подсчета, измерения, визуализации. Помогает увидеть основные характеристики наборов данных.
- Диагностическая аналитика выявляет причины явлений в данных. Определяет факторы, влияющие на результаты или поведение систем. Помогает найти корень проблем.
- Предиктивная аналитика прогнозирует будущее на основе прошлого и настоящего. Использует машинное обучение для построения моделей и выработки прогнозов по новым данным.
- Прескриптивная аналитика предлагает оптимальные решения и действия для достижения нужного результата. Применяет методы оптимизации и поиска лучших вариантов.
Использование Big Data
Если вы захотите узнать, где, зачем и для чего используют эту технологию, то переходите по этой ссылке. Там же вы узнаете, в каких профессиях вам пригодится навык работы с Большими данными, и в чем разница между Big Data и Data Science.
Проблемы больших данных
Наряду с очевидной пользой, большие данные несут и серьезные риски для человека и общества.
Одна из главных опасностей — нарушение приватности из-за несовершенности алгоритмов, а также из-за сбора и анализа личной информации без явного согласия пользователя. Так работают многие ИТ-гиганты вроде Facebook и Google. Это чревато утечкой или злоупотреблением данными. Иногда компании намеренно нарушают приватность пользователей и перепродают данные другим организациям. Но чаще всего они просто халатно относятся к своим обязательствам.
* Недавно Великобритания оштрафовала TikTok (сервис для просмотра и создания коротких видео) на £12,7 млн за многочисленные нарушения закона о защите данных, в том числе за использование личных данных детей без согласия родителей.
Еще один риск — проблемы кибербезопасности, связанные с хакерскими атаками на хранилища данных. Это грозит потерей, искажением или утечкой информации.
* Например, в августе 2023 года злоумышленники слили персональные данные почти 3 млн клиентов сервиса для изучения иностранных языков Duolingo.
Еще один вызов — проблемы этики при использовании big data в неблаговидных, несправедливых или вредных целях: для дискриминации, манипулирования, тотального контроля. Это нарушает права и свободы человека.
* Советуем прочитать на эту тему книгу Дарелла Хаффа «Как лгать при помощи статистики».
Опасность представляет низкое качество данных из-за шумов, неполноты, противоречий. К примеру, интернет-данные могут содержать ошибки, фейки, спам. Это приводит к искажению аналитики и решений.
Для снижения рисков необходимы меры защиты данных: шифрование, аудит, анонимизация; соблюдение этических и правовых норм при работе с big data. Ключевыми принципами являются прозрачность, ответственность, справедливость, согласие пользователя.
Что такое Big Data?
Большие данные: что именно обозначает этот термин?
Большие данные — это разнообразные данные, поступающие с более высокой скоростью, объем которых постоянно растет. Таким образом, три основных свойства больших данных — это разнообразие, высокая скорость поступления и большой объем.
Если говорить простыми словами, большие данные — более крупные и сложные наборы данных, особенно из новых источников данных. Размер этих наборов данных настолько велик, что традиционные программы для обработки не могут с ними справиться. Однако эти большие данные можно использовать для решения бизнес-задач, которые раньше не могли быть решены.
Основные свойства больших данных
Объем | Количество данных — важный фактор. Располагая ими в больших количествах, Вам потребуется обрабатывать большие объемы неструктурированных данных низкой плотности. Ценность таких данных не всегда известна. Это могут быть данные каналов Twitter, данные посещаемости веб-страниц, а также данные мобильных приложений, сетевой трафик, данные датчиков. В некоторые организации могут поступать десятки терабайт данных, в другие — сотни петабайт. |
Скорость | Скорость в данном контексте — это скорость приема данных и, возможно, действий на их основе. Обычно высокоскоростные потоки данных поступают прямо в оперативную память, а не записываются на диск. Некоторые «умные» продукты, функционирующие на основе Интернета, работают в режиме реального или практически реального времени. Соответственно, такие данные требуют оценки и действий в реальном времени. |
Разнообразие | Разнообразие означает, что доступные данные принадлежат к разным типам. Традиционные типы данных структурированы и могут быть сразу сохранены в реляционной базе данных. С появлением Big Data данные стали поступать в неструктурированном виде. Такие неструктурированные и полуструктурированные типы данных как текст, аудио и видео, требуют дополнительной обработки для определения их значения и поддержки метаданных. |
Ценность больших данных и их достоверность
Еще два свойства сформировались за последние несколько лет: ценность и достоверность. Данные имеют внутренне присущую им ценность. Однако чтобы они приносили пользу, эту ценность необходимо раскрыть. Не менее важно и то, насколько достоверны Ваши большие данные и насколько Вы можете на них полагаться?
Сегодня большие данные стали разновидностью капитала. Подумайте о крупнейших технологических компаниях. Ценность их предложений в значительной степени зависит от их данных, которые они постоянно анализируют, чтобы повышать эффективность и разрабатывать новые продукты.
Новейшие достижения в сфере технологий позволили значительно снизить стоимость хранилищ и вычислений, что дает возможность хранить и обрабатывать постоянно растущие объемы данных. Современные технологии позволяют хранить и обрабатывать больше данных за меньшую стоимость, что позволяет Вам принимать более точные и взвешенные бизнес-решения.
Извлечение ценности из больших данных не сводится только к их анализу (это их отдельное преимущество). Речь о комплексном исследовательском процессе с участием специалистов по глубокому анализу, корпоративных пользователей и руководителей, которые будут задавать правильные вопросы, выявлять шаблоны, делать обоснованные предположения и предсказывать поведение.
Но как мы к этому пришли?
История больших данных
Хотя сама по себе концепция больших данных не нова, первые большие наборы данных начали использовать в 1960-70 гг., когда появились первые в мире ЦОД и реляционные базы данных.
К 2005 году бизнес начал осознавать, насколько велик объем данных, которые пользователи создают при использовании Facebook, YouTube и других интернет-сервисов. В том же году появилась платформа Hadoop на основе открытого кода, которая была создана специально для хранения и анализа наборов больших данных. В то же время начала набирать популярность методология NoSQL.
Появление платформ на основе открытого кода, таких как Hadoop и позднее Spark, сыграло значительную роль в распространении больших данных, так как эти инструменты упрощают обработку больших данных и снижают стоимость хранения. За прошедшие годы объемы больших данных возросли на порядки. Огромные объемы данных появляются в результате деятельности пользователей — но теперь не только их.
С появлением Интернета вещей (IoT) все большее число устройств получает подключение к Интернету, что позволяет собирать данные о моделях действий пользователей и работе продуктов. А когда появились технологии машинного обучения, объем данных вырос еще больше.
Большие данные имеют долгую историю развития, однако их потенциал еще далеко не раскрыт. Облачные вычисления раздвинули границы применения больших данных еще шире. Облачные технологии обеспечивают по-настоящему гибкие возможности масштабирования, что позволяет разработчикам развертывать кластеры для тестирования выборочных данных по требованию. Кроме того, также все более значимыми становятся графовые базы данных, позволяющие отображать громадные объемы данных так, чтобы анализировать их можно было быстро и всеобъемлюще.
- Большие данные дают возможность получать более полные ответы, потому они предоставляют больше информации.
- Более подробные ответы означают, что Вы можете быть более уверены в достоверности данных — что обеспечивает абсолютно новый подход к решению задач.
Примеры использования больших данных
Большие данные можно применять в самых различных сферах деятельности — от взаимодействия с заказчиками до аналитики. Вот лишь несколько сценариев практического использования.
Разработка продуктов | Такие компании, как Netflix и Procter & Gamble, используют большие данные для прогнозирования потребительского спроса. Они классифицируют ключевые атрибуты существующих и снятых с использования продуктов и услуг и моделируют связи между этими атрибутами и коммерческим успехом предложений, чтобы создавать предиктивные модели для новых продуктов и услуг. Кроме того, P&G использует данные и статистику, получаемые от фокусных групп, а также из социальных сетей, по результатам рыночных тестов и пробных продаж, после чего выпускает новые продукты. |
предиктивное управление обслуживанием; | Факторы, которые позволяют прогнозировать сбои механики, могут скрываться в недрах структурированных данных, таких как год, марка и модель оборудования, или в неструктурированных данных, таких как записи журналов, данные датчиков, сообщения об ошибках и сведения о температуре двигателя. Проанализировав индикаторы вероятных проблем до их возникновения, организации могут повысить экономическую эффективность техобслуживания и максимально продлить срок службы запчастей и оборудования. |
Взаимодействие с заказчиками | Борьба за заказчиков в самом разгаре. Сегодня получить точные данные о качестве обслуживания клиентов проще, чем когда-либо. Большие данные позволят Вам извлечь полезные сведения из соцсетей, информации о посещении веб-сайтов и других источников, таким образом повысив качество взаимодействия с клиентами и сделав свои предложения максимально полезными. Обеспечьте индивидуальный подход, сократите отток клиентской базы и предотвращайте возникновение проблем. |
Обнаружение несанкционированного доступа и выполнение нормативных требований | Когда дело касается безопасности, речь идет не просто о паре хакеров: против Вас выступают целые команды опытных специалистов. Нормативные требования и стандарты безопасности постоянно меняются. Большие данные позволяют определять шаблоны, характерные для мошенников, и собирать значительные объемы данных, чтобы ускорить предоставление нормативной отчетности. |
Машинное обучение | Сегодня машинное обучение — одна из самых популярных тем для обсуждения. И данные — в особенности большие данные — являются одной из причин этой популярности. Сегодня мы можем обучать машины вместо того, чтобы программировать их. Именно доступность больших данных сделала это возможным. |
Операционная эффективность | Операционная эффективность редко становится обсуждаемой темой, однако именно в этой области большие данные играют самую значительную роль. Большие данные позволяют получать доступ к сведениям о производстве, мнении заказчиков и доходах, а также анализировать эти и другие факторы, чтобы сократить число простоев и прогнозировать будущий спрос. Большие данные также позволяют принимать более взвешенные решения в соответствии с рыночным спросом. |
Внедрение инноваций | Большие данные позволяют выявлять взаимозависимости между пользователями, учреждениями и компаниями, внедрять их и определять новые способы применения полученных сведений. Используйте результаты исследований данных, чтобы повысить эффективность финансовых решений и планирования. Изучайте тенденции и желания покупателей, чтобы выпускать новые продукты и услуги. Внедрите динамическое ценообразование. Возможности поистине безграничны. |
Сложности при использовании больших данных
Большие данные — это большие возможности, но и немалые трудности.
Прежде всего большие данные предсказуемо занимают много места. Хотя новые технологии хранения постоянно развиваются, объемы данных возрастают вдвое почти каждые два года. Организации до сих пор сталкиваются с проблемами роста объемов данных и их эффективного хранения.
Но недостаточно просто найти большое хранилище. Данные необходимо использовать, чтобы они приносили выгоду, и размер этой выгоды зависит от обработки данных. Чистые данные, то есть данные, актуальные для клиента и организованные для эффективного анализа, требуют тщательной обработки. Специалисты по изучению данных тратят от 50 до 80% рабочего времени на обработку и подготовку данных для использования.
И, наконец, технологии больших данных развиваются семимильными шагами. Несколько лет назад Apache Hadoop была самой популярной технологией для работы с большими данными. Платформа Apache Spark появилась в 2014 году. Сегодня оптимальным подходом является совместное использование этих двух платформ. Чтобы успевать за развитием больших данных, требуется прилагать большие усилия.
Ознакомьтесь с дополнительными ресурсами о больших данных:
Как работают большие данные
Большие данные позволяют извлекать новые ценные сведения, которые открывают новые возможности и бизнес-модели. Чтобы начать работу с большими данными, необходимо выполнить три действия.
1. Интеграция
Технология больших данных позволяет объединять данные из разрозненных источников и приложений. Традиционные механизмы интеграции, такие как средства для извлечения, преобразования и загрузки данных (ETL), не справляются с подобными задачами. Для анализа наборов данных размером в терабайт, а то и петабайт, нужны новые стратегии и технологии.
Во время этапа интеграции происходит добавление, обработка и форматирование данных, чтобы корпоративным аналитикам было удобно с ними работать.
2. Управление
Большим данным требуется объемное хранилище. Решение для хранения может быть размещено в локальной или облачной среде или и там и там. Вы можете хранить данные в предпочтительном формате и применять желаемые требования к обработке (и необходимые механизмы обработки) к наборам данным по мере необходимости. Большинство организаций выбирают решение для хранения данных в зависимости от того, где они хранятся в настоящее время. Облачные хранилища пользуются растущей популярностью, так как поддерживают актуальные требования к вычислениям и позволяют задействовать ресурсы по мере надобности.
3. Анализ
Вложения в большие данные окупятся сполна, когда Вы приступите к анализу данных и начнете предпринимать действия, исходя из полученных сведений. Обеспечьте новый уровень прозрачности благодаря визуальному анализу разнообразных наборов данных. Используйте глубокий анализ данных, чтобы совершать новые открытия. Делитесь своими открытиями с другими. Создавайте модели данных с помощью машинного обучения и искусственного интеллекта. Примените свои данные на деле.
Лучшие практики при работе с большими данными
Чтобы помочь Вам в освоении новой технологии, мы подготовили список лучших практик, которых рекомендуем придерживаться. Ниже приведены наши рекомендации по созданию надежного фундамента для работы с большими данными.
Анализ больших данных сам по себе ценен. Однако Вы сможете извлечь еще большее количество полезных сведений за счет сопоставления и интеграции больших данных низкой плотности с уже используемыми структурированными данными.
Неважно, какие данные Вы собираете — данные о заказчиках, продукции, оборудовании или окружающей среде — цель состоит в том, чтобы добавить больше релевантных единиц информации в эталонные и аналитические сводки и обеспечить более точные выводы. Например, важно различать отношение всех заказчиков от отношения наиболее ценных заказчиков. Именно поэтому многие организации рассматривают большие данные как неотъемлемую часть существующего набора средств бизнес-анализа, платформ хранения данных и информационной архитектуры.
Не забывайте, что процессы и модели больших данных могут выполняться и разрабатываться как человеком, так и машинами. Аналитические возможности больших данных включают статистику, пространственный анализ, семантику, интерактивное изучение и визуализацию. Использование аналитических моделей позволяет соотносить различные типы и источники данных, чтобы устанавливать связи и извлекать полезные сведения.
Обнаружение полезных сведений в данных не всегда обходится без сложностей. Иногда мы даже не знаем, что именно ищем. Это нормально. Руководство и специалисты по ИТ должны с пониманием относиться к отсутствию четкой цели или требований.
В то же время специалисты по анализу и изучению данных должны тесно сотрудничать с коммерческими подразделениями, чтобы ясно представлять, в каких областях имеются пробелы и каковы требования бизнеса. Чтобы обеспечить интерактивное исследование данных и возможность экспериментов со статистическими алгоритмами, необходимы высокопроизводительные рабочие среды. Убедитесь, что в тестовых средах есть доступ ко всем необходимым ресурсам и что они надлежащим образом контролируются.
Подробнее о больших данных в Oracle
- Попробуйте бесплатный семинар по большим данным
- Инфографика: как создавать эффективные озера данных
Чем отличаются большие данные от информации
Термины
Data Science
Data Science – междисциплинарная область, которая охватывает практически все, что связано с данными: от их подготовки до очистки и анализа. Data Science использует научные методы и алгоритмы для работы как со структурированными, так и с неструктурированными данными. Эта область сочетает в себе статистику, математику, машинное обучение, решение проблем и многое другое.
В статье «Научиться Data Science онлайн» мы подробнее рассказали, чем занимаются специалисты Data Science и как овладеть профессией с нуля.
Big Data
Big Data – область, в которой рассматриваются различные способы анализа и систематического извлечения больших объемов данных. Big Data включает применение механических или алгоритмических процессов получения оперативной информации для решения сложных бизнес-задач. Специалисты по Big Data работают с сырыми неструктурированными данными, результаты анализа которых используются для поддержки принятия решений в бизнесе. Аналитика больших данных включает проверку, преобразование, очистку и моделирование данных.
Работа с большими данными строится вокруг четырех правил (c англ. V’s of Big Data: Volume, Velocity, Variety, Veracity):
- Объем: объем данных, которые могут собирать компании, действительно огромен, и поэтому их размер становится критическим фактором в аналитике.
- Скорость: высокая скорость, с которой генерируется информация. Практически все происходящее вокруг нас (поисковые запросы, социальные сети и т. д.) производит новые данные, многие из которых могут быть использованы в бизнес-решениях.
- Разнообразие: генерируемая информация неоднородна и может быть представлена в различных форматах, таких, например, как видео, текст, базы данных, числовая информация, сенсорные данные и т. д. Понимание типа больших данных является ключевым фактором для раскрытия их ценности.
- Достоверность: достоверность относится к качеству анализируемых данных. Данные высокой достоверности содержат много записей, которые ценны для анализа и которые вносят значимый вклад в общие результаты. С другой стороны данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом.
О том, чем занимаются специалисты по анализу больших данных, мы подробнее писали в статье « Big Data: размер имеет значение» .
Применение
Data Science
- Цифровая реклама: алгоритмы Data science используются во всей области цифрового маркетинга – от рекламных щитов до рекламных баннеров.
- Поиск в интернете: алгоритмы Data science также применяются поисковыми системами для получения наилучших результатов по запросам в течение нескольких секунд.
- Рекомендательные системы: компании используют технологии Data Science для продвижения своих продуктов, а также для выдачи рекомендаций в соответствии с актуальностью информации и требованиями пользователя. Эти системы не только улучшают пользовательский опыт, но и облегчают поиск продуктов или услуг.
Big Data
Аналитика больших данных применяется в самых разных областях. Перечислим некоторые из них:
- Игровая индустрия использует BigData, чтобы получить информацию о таких вещах, как симпатии, антипатии, отношения пользователей и т. д.
- Поставщикам медицинских услуг аналитика больших данных нужна для отслеживания и оптимизации потока пациентов, отслеживания использования оборудования и лекарств, организации информации о пациентах и т. д.
- Туристические компании применяют методы анализа больших данных для оптимизации опыта покупок по различным каналам. Они также изучают потребительские предпочтения и желания, находят корреляцию между текущими продажами и последующим просмотром, что позволяет оптимизировать конверсии.
Использование больших данных становятся эффективной основой для конкуренции практически во всех сферах. Независимо от того, к какой отрасли вы обратитесь, здравоохранение и персонализированная медицина, или логистика и операции, все они пытаются повысить эффективность своих цепочек поставок с помощью данных.
Майкл Чуи, партнер McKinsey Global Institute Источник
Навыки
Data Science
Чтобы стать профессионалом в области Data Science, необходим аналитический склад ума, а также навыки управления данными. Большой процент специалистов имеет степень магистра в сфере компьютерных наук и знания в области статистики и математики. Вам также потребуются навыки программирования на Python и SQL , визуализации данных в Tableau и/или PowerBI , работы с библиотеками для машинного обучениями: Pandas , Scikit-learn и NumPy . Наряду с техническими навыками, специалисты Data Science должны обладать набором soft-skills: коммуникабельностью, умением донести информацию простым языком, способностью работать в команде. Самое главное – умение самостоятельно и быстро учиться.
Подробнее о том, как самостоятельно овладеть всеми ключевыми навыками, мы писали в статье « 10 навыков, необходимых в профессии Data Scientist» .
Big Data
Специалист по анализу больших данных должен хорошо разбираться в таких языках программирования, как R и/или Python и SQL. Наряду с хорошими знаниями статистики и математики, ему потребуются навыки работы с инструментами, вроде Hadoop или Spark, для решения проблем, связанных с огромными объемами данных и их распределенной обработкой. Необходимо владеть навыками визуализации и преобразования данных, а также разбираться в машинном обучении.
О том какие навыки необходимы в сфере Big data, мы подробно писали в статье « Стать аналитиком Big Data: пошаговое руководство» .
Обязанности
Data Science
Учитывая огромное количество ежедневно обрабатываемых с помощью различных устройств по всему миру данных, организации заинтересованы в получении ценной информации из этого потока. Специалисты Data Science выполняют исследовательский анализ, а также используют различные виды алгоритмов машинного обучения для составления прогнозов определенных событий. Они сосредоточены на выявлении неизвестных корреляций, скрытых моделей и рыночных тенденций.
Big Data
В обязанности аналитиков больших данных входит работа с большим количеством разнородной информации, собранной из различных источников и поступающей с высокой скоростью. Специалисты по Big Data описывают поведение и структуру данных, а также то, как они могут быть представлены с помощью инструментов анализа: Spark, Hadoop и т. д.
Ключевые обязанности специалиста по Big Data включает понимание идей и тенденций, которые выявляются с помощью огромных наборов данных. После преобразования неструктурированной информации, бизнесу становится ясно, чего именно хотят клиенты, какие продукты продвигаются быстрее, каковы ожидания пользователей от обслуживания, как ускорить выход продукта на рынок и какие способы снижения затрат существуют. Большие данные явно приводят к большим временным выгодам для организаций, поэтому существует огромный спрос на специалистов в данной области.
Карьерные перспективы
В российском IT-секторе, есть тенденция к разделению специалистов по Data Science и Big Data при найме на работу. Однако по запросам Big Data в Яндекс.Работа и HeadHunter, можно заметить, что анализ больших данных включен в описание вакансий как Data Scientist, так и Big Data Engineer.
Начальная зарплата Data Scientist с опытом работы до года – от 113 тыс. рублей . Через 1 – 2 года такой специалист уже может получать до 160 тыс. рублей. Для сотрудника с опытом работы от 4 – 5 лет вилка вырастает до 310 тыс. По запросу на октябрь 2020 года для специалиста Big Data, средняя зарплата по России составляет около 118 тыс. рублей.
Будьте реалистичны в отношении своих возможностей трудоустройства и адаптируйте эти ожидания. Не существует универсальных стандартов для образования, опыта работы и навыков кодирования, но существуют нормы внутри каждой компании. Проводите свои исследования о специалистах Data Science, которые уже работают в данной компании для того, чтобы понять, на каком уровне ваши текущие знания.
Эрик Вебер, начальник отдела экспериментов Yelp
Хочу подтянуть знания по математике, но не знаю, с чего начать. Что делать?
Если базовые концепции языка программирования можно достаточно быстро освоить самостоятельно, то с математикой могут возникнуть сложности. Чтобы помочь освоить математический инструментарий, «Библиотека программиста» совместно с преподавателями ВМК МГУ разработала курс по математике для Data Science, на котором вы:
- подготовитесь к сдаче вступительных экзаменов в Школу анализа данных Яндекса;
- углубитесь в математический анализ, линейную алгебру, комбинаторику, теорию вероятностей и математическую статистику;
- узнаете роль чисел, формул и функций в разработке алгоритмов машинного обучения.
- освоите специальную терминологию и сможете читать статьи по Data Science без постоянных обращений к поисковику.
Курс подойдет как начинающим специалистам, так и действующим программистам и аналитикам, которые хотят повысить свой уровень или перейти в новую область.