Big data от а до я. часть 2: hadoop

Кто использует большие данные

Наибольший прогресс отрасли наблюдается в США и Европе. Вот крупнейшие иностранные компании и ведомства, которые используют Big Data:

• HSBC повышает безопасность клиентов пластиковых карт. Компания утверждает, что в 10 раз улучшила распознавание мошеннических операций и в 3 раза – защиту от мошенничества в целом.

• Суперкомпьютер Watson, разработанный IBM, анализирует финансовые транзакции в режиме реального времени. Это позволяет сократить частоту ложных срабатываний системы безопасности на 50% и выявить на 15% больше мошеннических действий.

• Procter&Gamble проводит с использованием Big Data маркетинговые исследования, более точно прогнозируя желания клиентов и спрос новых продуктов.

• Министерство труда Германии добивается целевого расхода средств, анализируя большие данные при обработке заявок на пособия. Это помогает направить деньги тем, кто действительно в них нуждается (оказалось, что 20% пособий выплачивались нецелесообразно). Министерство утверждает, что инструменты Big Data сокращают затраты на €10 млрд.

Среди российских компаний стоит отметить следующие:

• Яндекс. Это корпорация, которая управляет одним из самых популярных поисковиков и делает цифровые продукты едва ли не для каждой сферы жизни. Для Яндекс Big Data – не инновация, а обязанность, продиктованная собственными нуждами. В компании работают алгоритмы таргетинга рекламы, прогноза пробок, оптимизации поисковой выдачи, музыкальных рекомендаций, фильтрации спама.

• Мегафон

Телекоммуникационный гигант обратил внимание на большие данные примерно пять лет назад. Работа над геоаналитикой привела к созданию готовых решений анализа пассажироперевозок

В этой области у Мегафон есть сотрудничество с РЖД.

• Билайн. Этот мобильный оператор анализирует массивы информации для борьбы со спамом и мошенничеством, оптимизации линейки продуктов, прогнозирования проблем у клиентов. Известно, что корпорация сотрудничает с банками – оператор помогает анонимно оценивать кредитоспособность абонентов.

• Сбербанк. В крупнейшем банке России супермассивы анализируются для оптимизации затрат, грамотного управления рисками, борьбы с мошенничеством, а также расчёта премий и бонусов для сотрудников. Похожие задачи с помощью Big Data решают конкуренты: Альфа-банк, ВТБ24, Тинькофф-банк, Газпромбанк.

И за границей, и в России организации в основном пользуются сторонними разработками, а не создают инструменты для Big Data сами. В этой сфере популярны технологии Oracle, Teradata, SAS, Impala, Apache, Zettaset, IBM, Vowpal.

Читайте: Что такое интернет вещей, как он работает и чем полезен

Что будет с Big Data в будущем

Большие данные уже меняют правила игры во многих областях и, несомненно, будут продолжать расти. Объем доступных нам данных будет только увеличиваться, а технологии аналитики станут более совершенными. Большие данные – это одна из тех вещей, которые будут определять будущее человечества.

Тем не менее, еще в 2015 году компания Gartner, которая специализируется на исследованиях рынка информационных технологий, исключила Big Data из числа популярных трендов. С этого времени «большие данные» стали квалифицироваться как рабочий инструмент, а на смену им пришел новый тренд – Smart Data.

Если Big Data представляет собой огромный массив данных, то Smart Data – это уже «обработанные», ценные данные, необходимые для решения конкретных бизнес-задач. На первый план здесь выходит не количество, а качество исходных данных.

Таким образом, можно сказать, что «большие данные» превращаются в «умные данные», когда они собираются и оптимизируются с учетом конкретных потребностей отрасли и отдельной организации. Smart Data не только помогает компаниям понять, что происходит в данный момент, но и почему это происходит. Использование интеллектуальных данных позволяет компаниям лучше понимать поведение своих клиентов, предоставлять подходящие услуги/продукты, улучшать бизнес-операции, а также получать более высокий уровни дохода.

Структура специализации

В 2020 году аналитика Big Data используется в более чем 55% компаний по всему миру. При этом рост объемов рынка решений в Центральной и Восточной Европе ежегодно увеличивается на 11%, и в 2022 году составит 5,4 млрд. долл.

Есть две основные специализации Big Data:

  1. Инженеры – отвечают за хранение, преобразование информации и быстрый доступ к ней.
  2. Аналитики – отвечают за анализ большого количества информации, выявление взаимосвязей и построение моделей.

Чтобы стать профессионалом своего дела, в целом требуется овладеть следующими знаниями:

Программирование

Важно знать как минимум два языка программирования (чем больше, тем лучше), поскольку кодирование является основой для проведения численного и статистического анализа больших массивов данных. Наиболее популярны R, Python, Ruby, C++, Java, Scala и Julia.
Количественные способности

Необходимо обладать твердыми знаниями статистики и математики, включая линейную алгебру, многомерное исчисление, распределение вероятностей, проверку гипотез, байесовский анализ, анализ временных рядов и продольный анализ.
Вычислительные инструменты. Работа аналитика Big Data универсальна. Пользователь должен чувствовать себя комфортно при работе с различными инструментами и вычислительными фреймворками, включая базовые (Excel и SQL) и продвинутые (Hadoop, MapReduce, Spark, Storm, SPSS, Cognos, SAS и MATLAB). Эти технологии помогают в обработке больших данных, которые можно передавать в потоковом режиме.
Хранение данных. Каждый аналитик должен обладать навыками работы с реляционными и нереляционными системами БД, такими как MySQL, Oracle, DB2, NoSQL, HDFS, MongoDB, CouchDB, Cassandra.
Деловая хватка. Какой толк в выводах аналитиков, если они не могут визуализировать их с точки зрения бизнеса? Чтобы использовать полученные знания на практике, нужно иметь понимание делового мира. Только тогда можно определить потенциальные возможности для бизнеса и использовать полученные результаты для принятия наиболее эффективных решений.
Коммуникативные навыки. Необходимо знать, как эффективно передавать и представлять свои выводы для облегчения понимания другими специалистами – то есть обладать безупречными навыками письменной и устной коммуникации, чтобы объяснить свое видение другим и разложить сложные идеи на более простые термины.
Знание английского языка на уровне чтения технической документации.
Навык машинного обучения.

Также очень важно основательно знать отрасль, в которой происходит работа. Постоянно обучаясь и развиваясь, специалист по Big Data может пройти следующий карьерный путь:

Постоянно обучаясь и развиваясь, специалист по Big Data может пройти следующий карьерный путь:

  1. Стажер.
  2. Младший аналитик.
  3. Аналитик.
  4. Старший аналитик.
  5. Руководитель отдела.
  6. Директор управления по анализу.

Зачем государству ваши данные?

Как мы уже поняли, корпорации научились использовать данные своих клиентов (и просто разных людей) с собственной выгодой. Учитывая масштабы, речь идет об обезличенных данных, но все равно вопрос безопасности при использования такой информации остается открытым. Но возможность оперировать массивами данных интересует не только частные компании, было логично, что они заинтересуют и государства.

Многие россияне впервые услышали о «больших пользовательских данных» от генерального директора InfoWatch Натальи Касперской. Она в 2016 году заявила, что поисковые запросы, данные о геолокации, контактные данные, сообщения, фото и видео, которые собирают крупные IT-компании вроде Facebook, должны принадлежать государству. Сделать это она предлагает, законодательно заставив компании передавать сертификаты безопасности правительственным органам или просто переводить все эти данные в Россию (кстати, формально такой закон уже давно существует). И это осталось бы просто частным мнением, но Касперская на тот момент возглавляла подгруппу «Интернет + Общество» в рабочей группе под кураторством помощника президента России.

Аргументация простая – как только пользователь загрузил какие-то свои данные в интернет, они перестают ему принадлежать. А учитывая опыт других стран (например, Китая), было бы логично передавать все эти данные государству. Правда, в дальнейшем об этом ничего не было слышно – либо идея «заглохла», либо ее решили дальше не подвергать огласке.

Что касается Китая, там действительно есть истории о том, как Facebook согласился сотрудничать с правительством (передавать ему некоторую важную информацию пользователей), а Skype вообще отслеживает «неугодные» слова в сообщениях по определенному справочнику, и цензурирует их.

Последнее, о чем говорили в России в контексте Big Data – это предстоящая перепись населения, в ходе которой обещали использовать наработки по таким технологиям. Кроме прочего, переписчики будут пользоваться планшетными ПК, а данные будут как-то централизованно обрабатываться с использованием технологий Big Data.

Но главное – «большие данные» в России активно используются государственными органами в рамках всем известной «цифровизации». В частности, эти технологии уже используют в ФНС (которая вообще считается лидером по «цифровизации»), ФСБ, Пенсионном фонде, Фонде ОМС, Следственном комитете и некоторых других органах. Правда, конкретные результаты пока остаются по большей части за кадром – серьезных перемен в медицине не видно, а в налоговой службе все так же часто бывают сбои.

Кроме того, об использовании Big Data и технологий искусственного интеллекта часто говорят в «Сбербанке» – по словам руководства, это позволило сократить почти всех менеджеров среднего звена, а решения о выдаче кредита теперь часто принимает ИИ. Но снова, для рядовых клиентов «Сбербанк» – это все еще не самый современный банк со странным подходом к клиентам и частыми сбоями.

Где Big Data лучше всего показали свои преимущества

Первыми технологии big data стали применять те отрасли, деятельность которых завязана на обработке больших потоков информации ежедневно, — банки, мобильные операторы, торговые сети. В основном работа с данными в этих сферах направлена на формирование портрета клиента, чтобы предложить ему наиболее подходящие для него услуги.

Каждая из них имеет свою специфику, например, операторы сотовой связи сейчас оперируют достаточно детальными данными об абонентах, чтобы извлекать из них серьезную прибыль.

Более того, некоторые мобильные операторы не просто используют эти данные для повышения эффективности, но и создают отдельные ветви бизнеса по разработке B2B-сервисов на основе собираемых данных.

Вместе с тем, Big Data очень медленно проникает в государственные структуры. Казалось бы, нужно радоваться, что государство не спешит превращать жизнь граждан в матрицу. На самом деле, часто устаревшие методы работы с данными, которые обусловлены как административными преградами, так и недостатком экспертизы в госструктурах, мешают использовать BD во благо населения.

Хотя, с точки зрения зрелости в области Big Data, российские госструктуры крайне неоднородны: например, почти все организации так или иначе касающиеся государственных финансов могут дать фору многим видным коммерческим банкам в части работы с данными.

Конечно, нам еще далеко до полного раскрытия потенциала технологии в повышении эффективности государственного управления. Помимо очевидных примеров вроде помощи в раскрытии преступлений и единого реестра документов, существуют несколько задач, которые BD помогла бы решить на качественно более высоком уровне.

Например, пока еще не раскрыт весь потенциал больших данных в медицине. Алгоритмы машинного обучения уже активно применяются в диагностике онкологических заболеваний, но этот подход не используется в других областях, например, в лечении гриппа и персонализированных советов по диете.

Было бы интересно посмотреть на связку больших данных и дополненной реальности. Городские и музейные гиды, инструкции ко всему, что попадает в объектив вашей мобильной камеры, советы по первой помощи — сейчас просто не хватает фантазии, чтобы представить эффект синергии двух этих технологий в будущем.

Какие функции есть у платформ анализа больших данных

Каждый data science-проект проходит жизненный цикл, состоящий из трех этапов: 

  1. Сбор данных и исследование.
  2. Экспериментирование и разработка модели.
  3. Развертывание и интеграция. 

На каждом этапе специфические задачи, которые помогает выполнять платформа. И есть более общие задачи, включающие управление данными, управление процессами обработки и масштабирования. 

Для решения всех этих задач платформы обработки данных предлагают такой технический функционал: прием, подготовка и исследование данных, генерация признаков, создание, обучение, тестирование и деплой моделей, мониторинг и обслуживание системы. 

Также платформа должна обеспечивать безопасность данных и их хранение, каталогизацию источников, предоставлять инструменты для визуализации и формирования отчетов. Облачные платформы дополнительно дают большой объем хранилища и вычислительных мощностей. 

Все перечисленные функции платформ нужны, чтобы:

  • ускорять работу специалистов;
  • публиковать модели и интегрировать их в бизнес-процессы;
  • делиться понятными, читаемыми результатами анализа с сотрудниками всех подразделений;
  • сохранять прошлые наработки, включая метаданные, код, датасеты и обсуждения, и использовать их в новых проектах;
  • создать общую базу знаний и собирать лучшие практики, на которых будут учиться новые сотрудники;
  • безопасно внедрять новые инструменты, не ломая текущие процессы и не вмешиваясь в работу коллег;
  • масштабировать вычислительные мощности;
  • контролировать доступы к каждому проекту, чтобы его видели только определенные сотрудники.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Кому подходит?

Когда речь заходит о выборе профессии, следует учитывать не только заработную плату и востребованность специальности на рынке труда.

Новичку должны быть интересны такие науки, как математика, статистика, информационные технологии. Будут трудности, если сложно работать с большим объемом информации.

Среди личных качеств стоит выделить:

  1. Аналитический ум.
  2. Критическое мышление.
  3. Внимательность и концентрация.
  4. Ответственность.
  5. Широкий кругозор.
  6. Упорство и усидчивость.
  7. Умение решать задачи.
  8. Умение работать в команде и объяснять сложные вещи простыми словами.
  9. Бизнес-интуицию.

Поскольку область развивается так же быстро, как и данные, которые она анализирует, от профессионалов требуется постоянное повышение квалификации.

Платформы или open source

В некоторых компаниях специалисты по big data по-прежнему работают с open source-инструментами. Дата-сайентисты чаще всего учатся на них и продолжают использовать их уже на работе. Это подтверждает исследование Normal Research и агенства New.HR при поддержке портала GeekJOB среди аналитиков, в котором респонденты чаще всего упоминают языки Python, R и соответствующие библиотеки (NumPy, Pandas и другие). 

Это объяснимо, ведь у таких инструментов низкий технический порог входа: ими легко пользоваться на личном ноутбуке. Но в реальном бизнесе, когда растет и объем данных и сложность вычислений, когда нужно обеспечить процессинг и масштабирование, объем сопутствующих работ резко увеличивается. 

На интеграцию уходит дополнительное время, а зачастую это требует и дополнительных расходов. Поддержка разных инструментов тоже закономерно требует больших усилий, чем единого решения. И даже когда open source-инструменты покрывают потребности в обработке и анализе данных, они не интегрированы с другими сервисами компании — в итоге специалистам сложно встроить ML-модели в существующее ИТ-окружение.

Современные платформы анализа больших данных не заменяют, а дополняют известные дата-сайентистам open source-инструменты. Они по-прежнему могут разрабатывать модели с помощью привычных фреймворков и библиотек, а платформы предоставляют необходимый технический функционал для продуктивной работы и реализации полного цикла data science-проектов. Такой подход позволяет специалистам не переучиваться и быстрее разрабатывать аналитические продукты для бизнеса.

Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Для чего необходимы большие данные

Главная цель работы с большими данными – обуздать их (проанализировать) и направить. Человечество научилось производить и извлекать огромные массивы информации, а с их управлением ещё есть проблемы.

Прямо сейчас большие данные помогают в решении таких задач:

• повышение производительности труда;
• точная реклама и оптимизация продаж;
• прогнозирование ситуаций на внутренних и глобальных рынках;
• совершенствование товаров и услуг;
• улучшение логистики;
• качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Где применяются «большие данные»

Считается, что «большие данные» (Биг Дата) с наибольшей степенью востребованности могут быть применены в таких сферах как:

  • медицина (в том числе по причинам, обозначенным выше — Big Data уже доказала на практике свою применимость в данной сфере);
  • туризм;
  • финансовые услуги;
  • телекоммуникации;
  • розничная торговля (в том числе онлайн-продажи).

Во всех указанных сферах востребована предикативность. В ритейле и коммерческих услугах — в части поведения потребителей, контрагентов, возможно даже законодателей.

Важный аспект практического применения «больших данных» — развитие технологической базы на уровне инструментария для сбора соответствующих данных. В различных сегментах могут появляться новые, еще недавно неизвестные решения — как, например, онлайн-кассы в рознице.

Онлайн-касса формирует различные массивы фискальных данных. Основной из них — массив, отражаемый в кассовом чеке — который в электронном виде с каждой кассы попадает в различные базы данных (как минимум — на серверы ФНС, ОФД — откуда их может взять пользователь, то есть, магазин). А в чеке — куча полезной информации о проданных товарах, их стоимости, количестве, НДС. Все эти данные могут анализироваться и образовывать полезные предикативные алгоритмы.

Таким образом, эффективность обработки Big Data – это важно, но не менее значима и эффективность сбора исходных данных для такой обработки. По мере появления новых инструментов, которые задействуются в таких целях, могут открываться новые сферы применения «больших данных»

Видео — беседа с создателем российского БигДата-алгоритма Артуром Хачуяном:

Это искусственный интеллект?

Скорее, нет — но их не следует ставить далеко друг от друга. Нет — потому что искусственный интеллект, как предполагается — это некий субъект обработки информации. «Мозг», который сам «решает» (а не за него «решают» — пусть и «научили» до этого), что обрабатывать и зачем.

А Big Data – это объект обработки данных, чистая информация. Вместе с тем, во всех случаях, когда ее обрабатывает «интеллект» — качество конечного продукта такой обработки будет определенно выше, чем если бы данные были «простыми» (как вариант — малыми по объему, не обновляемыми и однообразными).

Таким образом, развитие подходов к применению «больших данных» — важнейший фактор развития технологий искусственного интеллекта, машинного обучения, эффективного делегирования различных интеллектуальных функций человека компьютеру. Между Big Data и AI теперь установлена неразрывная связь.

Big Data двигается от описательной статистики к предиктивной аналитике

Шоудары считает, что Big Data – это не просто данные большого объёма, которые можно обрабатывать. Это и то, как вы можете их использовать. Он утверждает, что «Big Data могут кардинально изменить бизнес. Традиционные данные использовались как описательная статистика, для которой собирались и майнились все доступные данные. Big Data позволяет предсказать события на основе разрозненной информации, а это уже диктует, какие дальнейшие шаги стоит предпринять бизнесу».

О том, как монетизировать большие данные, читайте в статье нашего блога — Ценность Big Data: висит груша, нельзя скушать. А вы научились монетизировать?

Описание технологии Big Data

Под термином Big Data подразумеваются как сами данные, так и их анализ с помощью аналитических систем.

Рассмотрим, какими признаками обладают большие данные <4>:

  • Volume: действительно большие (хотя размер зависит от доступных ресурсов для их обработки);
  • Variety: слабо структурированные и разнородные;
  • Velocity: обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь об онлайновых сервисах).

<4> Как Big Data работает в России (http://www.popmech.ru/technologies/15670-kak-big-data-rabotaet-v-rossii/).

В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Большие данные — это технологии, которые позволяют извлекать смысл из данных.

Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.

Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.

Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путем последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов машинного обучения, способных получить искомый результат. Причем время жизни такого алгоритма может быть довольно коротким. Представим на рис. 1 процесс сбора, хранения обработки информации в соответствии с технологией Big Data.

Дата дегеніміз не?

Дата дегеніміз жеке бас мәліметтері, яғни туға күніңіз, айыңыз, жылыңыздан бастап, сіз туралы есептеуге көнетін барлық мәлімет. Мәселен, сіз қазір сауда жасадыңыз, таксиге отырдыңыз, Facebook-те кімге лайк бастыңыз, қанша пікір қалдырдыңыз, Youtube-ке кірдіңіз, кофе сатып алдыңыз, Kaspi Gold арқылы ақша аудардыңыз – бұның барлығы дата. Бәрі жиналып жатыр. Бірақ біз бұған қазір ие емеспіз. Менің цифрлы ізіме басқа біреулер ие болып отыр. Кез келген банкте біз туралы мәлімет бар. Олар өшпейді, ондай процедура жоқ. Яғни, мен туралы мәліметті менің рұқсатымыз қолданбаңдар деп айтуға, менің хақым жоқ болып тұр. Бұдан қорқыныштысы ауруға қатысты деректер. Мысалы, мен ата-бабам қандай ауырғандығы үшін мен жауап бере алмаймын. Бірақ олар бір аурумен ауырған шығар. Бірақ олар дата менімен де байланысты болуы мүмкін. Ол даталар көшіп жүріп бір дәрігердің қолында кетуі мүмкін. Ертең сол даталармен мені бопсалауы мүмкін. Осындайда, мен алдын ала қандай шара жасауым керек?

Сергек камералары да бір компанияның иелігінде тұр. Ол сіздің бүкіл датаңызды, қанша машина жүргізгеніңізді, айыппұл төлей аласыз ба барлық мәліметті жинап жатыр. Ол сізді өзіңізден гөрі жақсырақ таниды. Бұл жеке адамға қатысты. Ал мемлекетке қатысты, емханаға, мектепке, Қазақстандағы ұйымдарға, Қазақстан еліне қатысты қаншама дата бар. Ол қай жақта, оған кім ие болып отыр? Ол мәселелер бір жүйеге, ретке келе алмай жатыр.

Оқи отырыңыз: Банк шотындағы қаржыңызды алаяқтардан қалай қорғауға болады?

Big Data отличаются от традиционных данных

Есть много определений Big Data. Большинство экспертов описывает большие данные через их характеристики. К этим характеристикам относятся объём, скорость, многообразие. Ви Си Шоудары (доцент кафедры информационных систем, Калифорнийский университет в Ирвайне) считает, что «главное отличие Big Data от традиционных данных – это объём информации, скорости с которой она создаётся, многообразие источников, из которых она поступает».

Эксперты консалтинговой компании в области BI Hurwitz and Associates придерживаются этого же определения. Они описывают технологии Big Data через их способность управлять большим объёмом разрозненных данных с необходимой скоростью и в необходимые временные рамки.  А также – обеспечивать анализ таких данных и реакцию на них в реальном времени.

А что насчёт точки зрения бизнеса? Недавно я слышал, как директор по ИТ очень крупной компании в области здравоохранения рассказывал о больших данных. Прежде чем дать определение Big Data, он объяснил, что такое «маленькие данные». Он считает, что «маленькие данные» — это данные из «одного источника, часто они обрабатываются пакетами, а управляют ими локально». Тогда что же такое Big Data?  «Big Data имеют разные источники, требуют связи между источниками, могут быть структурированными и неструктурированными, поступают в реальном времени и используют информацию в совокупности». Этот эксперт также утверждает, что «Big Data нацелены на то, чтобы выстраивать модели из самих данных. Эффективнее искать связи сразу в больших данных, чем создавать такие связи в моделях». Этот механизм значительно отличается о того, который применяется в традиционном Business Intelligence (BI), который лучше использовать, когда вы лучше знаете, какой должна быть модель для ваших данных».

История возникновения

Название Big Data появилось в 2000-х, но концепция обработки большого количества данных возникла гораздо раньше. Менялся только объем и масштаб. В 1960-х годах начали создаваться первые хранилища больших данных, а сорок лет спустя компании увидели, сколько наборов данных можно собрать с помощью онлайн-сервисов, сайтов, приложений и любых продуктов, с которыми взаимодействуют клиенты. Именно тогда начали набирать популярность первые сервисы Big Data (Hadoop, NoSQL и т.д.). Наличие таких инструментов стало необходимо, поскольку они упрощают и удешевляют хранение и анализ.

Большие данные часто характеризуются тремя факторами: большим объемом, большим разнообразием типов данных, хранящихся в системах, и скоростью, с которой данные генерируются, собираются и обрабатываются. Эти характеристики были впервые выявлены Дугом Лэйни, аналитиком в Meta Group Inc., в 2001 году. Компания Gartner популяризировала их после того, как в 2005 году приобрела Meta Group. Постепенно к этим описаниям больших данных стали добавляться и другие критерии (достоверность, ценность и так далее).

В 2008 году с Клиффорд Лина в спецвыпуске журнала Nature эксперт назвал взрывной рост потоков информации big data. В него он отнес любые массивы неоднородных данных свыше 150 Гб в сутки. С тех пор термин «большие данные» прочно укрепился.

Что такое Big data?

Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.

Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.

В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *