Как приручить Большие Данные
Big Data Big Data

Динамика современного бизнеса и невероятные объемы данных, создаваемых в цифровом мире, требуют новых подходов к извлечению пользы из информации.

Главная>Big Data>Как приручить Большие Данные
Big Data Тема номера

Как приручить Большие Данные

Дата публикации:
30.07.2012
Посетителей:
132
Просмотров:
126
Время просмотра:
2.3

Авторы

Спикер
Илья Гершанов Cтарший технологический консультант, Greenplum – подразделение ЕМС
Динамика современного бизнеса и невероятные объемы данных, создаваемых в цифровом мире, требуют новых подходов к извлечению пользы из информации. В потоках структурированных и неструктурированных данных кроются ответы на вопросы, которые раньше даже не приходили в голову компаниям (или приходили, но задать их не было возможности из-за технологических ограничений). Сегодня организациям требуются новые способы работы с информацией: нужно научиться определять, что имеется в распоряжении компании и как этим пользоваться. Подчеркнем, что при правильном использовании Big Data могут стать источником идей для разработки, оптимизации или перефокусирования коммерческих инициатив, выявления бизнес-проблем, оптимизации цепочек поставок и др.

 

 

В то же время при всей очевидной полезности Больших Данных путь к их продуктивному использованию найти непросто. Нужны реальные инвестиции в проверенные технологии, повышение квалификации персонала и соответствующие приоритеты на уровне руководства.

 

Пересмотр основных истин: когда больше – действительно больше

 Раньше было принято думать, что слишком много данных – это плохо, потому что это ведет к повышению расходов на инфраструктуру, снижению эффективности управления и глубинного анализа. Сегодня компании начинают осознавать, что больше – это лучше, поскольку Big Data открывают новые способы заработка, повышения эффективности и получения конкурентных преимуществ.

 

По оценкам Forrester Research, компании эффективно пользуются менее чем 5% имеющихся в их распоряжении данных.

Это вызвано тем, что использовать остальную информацию просто слишком дорого. Наличие технологий и методик работы с Big Data – это важный шаг вперед, поскольку они позволяют организовать эффективную и экономичную работу с 95% данных, которые в настоящее время остаются без внимания. Давайте посмотрим на это с такой стороны: если одна компания использует, к примеру, 15% имеющихся в ее распоряжении данных, а другая – только 5%, то какая из них с большей вероятностью победит в конкурентной борьбе?

 

Предприятия всех секторов экономики начинают получать отдачу от Больших Данных, однако в ряде отраслей это происходит проще, чем в других. В секторах, для которых характерны более объемные инвестиции в ИТ, будет больше возможностей для того, чтобы воспользоваться новыми технологиями. В отраслях, где предприятия традиционно опираются на информацию при ведении дел, адаптация к Большим Данным будет происходить быстрее, а новые идеи – генерироваться более эффективно. Таким образом, пионерами в сфере анализа Big Data станут финансовые организации, предприятия розничной торговли, промышленные производители и электронные средства массовой информации.

 

Создание инфраструктур для Big Data

 

Радикальное изменение темпов роста объемов информации требует полной переоценки ситуации. Предприятия инвестируют в новую инфраструктуру для получения, хранения, накопления, управления, контроля и анализа данных. При этом подход к этим инвестициям должен быть целостным и направленным преимущественно на анализ Big Data. В то же время для того, чтобы только вместить данные, ИТ-инфраструктуры должны позволять хранить значительно большие объемы разнообразной информации с меньшими затратами, чем раньше. Также необходимо принять во внимание динамику данных, то есть высокую скорость, с которой они изменяются.

 

Массивные объемы данных сложно быстро перемещать с места на место в современных сетях. Соответственно, инфраструктуры Big Data должны распределять вычислительную мощность таким образом, чтобы осуществлять анализ данных ближе к пользователю и избегать задержек, вызываемых их перемещением между разными сетями. Вместо миграции данных из одного места в другое для их обработки целесообразнее перемещать к данным сами вычислительные и аналитические ресурсы.

 

При этом одного хранения и предоставления данных недостаточно, они также должны синтезироваться, анализироваться и сопоставляться новыми способами, чтобы из них можно было извлечь пользу. Когда вы имеете дело с Big Data, иногда приходится обрабатывать информацию, которую не моделировали архитекторы, сравнивать данные разных типов и находить общее в разных источниках. Это открывает перед аналитиками Больших Данных новые перспективы для исследования традиционной корпоративной информации и позволяет извлекать пользу из данных, которые не поддавались анализу с помощью традиционных систем. Здесь очень важны такие инструменты, как Hadoop (открытая технология распределения анализа данных на большое число компьютеров с целью распараллеливания их обработки и ускорения результатов). Дело в том, что коммерческие средства по-прежнему находятся на начальном этапе развития, поскольку Большие Данные — сравнительно новое явление. Как следствие, большинство программного обеспечения, используемого для их анализа, создается под конкретную задачу и разрабатывается собственными силами компании с помощью таких открытых программных платформ, как Apache Software Foundation, Google, Yahoo и др.

 

Одним из примеров здесь может служить компания Walmart, запустившая в прошлом году Walmart Labs для наблюдения за социальными сетями и сбора данных о продуктах и брендах ритейлера-гиганта. Ни один готовый программный продукт не удовлетворял требованиям Walmart. Поэтому компания разработала инструмент, в целом основанный на системе Google Map/Reduce для наблюдения за веб-страницами. Система MapUpdate от Walmart позволяет компании быстро сопоставлять большие объемы данных для наблюдения за такими факторами, как, например, интересы пользователей Twitter в отдельно взятый день, и пользоваться полученной информацией для прогнозирования поведения пользователей. Компания полагает, что сбор информации из социальных сетей в режиме реального времени и интеграция этой информации в прогнозы о будущих покупках дают прямое преимущество над конкурентами в интернете.

 

Как показывает практика, когда у Больших Данных есть реальная возможность влиять на бизнес, они дают ощутимые результаты. Так, компания Progressive Casualty Insurance Company не так давно представила программу Snapshot, в рамках которой водители получают скидки не за то, как они водили в прошлом, а за то, как они водят сейчас. Участники регистрируются в программе через интернет и устанавливают в своих автомобилях устройства, контролирующие километраж, время суток, в которое обычно ездят клиенты, а также то, насколько часто они прибегают к экстренному торможению. Опираясь на эту информацию, Progressive предлагает безопасным водителям скидки до 30%. Инновационный способ использования данных о вождении позволяет компании привлекать клиентов, которые гордятся безопасным стилем вождения, предлагая им попробовать новую программу страхования.

 

Большие данные в облаке

 

Укротить Большие Данные и извлечь из них пользу для бизнеса позволяют облачные модели. Облако – это прежде всего гибкий подход к обеспечению эффективности, масштабируемости, переносимости и экономичности анализа Big Data.

 

Cloud-среда способствует повышению эффективности доступа к данным и предлагает эластичный пул ресурсов для обработки больших объемов информации. При этом решается проблема хранения гигантских объемов данных и накопления вычислительных ресурсов в количестве, достаточном для их обработки. В облаке данные распределяются по нескольким площадкам, что позволяет разместить их ближе к пользователям, сократить время отклика и повысить производительность труда. А поскольку облако в целом повышает эффективность ИТ и продуктивность отделов информатизации, появляется возможность высвободить ресурсы корпорации и перенаправить их в другие сферы.

 

Переход к Большим Данным: стратегии успеха

 

Стратегии решения задач, связанных с Big Data, зависят от информационной зрелости бизнеса. Насколько результативно и эффективно можно собрать данные для анализа? Насколько компания проинформирована обо всех типах и источниках данных, которые необходимо принимать во внимание для получения максимума идей и ответов? Насколько хорошо организация умеет сопоставлять разные форматы данных? Какова стоимость их сбора и анализа, как она соотносится с ожидаемой выгодой?

 

По данным исследования цифровой вселенной, проведенного компанией IDC в 2011 г. по заказу EMC, количество информации, создаваемой людьми (документы, фотографии, звуковые файлы, сообщения в блогах и т.д.), значительно меньше количества информации, создаваемой о людях в цифровой вселенной. Данные о данных (или метаданные) растут в два раза быстрее цифровой вселенной в целом.

Одни лишь веб-сайты генерируют огромное количество данных. В Facebook более 800 млн активных пользователей и более 900 млн объектов (страниц, групп, событий и страниц сообществ). Пользователи Facebook проводят на сайте более 700 млрд минут, создают в среднем 90 единиц материалов и делятся с друзьями 30 млрд материалов в месяц.

На примере Facebook видно, что Big Data открывают возможности для создания инновационных бизнес-моделей, продуктов и услуг. Они дают компаниям своеобразную фору в конкурентной гонке. По данным отчета Глобального института McKinsey за май 2011 г., ритейлеры, активно пользующиеся Большими Данными, могут увеличить операционную маржу более чем на 60%.

Итак, компании, адаптирующие свои процессы, работу и корпоративную культуру к тому, чтобы охватить и использовать Большие Данные, получат преимущество в виде своевременного генерирования полезных идей. Те, кто не пойдет по этому пути, рискуют остаться на обочине.

 

Руководители предприятий начинают сталкиваться с вопросом, как сделать Big Data своим реальным преимуществом. Чтобы научиться накапливать большие объемы данных, управлять ими и извлекать практическую пользу из них, прежде всего нужны стратегическое планирование и предусмотрительность.

 

Наши эксперты рекомендуют придерживаться подхода, ориентированного на приобретение навыка работы с данными. Это значит, что необходимо готовить имеющиеся наборы данных к новому типу анализа и в то же время устанавливать приоритеты, цели и ограничения для отдельных подразделений компаний. Помимо этого, требуется оценить уровень компетентности сотрудников в вопросах, относящихся к данным, в масштабах всей организации, а не только отдела ИТ, и определить потребность в обучении и передаче знаний в контексте подготовки к Big Data. Ниже мы приводим практические рекомендации по работе с Большими Данными.

 

Поддерживайте гигиену данных

Организациям следует выполнить очистку своих хранилищ данных для подготовки к новым видам анализа. Начать следует с информации, уже хранящейся в корпоративных инфраструктурах. Соблюдение простых принципов гигиены данных, включая сжатие, дедупликацию и архивирование старых файлов, позволяет упростить хранение, вывести устаревшие системы из эксплуатации и определить, какие хранилища нуждаются в модернизации. Кроме того, интеграция данных в тех случаях, когда это возможно, развертывание систем разметки данных и обучение сотрудников ИТ-отдела их категоризации представляют собой важные этапы подготовительного процесса.

 

Поймите, какую ценность представляют данные

Обратите внимание на те области бизнеса, где требуется рост, и начните задавать себе вопросы, ответы на которые могут дать именно Большие Данные. Вместо того чтобы сосредотачиваться на результатах, сфокусируйтесь на получении ответов на эти вопросы. По мере понимания того, каким образом можно пользоваться Big Data, у ИТ-отдела появляется дополнительная мотивация к расширению наборов данных и их сопоставлению новыми разнообразными способами. Таким образом формируется замкнутый цикл.

 

Конечно, существуют экономические факторы. В совершенном мире, в котором отсутствуют бюджеты, все без исключения данные подлежали бы сбору, а каждый байт информации анализировался бы всеми способами, которые только можно себе представить. Но в реальности сбор, хранение и анализ данных требуют затрат. Компаниям нужно будет принимать экономические решения о том, какая информация достаточно ценна для того, чтобы собирать и анализировать ее. Всем прочим структурам в компании нужно будет пойти на компромиссы. Лидеры бизнеса часто проявляют склонность к тому, чтобы собирать и анализировать больше данных, тогда как руководители ИТ-отделов, хорошо представляющие себе ограничения, которые накладывают бюджеты и штатные расписания, могут склоняться к противоположному. Учитывая повторяемость Big Data, эти решения нужно будет регулярно пересматривать, чтобы сохранять уверенность в том, что организация пользуется оптимальными данными для генерирования идей в каждый отдельно взятый момент времени.

 

Разработайте систему измерений

По мере изучения открывающихся возможностей компании будут находить новые сочетания и способы применения данных. Будут собираться новые типы данных, добавляться новые источники информации, а сами данные будут комбинироваться по-новому. Например, новый автомат Coca-Cola Freestyle, предлагающий 125 напитков на выбор, передает в компанию для анализа информацию о том, какие бренды наиболее популярны в разное время суток. Наличие данных о популярности напитков из разных точек позволяет Coca-Cola оптимизировать пополнение запасов даже в других автоматах, загружая в них нужное количество продуктов именно тогда, когда это необходимо.

 

Заранее продумайте все последствия использования данных

Заблаговременно продумайте всю проблематику переносимости, защищенности, конфиденциальности, нормативного соответствия и ответственности, чтобы можно было пользоваться сгенерированными идеями, не опасаясь за последствия. Компаниям, работающим в секторах с жестким регулированием, также потребуется проанализировать соответствие требованиям регуляторов.

 

Подготовьтесь действовать на базе новых знаний

Ценность всех идей, вытекающих из информации, независимо от того, были ли они подготовлены командой профессиональных консультантов или сформированы по результатам анализа данных, определяется тем, что вы делаете с этими идеями. Большие Данные дают возможность своевременно генерировать проработанные идеи и приступить к их реализации быстрее и динамичнее, чем когда-либо ранее. Например, анализ данных в социальных сетях может помочь разобраться в поведении клиентов и оптимизировать промоакции и специальные предложения для определенных заказчиков. Чтобы обеспечить возможность подобной реакции в режиме реального времени, компаниям нужно будет значительно повысить динамичность управления своими бизнес-процессами и потоками операций. Лидеры бизнеса должны установить ожидания в отношении предпринимаемых действий и поручить менеджменту внедрение открытий, сделанных с помощью Big Data, в повседневную работу компании.

 

Информация стала серьезным источником конкурентного преимущества, возможно, не уступающим по важности основным активам и кадрам организации

 

Заключение

 

Большие Данные обладают революционным потенциалом и затронут компании в разных отраслях, секторах и экономиках. Чтобы получить отдачу от них, потребуется не только изменить корпоративные информационные архитектуры, но также внести поправки в работу практически всех отделов. Процесс анализа данных изменится и станет частью бизнес-процесса, а не изолированной функциональной областью, отданной на откуп специально обученным экспертам. Продуктивное использование Больших Данных станет результатом наделения сотрудников по всей компании доступом к многочисленным инструментам самостоятельного анализа разнообразных наборов данных.

 

И это только начало. Когда компании начнут извлекать идеи из Big Data, у них появится возможность предпринимать действия, способные фундаментально преобразить весь бизнес. Если у отдела маркетинга будет возможность мгновенно оценивать отдачу от новой брендинговой кампании, анализируя комментарии в блогах и разговоры в социальных сетях, не уйдут ли в прошлое фокус-группы и традиционные опросы клиентов? Динамичные новые компании, понимающие ценность Больших Данных, смогут не только бросить вызов конкурентам, но и стать лидерами в своих отраслях. Отношения с клиентами преобразятся, когда у компаний появится возможность понять то, что раньше было недоступно для анализа, например, отношение к их продукции и восприятие бренда.

 

Реализация огромного потенциала Big Data зависит от наличия цельного и продуманного подхода к управлению ими и анализу информации. Лидерам рынка нужно проявить творческий подход в подготовке своего бизнеса к Большим Данным, следовательно, и к большим возможностям.

Уведомления об обновлении тем – в вашей почте

«Большая вода»… «Большая руда»… Большие Данные!

Термин "Big Data" родился 4 сентября 2008 года с лёгкой руки журнала "Nature" и его редактора Клиффорда Линча (Clifford Lynch). В этот день вышел номер журнала "Nature" с темой номера "Большие Данные. Наука петабайтной эры" ("Science in the Petabyte era").

Матрица: эволюция

В первой «Матрице» есть эпизод, в котором оператор в режиме реального времени мониторит многочисленные показатели системы и дает Нео совет: «Информации, получаемой из Матрицы, гораздо больше, чем ты можешь расшифровать. Нужно адаптироваться к этому»

Защита Big Data

Как правильно строить защиту больших данных? Какие ИБ-проблемы есть у Hadoop? Существует ли универсальная пилюля от всех уязвимостей Big Data?

Эволюция интеграции данных от компании Informatica

Любая компания – это живой организм, поэтому она проходит в своем развитии несколько этапов: от детства до зрелости.

EMC Greenplum в инвестиционном бизнесе

Тройка Диалог - один из лидеров инвестиционно-банковского бизнеса, работающий на рынках России и СНГ. Среди услуг можно перечислить ПИФы, интернет-трейдинг, индивидуальное брокерское обслуживание, доверительное управление, инвестиционное страхование жизни, управление пенсионными накоплениями.

Шерлок против Big Data

Шерлок Холмс: Но я-то не каждый, Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить всё, что угодно.

Виртуальные ленточные библиотеки. Мифы и реальность

Современные системы хранения данных (СХД) обеспечивают исключительно высокий уровень надежности хранения благодаря отказоустойчивой архитектуре оборудования, включающей в себя дублирование компонентов, поддержку механизмов RAID и т.д., а также за счет применения средств создания копий данных, моментальных снимков (snapshot) и репликации.

Аналитика больших данных как инструмент бизнес-инноваций

Для каких задач компании используют Big Data? Кто и как работает с большими данными? Прогноз по развитию направления

Анализируй это, или Тренды рынка BI

Как Артур Конан Дойл описал ожидания от работы BI за 100 лет до его появления.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня