«Большие данные» — большие победы

Эволюция работы с информацией, начавшаяся с черточек и точек на стенах жилищ пещерных людей, привела к появлению понятия «большие данные» (Big Data), предполагающего, что раньше объемы данных были существенно меньше. Это, и правда, так: в середине XX века объем данных удваивался каждые 10 лет, в 1970–1980 годах — каждые 5 лет. В 2009 году был опубликован известный прогноз IDC, согласно которому объем всего цифрового контента будет удваиваться каждые 1,5 года. К 2011 году мировой объем данных уже достиг отметки 1,8 зеттабайт (1,8 трлн Гб) — это в 57 раз больше, чем всех песчинок на пляжах Земли. Но, как прогнозирует IDC, к 2020 году лишь 35 % всех данных будут действительно полезными и востребованными.

Вадим Табаков,
менеджер по развитию направления Database&Technology SAP CIS

Таким образом, научившись генерировать большие объемы данных, передавать и хранить их, компании перешли к следующему этапу работы с информацией: анализировать ее и выбирать то, что реально помогает в достижении целей. Насколько изменились в результате методы работы компаний? И какие результаты принесла им возможность учитывать при приеме решений гораздо больше сущностей, факторов, цифр и тенденций?

Картина проясняется

Инновационная составляющая Big Data действительно позволила по‑новому выстроить работу и добиться результатов, ранее недостижимых. Не только бизнес, но и госсектор, наука, социальная сфера получают от использования «больших данных» добавленную стоимость. Задачи, для решения которых можно применять технологии Big Data, есть практически в каждой отрасли: финансовый сектор, телеком, розничные продажи, нефтегазовая отрасль, госсектор, производство, энергетика, медицина, наука. Многие из них — кросс­отраслевые: аналитика, прогнозирование конъюнктуры рынка и конкурентоспособности. Например, для финансового сектора, телекома и ритейла Big Data — все, что связано с работой с клиентами: персонализация услуг, анализ транзакций и моделей потребления, предотвращение мошенничества. В добывающих и промышленных сегментах «большие данные» помогают в прогнозировании технологических и экономических показателей, в управлении техобслуживанием и ремонтами уникального оборудования, находящегося в разных, а зачастую и в труднодоступных регионах.

Решение этих задач было доступно и раньше с помощью более или менее совершенных решений для бизнес-аналитики. Что принципиально нового принесли «большие данные»? Мир сделал три шага, позволивших работать с информацией по‑новому:

1. Способность анализировать всю совокупность данных, а не довольствоваться их частью или статистическими выборками. Вспомним термин «статистическая погрешность» — то есть в традиционных методах анализа данных уже заложена готовность к компромиссу, неполноте, недостаточной обоснованности выводов.

2. Готовность работать с неупорядоченными данными, возможно — в ущерб точности. Всегда ли она важна? Безусловно, в медицине, биологии, ядерной физике и многих других науках — жизненно необходима. Но не менее важной оказывается возможность быстро спрогнозировать общие тенденции или наиболее вероятный результат. Небольшой магазин может подсчитать выручку к концу дня вплоть до копейки, но попробуйте сделать то же самое с ВВП большой страны.

3. Новый подход к оценке данных: вместо отслеживания причин более важным может оказаться выявление типичного, повторяющегося, воспроизводимого. Как бы мы ни пытались, мы не сможем обработать все данные, но изучим их настолько, чтобы найти скрытые закономерности и корреляции. Такой подход позволяет преодолеть ограничения существующих методов решения сложных многофакторных задач — например, эпидемий или экологических катастроф: из‑за технологических и аппаратных ограничений ситуация развивалась быстрее, чем находились пути ее разрешения.

Новый подход, основанный на корреляциях, поможет в первую очередь определить суть проблемы. Именно по этому принципу строятся генетические алгоритмы, нейронные сети и т. д. И именно этот подход, в сочетании с развитием технологий in-memory, позволил совершить прорыв в исследованиях генома человека сразу в нескольких странах мира. Основой многих проектов в этой области стали технологии SAP.

Не по дням, а по часам

Одним из наиболее красноречивых примеров прикладного использования технологий Big Data — таких как SAP HANA и Hadoop, является проект японской компании Mitsui Knowledge Industry (MKI), применившей эти технологии для важнейшей задачи биоинформатики — сборки и анализа генома человека при диагностике и лечении онкологических заболеваний. Суть метода — в сравнении ДНК обследуемых пациентов с эталонным ДНК здоровых людей. Сотни терабайт неструктурированных данных, содержащих информацию о фрагментах структур ДНК, собираются для предварительной обработки в Hadoop-кластере, после чего с помощью аналитического инструментария R в SAP HANA выполняется анализ полученных фрагментов и восстановление единого «кода жизни». Результаты тестирования показывают, что производительность SAP HANA для решения этой задачи в 408 тысяч раз выше, чем у традиционных дисковых СУБД. В итоге время клинического исследования, в процессе которого пациенту необходимо находиться в стационаре, сокращается с 2–3 дней до 20 минут, т. е. в 216 раз. Теперь специалист буквально в режиме реального времени может собрать геном пациента, провести его сравнительный анализ и выбрать метод лечения.

В Германии, совместно с ведущей университетской клиникой Charite (Берлин), институт Хассо Платнера реализует проект «Онколайзер» — это решение внедрено и активно используется для работы врачей с медицинскими данными пациента как в процессе лечения, так и в научных исследованиях в области онкологии. Одно из преимуществ — более раннее выявление пациентов, которым необходимы особые методы лечения. А ведь, как известно, в лечении столь сложных заболеваний, как онкология, ранняя диагностика напрямую влияет на эффективность лечения.

Почему именно «большие данные» стали основой этих решений? Практически каждый случай онкологического заболевания уникален, и для выбора стратегии лечения врачу необходимо проанализировать огромные объемы данных — по разным группам пациентов, методам лечения, разновидностям течения болезни. Из-за высокой трудоемкости этих процессов пациентам приходится слишком долго ждать индивидуально подобранных курсов лечения. Проект Medical Insights направлен на создание обобщенной модели медицинской информации и семантических процедур, позволяющих извлекать информацию о пациентах из различных источников — таких как клинические базы данных, реестры онкологических больных, банки генетической информации и даже текстовые документы, например — записи лечащих врачей. Затем вся информация анализируется на платформе SAP HANA, причем результат выдается в режиме реального времени. Основная цель — снабдить врачей актуальной информацией о пациенте для более быстрой и точной постановки диагноза.

Есть и российские примеры. На недавнем SAP Startup Forum была представлена система для прогноза течения онкологического заболевания от «Элайд Инновейшенс», позволяющая врачам выбирать на его основе наиболее приемлемую методику лечения в каждом конкретном случае. Разработчики рассчитывают, что уже к 2016–2017 годам решение будет активно использоваться в онкологических центрах.

«Большие данные» сделали возможным прорыв в медицине и биотехнологиях, а ускорение развития технологий привело к тому, что технологии распространяются гораздо быстрее и становятся доступными широкому кругу исследователей и пациентов.

Как общаться с машинами

Однако Big Data и медицина — это лишь одно из возможных сочетаний. Не менее важны и интересны предиктивный анализ клиентской базы в CRM, определение вероятности мошенничества или проактивное планирование техобслуживания и ремонтов на основании данных, получаемых непосредственно от машин, оборудования и сетей. Сегодня устройства стали производить информацию сами. Согласно прогнозу Cisco к 2020 году количество подключенных к Интернету устройств достигнет 50 млрд.

Телеметрический датчик, закрепленный на болиде «Формулы-1», фиксирует и передает данные о работе машины во время гонки в ситуационный центр за тысячи километров от трассы, помогая инженерам, тренерам и пилоту контролировать ситуацию. Победа сборной Германии на чемпионате мира в Бразилии стала одним из ярких спортивных событий года. Но несколько десятков человек были уверены в успехе команды еще до первого гола. Используя огромный объем данных, полученных во время тренировок и прошлых матчей, с помощью специального аналитического приложения они определили высокую вероятность победы Бундеслиги.

Не остаются в стороне и промышленные предприятия. В ходе совместного проекта компаний SAP и AMG управление тестированием двигателей перевели на платформу для обработки данных в реальном времени. Процесс тестирования стал не только более точным, но и сократился до 2 часов вместо 4. Производительность AMG повысилась на 20 %.

И, наконец, госсектор. Россию можно назвать страной «больших данных»: около 50 % населения (55 млн человек) пользуется Интернетом, а мобильных телефонов уже больше 200 млн — по 1,5 на каждого человека, включая грудных младенцев. С помощью смартфона мы оплачиваем парковку и услуги ЖКХ, заказываем необходимые справки на портале госуслуг, принимаем участие в онлайн-голосовании по вопросам развития своего района. Для госсектора возможность анализировать эту информацию и совершенствовать государственные услуги критически важна. Объединив все данные, производимые человеком, его устройствами, окружением, можно составить «цифровой портрет» личности, компании, города, государства.

«Большие данные» сами по себе не имеют смысла, если на их основе нельзя быстро и обоснованно принять решение. Поэтому опасения скептиков о том, что «автоматика вытеснит человека», беспочвенны: машинный интеллект не заменит человека в принятии решений. Для предприятий промышленной отрасли основной потенциал Big Data заключен в интеграции накопленной информации с данными неструктурированными, неизвестными (так называемыми dark data) и получении новых полезных знаний при помощи структурного анализа, eDiscovery, многофакторных индуктивных алгоритмов и прочих техник бизнес-исследований, а также в ускорении обработки потоков данных от промышленного оборудования, инфраструктуры, транспортных средств.

Как приручить «большие данные»?

По мнению экспертов, рынок Big Data в ближайшие годы будет расти в среднем на 27 % ежегодно, и дело тут не в скорости обработки данных, а в новом качестве информации, которую предоставляют эти технологии. Возьмем, к примеру, астрономию. Когда‑то астрономы лишь наблюдали за небом и записывали увиденное. Сегодня возможность сопоставлять и анализировать все богатство накопленных данных позволяет ученым узнавать не только о существующих и видимых небесных телах, но и изучать небесные объекты, которые уже прекратили свое существование или находятся вне пределов Солнечной системы, но влияют на космическое пространство и нашу планету как его часть.

Экономический эффект от внедрения решений класса Big Data оценивается в тех же критериях, что и другие бизнес-проекты: появление новых и усовершенствование имеющихся бизнес-процессов, снижение издержек и повышение прибыльности, формирование конкурентных преимуществ и окупаемость инвестиций. Реализация Big Data не требует кардинальных изменений ИТ-ландшафта предприятия: согласно подходу SAP Innovation Without Disruption новые аппаратно-программные компоненты практически бесшовно интегрируются в существующую технологическую инфраструктуру. Кроме того, большинство технологий Big Data являются вполне демократичными в части потребления вычислительных ресурсов. Учитывая, что Big Data — это прежде всего распределенные вычисления, для их реализации используются, как правило, традиционные серверы, а уровень горизонтальной масштабируемости выбирается в зависимости от условий решаемых задач. Для компаний, у которых нет возможности развертывать или модернизировать собственную ИТ-инфраструктуру, SAP предлагает облачные решения, значительно снижающие и затраты, и сроки внедрения. Такие услуги уже предлагают многие партнеры SAP, активную поддержку проектам оказывает специализированное подразделение SAP Consulting, а опыт реализации проектов Big Data уже есть у таких компаний, как «Сургутнефтегаз», «Северсталь», «РЖД», «Эльдорадо», «М. Видео».

Любая новая технология проходит через примерно одинаковый набор возражений: как измерить эффективность, каковы будут затраты, как доказать, что новое будет лучше уже испытанного. Это же справедливо и в отношении Big Data, но при этом нужно учитывать, что проект по Big Data должен являться частью корпоративной стратегии. «Большие данные» — это, по сути, вся деятельность компании, организованная в единую систему, в которой изменение одного компонента становится причиной общих изменений. 

 
 
Контакт с нами
Отправить

Выполните вход под своей учетной записью или зарегистрируйтесь, чтобы создать новую учетную запись.

Не зарегистрированы?

Еще не зарегистрированы? Получите доступ к 5000 эксклюзивных материалов, подпишитесь на новостную рассылку и управляйте ей.




Создать новый профиль