Большие данные — неотъемлемая часть нашей жизни

от автора

В прошлой статье речь шла о том, как Big Data вообще и продукты LSI в частности позволяют предсказывать погоду, и почему это так важно. Но, разумеется, не одними только прогнозами состояния атмосферы полезны для нас «большие данные», давайте рассмотрим еще пару интересных применений.

Каждый год, в конце осени — начале зимы, мы все с определенной покорностью ожидаем начала неизбежной эпидемии гриппа. Несмотря на относительную «безопасность» этой болезни, часто она способна дать огромные осложнения, а ежегодное число жертв по всему миру по данным ВОЗ составляет от 250 до 500 тысяч человек.



Вирусы гриппа относятся к семейству Ortomyxoviridae, которое включает в себя роды Influenza A, B, С. Принадлежность к одному из этих типов определяется антигенными свойствами внутренних белков вириона (M1 и NP). Дальнейшее деление проводится согласно подтипам поверхностных белков гемагглютинина (HA) и нейраминидазы (NA). В настоящее время известно 16 подтипов гемагглютинина и 9 подтипов нейраминидазы. К опасным для людей эпидемиям приводят вирусы, содержащие три подтипа HA (H1,H2,H3) и два подтипа NA (N1, N2). Именно эти характеристики и дают извесные нам «кодовые имена» вирусов. Если в определенном году вирус гриппа чем-то отличался от «классического», то к названию добавляется еще и год (наверное все помнят эпидемию, вызванную штаммом 2009 H1N1).


В общем для классификации вирусов гриппа ВОЗ использует классификацию, включающую в себя много признаков.

— Антигенный тип: A, B и C
— Происхождение: свиной, лошадиный, куриный и т.п.
— Географический район обнаружения: китайский, голландский и т.п.
— Номер штамма: 7, 15 и т.п.
— Год обнаружения: 56, 2009 и т.п.
— Подвиды гемагглютинина и нейраминидазы: H1N1, H5N1, и т.д.

Как видите, вирусы гриппа очень сильно отличаются друг от друга, и даже в ходе одной эпидемии они могут изменяться, передаваясь от человека к человеку. Несложно догадаться, что именно тут и вступают в игру знакомые нам большие данные: статистика о заболевании, накапливаемая национальными организациями здравоохранения действительно обширна и подробна, а для эффективной борьбы с эпидемией, необходимо уметь эти данные быстро анализировать.

Сотрудники Центров по контролю и профилактике заболеваний США анализируют эти данные, используя разные инструменты для того, чтобы определить, какие именно штаммы вирусов будут угрожать США, и на основании этого создают вакцину. От точности этого предсказания и зависит, насколько эффективной будет вакцинация, сколько людей заболеют, а сколько останутся здоровыми. Например, в 2012/2013 годах основным штаммом был грипп А H3N2, но так же наблюдались небольшие очаги гриппа B и гриппа А H1N1.

Кроме определения доминирующего вируса, CDC (сокращенное название Центров) анализируют данные для того, чтобы отследить распространение вируса и его потенциальный эффект на население. Для этого анализируются огромные массивы данных, включающие в себя информацию о прошлых эпидемиях, прививках, данные о населении и даже прогнозы погоды. Результатами этой работы становятся предсказания, где в первую очередь ожидать ударов вируса, какой силы будет эпидемия, и сколько по времени она продлится. Это помогает произвести достаточное количество вакцины, правильно «подгадать» со временем ее производства и проведением вакцинации и правильно ее распределить. От этих прогнозов напрямую зависит: насколько эффективным будет использование вакцины в этом году.

Как и в случае с прогнозами погоды, в этом случае эффективно себя показывает такой инструмент как Apache Hadoop, для ускорения работы которого у LSI есть аппаратные решения линейки Nytro, узнать о которой подробней вы сможете на нашем сайте.

Прогнозирование погоды и предсказания, касающиеся гриппа роднит одно: от точности этих предсказаний зависят жизни людей. К сожалению, таких областей, в которых на карту поставленны жизни и здоровье — очень много. А есть ли какие-то не столь жизненно важные области, в которых Big Data тем не менее играет большую роль? На самом деле их немало, расскажу про очень неожиданное применение больших данных в индустрии производства одежды и моды.

Август во многих странах по всему миру означает не только конец лета, но и начало занятий в школах. Школьники многих национальностей с родителями едут в магазины для покупки канцтоваров, школьных принадлежностей и зачастую школьной формы. Во времена наших родителей, выбор в магазинах был не так велик, поэтому многие ученики носили одинаковые куртки и пальто.

В наш век развитого консьюмеризма выбор стал намного шире. Огромные мегамоллы и супермаркеты поменьше, специализированные магазины и онлайн-порталы — все это приводит к наличию немалого выбора. Если добавить к этому огромное разнообразие фасонов, материалов, стилей, производителей и размеров — становится понятны проблемы, с которыми приходится сталкиваться типичным ритейлерам.

Все участники производственной цепочки опираются на Big Data в своей работе. Начинается это все с производителей материи. Они анализируют прошлогодние заказы, предложения конкурентов, модные тренды, рынок сырья и стоимость производства. Отслеживание любого из этих факторов в одиночку — занятие несложное, но по мере роста количества связанных факторов, сложность анализа возрастает многократно. В одном из своих отчетов 2012 года, аналитики Gartner подчеркнули, что главные проблемы, встающие перед Big Data как раз и состоят в работе в тех случаях, когда нужно анализировать взаимодействие между собой двух и более источников данных.

Следующие участники в цепочке производства — крупные компании-производители одежды. Именно они задают тренды на рынке, поэтому задачи, стоящие перед ними — еще сложней. Они используют инструменты «больших данных» для создания планов производства. Анализируя такую информацию как исторические данные о продажах, прогнозы погоды, демографические и экономические данные, они выбирают правильные цвета, фасоны, модели и ценовые рамки для производимой ими одежды.

Последними в этой линии стоят потребители. Именно они покупают одежду. При этом, все, что висит на вешалках и лежит на полках магазинов (а так же выставлено на продажу в онлайне) было выбрано и заказано от полугода до 9 месяцев назад. Возьмем в качестве примера крупнейшего ретейлера на рынке США — Kohl’s. Им необходимо учитывать прогнозы погоды, чтоб знать где будут продаваться купальники, а где — теплые куртки, экономическую ситуацию и данные о конкурентах, чтоб правильно сформировать ценовую политику, демографические данные чтоб лучше оценить потребности людей и размерную сетку. Чем точнее будут эти прогнозы, тем меньше товаров потом будет продаваться с большими скидками на распродажах, и тем выше будет прибыль компании.

Разумеется, прибыль компании несоизмерима с человеческими жизнями, но и тут Big Data показывает себя важнейшим и ценнейшим инструментом, необходимым для достижения успеха. LSI является одной из тех компаний, которые способны предложить решения, действительно ускоряющие и упрощающие работу с большими данными.

ссылка на оригинал статьи http://habrahabr.ru/post/197462/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *