27 июня 2014

Большие Данные: когда машины знают лучше

Бизнес

Данный пост является частью серии, посвящённой «большим данным» (Big Data), публикуемой на этой и частично на следующей неделе. Первый пост доступен здесь.

Сеть универмагов Target попала в заголовки СМИ в начале этого года в связи с колоссальной утечкой пользовательских платёжных данных: используя хитроумный и скрытный PoS-зловред, злоумышленники смогли похитить информацию о примерно 70 миллионах людей. Но двумя годами ранее Target была посвящена значительная часть статьи в New York Times — «Как компании узнают ваши секреты». Аналитики и маркетологи Target нашли способ идентифицировать будущих матерей с тем, чтобы бомбить их предложениями и рекламой, относящимися к их положению: витамины, одежда для беременных и так далее. Будущие матери — это золотая жила для торговцев, поскольку являются «гарантированными покупателями» (по объективным причинам).

У Target есть обширная (даже очень, как нетрудно представить) база данных на покупателей. Аналитики компании смогли создать модель, которая позволяла им — по ряду косвенных признаков и изменениям по ассортименту приобретаемой ими продукции — выявлять «скорее всего беременных» женщин. Например, некоторые на первых 20 неделях беременности увеличивают количество закумаемых пищевых добавок и витаминов с содержанием кальция, магния и цинка, переключаются на мыло без запаха и так далее.

Эта модель «выявления беременности» (безо всяких, понятно, «усилий» со стороны самих покупательниц) оказалась очень точной. Даже, пожалуй, слишком точной. Однажды в один из магазинов Target заявился разъярённый отец старшеклассницы, потребовал встречи с менеджером и задал вопрос, как так случилось, что его несовершеннолетняя дочь получила рекламный пакет для будущих матерей? Через несколько дней, однако, тот же самый сердитый отец извинялся перед представителями магазина: он только что узнал, что его дочь действительно на сносях.

Аналитический алгоритм Target узнал об этом раньше него. В общем-то, большая победа для маркетологов Target. Правда, остаётся вопрос, а каково было самой девушке? У неё наверняка имеются свои соображения о тайне частной жизни, отличные от «воззрений» аналитической машины Target.

Как видим, Большие Данные позволяют выкапывать колоссальные объёмы персональной информации о каждом из нас, даже такой сугубо личной, как беременность и т.д. Нетрудно представить себе, как эта информация может быть использована для чего-то куда менее «невинного», чем рассылка рекламных предложений купить что-то очень нужное вот прямо сейчас: как насчёт промышленного шпионажа, например?

Мы нередко слышим истории о том, как злоумышленники собирают любые персональные даные о работниках компании, которую они собираются атаковать, чтобы обеспечить успех будущей спиэр-фишинговой кампании, — за этим последует «укрепление позиций» в ИТ-инфраструктуре мишени и кража любых нужных данных. Почему бы не использовать Большие Данные с той же целью?

Понятно, что Большие Данные, их обработка и анализ — это не пирожок на полке: не каждый мелкий злоумышленник может взять да и воспользоваться этим достижением человеческого прогресса. Однако, скажем, 10-15 лет назад глобальный кибершпионаж относился к числу самых смелых идей фантастов. Однако в 2012-м мы ухватили за красный рукав Flame.

Другими словами, когда дело доходит до яростной конкуренции между транснациональными корпорациями или скрытой кибервойны между враждующими нациями, использование Больших Данных для подготовки широкомасштабной кибератаки — с использованием личных данных в качестве рычага Архимеда — это уже далеко не фантастика. Особенно если учитывать, какое количество личных данных сами люди — и работники ИТ-корпораций разного уровня тоже — выкладывают в социальные сети.

Помимо этого, где гарантии, что анализ Больших Данных каким-то образом не позволит узнавать чужие коммерческие тайны? В 2012 году Стив Дёрбин, вице-президент Information Security Forum, писал в Gigaom:

«Организации являются частью довольно сложных, транснациональных и взаимозависимых каналов поставок, и это может оказываться их самым слабым звеном. Информация, которая поддерживает целостность этих каналов поставок, находится в диапазоне от самых приземлённых данных до торговых и коммерческих тайн и интеллектуальной собственности — утеря их может привести к репутационному ущербу, и финансовым, а то и юридическим последствиям. Информационная безопасность играет ключевую роль в координировании контрактных обязательств и поставок в рамках деловых отношений, включающих структуры, оказывающие услуги аутсорсинга, оффшорные компании, поставщиков и «облачных» провайдеров.»

Другими словами, ослабь информационную хватку — и, возможно, потеряешь всё. Чем больше данных, тем сильнее должна быть хватка. Остаётся вопрос, как это сделать на практике.

Продолжение следует.

<< Первый пост | Следующий пост >>