Структурирование рисков и решений при использовании BigData для получения официальной статистики

от автора

Предисловие переводчика

Материал заинтересовал меня, в первую очередь из-за таблицы ниже:

С учетом того, что статистики (а российские, на генетическом уровне), мягко говоря, не любят все, что отличается от линейной зависимости, эти парни умудрились протащить использование функции активации в параболическом виде для определения степени риска использования BigData в официальной статистике. Молодцы. Естественно, статистики добавили свое примечание к этой работе – «1 Любые ошибки и упущения являются исключительной ответственностью авторов. Мнения, выраженные в этом документе, являются личными и не обязательно отражают официальную позицию Европейской комиссии». Но работу опубликовали. Думаю, на сегодня, этого достаточно, и они (авторы) никому не запрещали находить свои шкалы в этих аспектах.

В работе достаточно структурировано можно разделить, где и каким образом статистические методы отличаются от методов исследования для BigData. На мой взгляд, самая большая польза от этой работы будет при разговоре с заказчиком и для опровержения его высказываний типа:

— А мы собираем сами статистику, что Вы тут еще хотите исследовать?
— А вы нам свои результаты представьте так, чтобы мы их со своей статистикой согласовали. В этом вопросе авторы говорят, что неплохо бы почитать эту работу (3 How big is Big Data? Exploring the role of Big Data in Official Statistics)

В данной работе авторы проставили свое виденье уровня риска. Этот параметр стоит в скобках, не путать со ссылкой на источники.

Второе наблюдение. Авторы используют термин BDS – это аналог понятия BigData. (видимо реверанс официальной статистике).

Предисловие авторов

Все большее число статистических управлений изучают возможность использования больших источников данных для подготовки официальной статистики. В настоящее время имеется лишь несколько примеров, когда эти источники были полностью интегрированы в фактическое статистическое производство. Следовательно, полная степень последствий, вызванных их интеграцией, еще не определена известный. Тем временем были предприняты первые попытки проанализировать условия и влияние больших данных на различные аспекты статистической продукции, такие как качество или методология. Недавно целевая группа разработала качественную основу для подготовки статистических данных на основе больших данных в контексте проекта больших данных Европейской экономической комиссии Организации Объединенных Наций (ЕЭК ООН). Согласно европейскому статистическому кодексу практики предоставление высококачественной статистической информации является основной задачей статистических управлений. Поскольку риск определяется как влияние неопределенности на цели (например международной организацией по стандартизации ISO 31000) мы сочли целесообразным категорировать риски в соответствии с измерениями качества, на которые они влияют.
Предлагаемая структура качества статистических данных, получаемых из крупных источников данных, обеспечивает структурированное представление о качестве, связанном со всеми этапами статистического бизнес-процесса, и, таким образом, может служить основой для комплексной оценки и управления рисками, связанными с этими новыми источниками данных. Он вводит новые качественные измерения которые специфичны К или (высокой важности когда) использование больших данных для официальной статистики, таких как институциональная/Деловая среда или сложность. Используя эти новые качественные измерения, можно более систематически выявлять риски, связанные с использованием больших источников данных в официальной статистике.

В настоящей работе мы стремимся выявить риски, вызванные использованием больших данных в контексте официальной статистики. Мы придерживаемся системного подхода к определению рисков в контексте предлагаемой структуры качества. Концентрируясь на вновь предложенных измерениях качества, мы можем описать риски, которые в настоящее время отсутствуют или не оказывают влияния на производство официальной статистики. В то же время мы можем определить текущие риски, которые будут оцениваться совершенно по-разному при использовании больших данных для получения статистики. Затем мы переходим дальше в цикл управления рисками и предоставляем оценку вероятности и влияния этих рисков. Поскольку оценка рисков предполагает субъективность в их атрибуции вероятность и влияние на различные риски мы измеряем соглашение между десятками различных заинтересованных сторон, предоставленных независимо. Затем мы предлагаем варианты снижения этих рисков в соответствии с четырьмя основными категориями: избегание, сокращение, совместное использование и удержание. Согласно ИСО, одним из принципов управления рисками должно быть создание стоимости, т. е. ресурсы для снижения рисков должны быть ниже, чем для бездействия. В соответствии с этим принципом мы, наконец, проведем оценку возможного влияния некоторых мер по снижению рисков на качество конечных результатов, с тем чтобы прийти к более всеобъемлющей оценке использования Больших Данных для официальной статистики.

1. Введение

1.1. Background

Развитие «больших данных» было охарактеризовано Кеннетом Нилом Кукиером и Виктором Майером-Шенбергером в их статье «Рост больших данных» (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/therise-of-big-data) термином «передача данных». Datafication описывается как процесс «принятия всех аспектов жизни и превращения их в данные». Например. Facebook предоставляет персональные сети, датчики для всех видов условий окружающей среды, смартфоны для персонального общения и перемещений, носимые данные для личных условий. Это приводит к почти повсеместному сбору и доступности данных.

Как и во многих других секторах, официальная статистика только недавно начала обсуждать проблему больших данных на стратегическом уровне. Пока еще нет общего и широко распространенного понимания пути продвижения вперед, будь то вызов или возможность, мала ли она или большая и т. Д. В рамках Группы высокого уровня по модернизации статистического производства и услуг (3 How big is Big Data? Exploring the role of Big Data in Official Statistics: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), a Первый SWOT-анализ, сопровождаемый грубым анализом риска/выгоды, был проведен. Было отмечено, что «полноценный анализ рисков будет также включать такие аспекты, как вероятность и влияние, и, возможно, также будет расширен для определения стратегий по снижению рисков и управлению ими».

Хотя этот документ еще далек от полного анализа рисков, он направлен на улучшение ситуации именно путем создания первого структурированного обзора. Мы хотели бы подчеркнуть, что этот обзор следует рассматривать как отправную точку для стимулирования общего обсуждения в рамках Официального статистического сообщества (OSC).

1.2. Сфера

Эта статья посвящена исключительно рискам, исключая не только преимущества, но и сильные и слабые стороны, возможности и угрозы. Это означает, что «риски бездействия» (например, риск того, что OSC окажется вне конкуренции с другими участниками, если она не будет модернизирована), не входят в сферу действия; это скорее угрозы. Вместо этого мы пытаемся выделить риски, которые могут возникнуть (а) если OSC будет использовать возможности, предоставляемые большими данными, и начнет разрабатывать или улучшать конкретный «продукт официальной статистики на основе больших данных» (BOSP); (б) риски для нового «обычного бизнеса», то есть риски для официальной статистики, основанной на «больших данных» производство. (Поскольку все производство официальной статистики связано с рисками, мы ограничиваемся (b) специфическими для «больших данных рисками», т.е. рисками, которые не существуют или незначительны для «традиционного» процесса собирания официальной статистики.)

1.3. Структура

В разделе 2 мы представляем основные принципы, связанные с этой задачей, начиная с явно необходимой основы для управления рисками и управления рисками (раздел 2.1). Мы также представляем предварительную структуру качества статистических данных, полученных на основе больших данных (раздел 2.2), поскольку увязка структуры качества с рисками выполняет две цели:

  • Она устанавливает контекст для определения рисков. Определенные показатели качества вместе с рассматриваемыми характеристиками выражают ценности объекта, которые считаются важными и решающими для предоставления услуг клиентам и пользователям.
  • Это позволяет назначать конкретные риски качественным измерениям, которые вложены в общие гиперпространства и привязаны к определенным этапам в процессе производства статистических продуктов.

В разделах 3, 4, 5 и 6 мы представляем риски, выявленные до сих пор в различных контекстах (4 The business case documents of the ESS (https://www.europeansocialsurvey.org/about/structure_and_governance.html) Big Data project as well as on the Big Data ESSnets contain a list of risks partially related to the project and partially to using big data sources for statistical purposes. The document «A suggested Framework for the Quality of Big Data» mentions some risks related to quality dimensions./ Документы бизнес-кейса проекта ESS Big Data, а также в сетях ESS Big Data содержат список рисков, частично связанных с проектом и частично с использованием источников больших данных в статистических целях. В документе «Предлагаемая структура для качества больших данных» упоминаются некоторые риски, связанные с показателями качества.). Здесь мы используем классификацию доступа к данным, правовую среду, конфиденциальность и безопасность данных, а также навыки; реорганизация в соответствии с качественной структурой статистики, полученной из больших данных (раздел 2.2), должна быть рассмотрена сразу же, как только эта структура достигнет более завершенного статуса. Для каждого из выявленных рисков мы (i) предоставляем оценку вероятности, а также воздействия (в соответствии с разделом 2.1.3) и (ii) предлагаем стратегии снижения рисков и управления ими (см. раздел 2.1.4).

В конце, мы обсудим наши выводы и наметим некоторые последующие шаги в Разделе 7

2. Основы

2.1. Риски и управление рисками

Согласно ISO 31000: 20095 риск определяется как «влияние неопределенности на поставленные цели». Это означает, что цели должны быть определены или известны, прежде чем можно будет определять риски. Эти цели обычно определяются с учетом институционального контекста соответствующей организации. Еще одним важным соображением является то, что риски несут в себе характеристику неопределенности, то есть неясно, произойдет ли описанное событие. Таким образом, риски измеряются с точки зрения вероятности наступления события и его последствий, т. е. влияние, которое оказывает данное мероприятие на достижение поставленных целей. Оценка рисков должна давать более объективную информацию, которая в конечном итоге позволит найти надлежащий баланс между реализацией возможностей получения прибыли и минимизацией неблагоприятных последствий. Управление рисками является неотъемлемой частью практики управления и важным элементом надлежащей корпоративной практики (6 Statistics Canada: 2014-2015 report on Plans and Priorities, www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm). Это итеративный процесс, который в идеале позволяет непрерывно улучшать процесс принятия решений и способствует постоянному улучшению производительности.

Риски также связаны с качеством. Применение системы качества должно позволить использовать возможности, предоставляемые различными источниками и методологиями, для достижения результата определенного уровня качества в том смысле, что этот результат удовлетворяет потребности пользователей. Как и риски, уровни качества могут быть получены из институциональной среды и цели определенных учреждений. В этом контексте институциональная среда определяет общий уровень риска, который организация готова нести для достижения своих целей.

Процесс оценки и управления рисками может быть разбит на различные этапы, которые включают в себя установление контекста, определение рисков, анализ рисков с точки зрения вероятности и воздействия, оценку рисков и, наконец, обработку рисков.

2.1.1. Институциональный контекст

В качестве первого шага необходимо установить стратегический, организационный контекст и контекст управления рисками, в котором будет проходить остальная часть процесса. Это включает в себя установление критериев, по которым будут оцениваться риски, и определение структуры анализа.

2.1.2. Идентификация риска

На втором этапе должны быть определены события, которые могут оказать влияние на достижение поставленных целей. Идентификация должна включать вопросы, связанные с типом рисков, сроками события, местом или тем, как события могут предотвратить, ухудшить, задержать или улучшить достижение целей.

2.1.3. Оценка риска

Следующий шаг состоит из определения существующих средств контроля и анализа рисков с точки зрения вероятности, а также с точки зрения потенциальных последствий. В контексте данной статьи, вероятность или вероятность возникновения рисков используется шкала от 1 (маловероятный) до 5 (частый). Влияние возникновения событий измеряется по шкале от 1 (незначительно) до 5 (экстремально). Как показано в таблице 1, произведение вероятности и воздействия оказывает «уровень риска» в диапазоне от 1 до 25.

Оцененные уровни риска можно сравнить с предварительно определенными критериями, чтобы установить баланс между потенциальными выгодами и неблагоприятными результатами. Это позволяет делать суждения о приоритетах управления.

Приоритет для действий должен быть сделан на критические риски (см. Таблицу 2), то есть те, которые могут произойти и имеют серьезные или экстремальные последствия для целей организации.

2.1.4. Реакция на риски

Последний шаг состоит из решений о том, как реагировать на риски. Некоторые риски, которые ниже заранее определенного уровня риска, могут быть проигнорированы или допущены. Для других затраты на нейтрализацию рисков могут быть настолько высокими, что они перевешивают потенциальные выгоды. В этом случае организация может принять решение отказаться от соответствующей деятельности. Риски также могут быть переданы третьим сторонам, таким как страхование, которое компенсирует понесенные расходы. Последний вариант — учитывать риски при определении стратегий и действий, которые уравновешивают затраты с потенциальными выгодами. Таким образом, организация примет решение о внедрении стратегий для максимизации выгод и минимизации потенциальных затрат.

2.2. Системы качества

Целевая группа, состоящая из представителей национальных и международных статистических организаций, разработала в 2014 году предварительную структуру качества для статистики, получаемой из больших данных. Целевая группа работала под эгидой проекта UNECE/HLG «Роль больших данных в модернизации статистического производства». Он расширил существующие системы качества, разработанные для оценки статистики, полученной из административных источников данных, с показателями качества, которые были сочтены актуальными для больших источников данных.

В рамках этой системы проводится различие между тремя фазами бизнес-процесса: ввод, производительность и вывод. Фаза ввода соответствует фазам «проектирования» и «сбора» GSBP, производительность для фаз «процесса» и «анализа», а выходные данные эквивалентны фазе «распространения».

В структуре применяется иерархическая структура, которая была взята из структуры административных данных, разработанной Статистическим управлением Нидерландов (7 Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources. Statistics Netherlands, The Hague/Heerlen). Измерения качества вложены в иерархическую структуру, называемую гиперпространствами. Тремя определенными гиперразмерами являются «источник», «метаданные» и «данные». Измерения качества вкладываются в эти гиперразмеры и присваиваются каждому из этапов производства. Для фазы ввода были предложены дополнительные аспекты «конфиденциальность и конфиденциальность», «сложность» (в соответствии со структурой данных), «полнота» метаданных и «связность» (возможность связать данные с другими данными), чтобы добавить к модель стандартного качества. Для каждого из показателей качества предлагаются факторы, имеющие отношение к их описанию, а также возможные показатели.

В контексте этой статьи риски могут быть исключены из этих факторов. Например, факторы, которые необходимо учитывать для измерения качества «институциональная / бизнес-среда», — это устойчивость поставщика данных. Связанный с этим риск может заключаться в том, что данные не будут доступны у поставщика данных в будущем. Другой пример связан с недавно предложенным аспектом качества, конфиденциальности и безопасности. Одним из важных факторов является «восприятие», означающее возможное негативное восприятие предполагаемого использования конкретных источников данных различными заинтересованными сторонами.

3. Риски, связанные с доступом данных

3.1. Отсутствие доступа к данным
3.1.1. Описание

Этот риск состоит из проекта, связанного с разработкой BOSP, не получающего доступа к необходимому источнику больших данных (BDS).

К настоящему времени OSC усвоил трудный путь, что даже выход из стартовых блоков и получение этого доступа иногда являются непреодолимым препятствием. Иногда легко получить доступ к определенному источнику — такому как записи данных вызовов (CDR), его для целей тестирования / исследования, но гораздо труднее (по юридическим или коммерческим причинам) получить доступ к нему для производственных целей.

3.1.2. Вероятность

Вероятность в значительной степени зависит от характеристик BDS. Если это касается больших административных данных, они могут составлять всего 1, в частности, если (как в случае данных петли трафика, исследованных Daas et al. 8 Daas, P., M. Puts, B. Buelens and P. van den Hurk. 2015. «Big Data as a Source for Official Statistics». Journal of Official Statistics 31 (2). (Forthcoming; publication foreseen for June 2015.)) нет проблем защиты личных данных. Если случай BDS принадлежит частному лицу, в частности, если он является чувствительным (например, с точки зрения защиты данных) или ценным (с коммерческой точки зрения), вероятность может быть очень высокой (5).

3.1.3. Влияние

Воздействие зависит от BOSP и способа использования BDS. Если BDS находится в самом центре, воздействие может быть очень высоким (4 = вообще невозможно произвести BOSP), тогда как оно может быть ниже, если все еще возможно произвести BOSP (хотя и с более низким качеством), полагаясь на других УРБ, что приводит к воздействию в диапазоне 2-3.

3.1.4. Профилактика

Чтобы снизить риск отсутствия доступа, следует установить предварительные контакты с поставщиком данных и заключить долгосрочное соглашение о доступе к данным. Кроме того, следует провести комплексный правовой анализ, касающийся конкретной комбинации BDS и BOSP. Следует также оценить возможности доступа к данным с помощью действующего или будущего законодательства.

3.1.5. Смягчение

Если есть альтернативные BDS, которые можно использовать для BOSP, их можно было бы изучить вместо этого. Если нет способа произвести BOSP без BDS, и если невозможно преодолеть отсутствие доступа, усилия должны быть прекращены, и новый BOSP не увидит свет.

3.2. Потеря доступа к данным
3.2.1. Описание

Этот риск состоит в том, что статистическое управление теряет BDS, лежащий в основе BOSP.

3.2.2. Вероятность

Если BOSP уже производится, обычно существует определенная стабильность, а в некоторых случаях риск может быть очень низким (1). Однако, в частности, в случае частных субъектов, с которыми были заключены недостаточно твердые соглашения, ничто не мешает, например. новое руководство от изменения политики предоставления данных, что приводит к умеренному риску разрыва (3). Более того, если BDS связана с нестабильной деятельностью, всегда существует риск того, что провайдер просто обанкротится, и риск может быть даже выше (4).

3.2.3. Влияние

Поскольку существующий BOSP может быть невозможным для производства, часто имеет место очень сильное воздействие (5). В других случаях, когда BDS носит вспомогательный характер, воздействие может быть, скорее, потерей качества с воздействием в диапазоне 2-3.

3.2.4. Профилактика

Стратегия предотвращения аналогична стратегии отсутствия доступа к данным, но с повышенным акцентом на постоянную бдительность также в производственных условиях.

Не помещать все яйца в одну корзину (т.е. иметь несколько BDS, лежащих в основе каждого BSOP) также может быть стратегией, но это может быть либо непрактичным, либо слишком дорогостоящим.

3.2.5. Смягчение

Если BDS является результатом неустойчивой деятельности, возможно, постепенно станет доступной новая BDS, отражающая то же самое социальное явление. Однако было бы слишком поздно начинать «сканирование рынка», как только BSOP выйдет из строя; потребуется постоянная бдительность — а это может быть трудно достичь.

4. Риск, связанный с правовой средой

4.1. Несоблюдение соответствующего законодательства
4.1.1. Описание

Этот риск состоит из проекта, связанного с разработкой BOSP, в котором при этом не учитывается соответствующее законодательство, что делает BOSP не соответствующим указанному законодательству. Это может касаться законодательства о защите данных, нормативных актов, касающихся бремени реагирования и т.д.

4.1.2. Вероятность

Учитывая неосведомленность OSC о больших данных, не исключено, что случайное (3) несоблюдение может иметь место. Вероятность, как правило, связана с BDS, поскольку чем менее «чувствителен» источник, тем меньше вероятность возникновения несоответствия.

4.1.3. Влияние

Воздействие, как правило, является критическим (4) в том смысле, что для несоответствующего производства потребуется остановить BOSP (или, если он еще не достиг стадии реализации, его разработка должна быть прекращена). Это может быть даже экстремально (5), поскольку репутационные риски, возникающие в результате несоответствующей («незаконной») официальной статистики, могут иметь последствия

4.1.4. Профилактика

Для любого BOSP необходимо провести тщательный юридический анализ — и это происходит на нескольких этапах (то, что приемлемо на этапе разработки / разведки, может быть не так на этапе внедрения / производства). Это, в свою очередь, может привести к реинжинирингу BOSP, чтобы сделать его совместимым.

4.1.5. Смягчение

В зависимости от серьезности несоответствия, первым шагом может быть перевод BOSP в автономный режим.

Реинжиниринг BOSP, чтобы сделать его совместимым, может быть вариантом, но то, будет ли BOSP «спасен» таким образом, сильно зависит от характера несоответствия.

4.2. Неблагоприятные изменения в правовой среде
4.2.1. Описание

Может быть введено новое законодательство, относящееся к разрабатываемому BOSP, что фактически делает BOSP несовместимым.

4.2.2. Вероятность

Не исключено, что сторонникам усиленной защиты данных удастся ввести новые требования, которые прямо или косвенно повлияют на возможность создания конкретных BOSP. Вероятность в диапазоне 2-3 кажется реалистичной оценкой.

4.2.3. Влияние

Воздействие, как правило, является критическим (4), в том смысле, что несоответствующее производство потребует остановки BOSP.

4.2.4. Профилактика

Определенная бизнес-информация должна проводиться регулярно для мониторинга развития законодательства — возможно, также для того, чтобы повлиять на него, выдвигая аргументы в пользу официальной статистики на соответствующих (например, консультативных) форумах.

4.2.5. Смягчение

При условии, что был проведен упреждающий мониторинг, может быть время для реинжиниринга BOSP, чтобы привести его в соответствие с новым законодательством с первого дня его вступления в силу.

Если, с другой стороны, мониторинг не проводился, так что новое законодательство «стало неожиданностью» — или если законодательство настолько радикально, что не существует способа сделать BOSP несовместимым — единственным вариантом может быть отключить BOSP.

5. Риски, связанные с конфиденциальностью и безопасностью данных

5.1. Нарушения безопасности данных
5.1.1. Описание

Этот риск относится к несанкционированному доступу к данным, хранящимся в статистических управлениях. Третьи стороны могут получить данные, которые находятся под эмбарго, например, из-за релиза графика( 9 Для любого BOSP, который полностью основан на единственной BDS, неизбежно, что данные будут неявно известны первоначальному владельцу данных, и если методология прозрачна, производная статистика также будет известна. Эта ситуация не рассматривается здесь, а скорее в риске, связанном со злоупотреблением служебным положением владельцами.) (10 Кроме того, эти данные могут нести в себе риск нарушения конфиденциальности. Этот риск будет рассматриваться отдельно.). Это могут быть, например, данные, которые ожидают инвесторы на фондовом рынке.

5.1.2. Вероятность

Что касается технических аспектов защиты ИТ-среды в статистическом подразделении, то риск имеет такую же вероятность для BDSs, как и для традиционных источников. Однако есть два дополнительных аспекта, которые необходимо учитывать.

Во-первых, с некоторыми BDS общий риск слегка повышается из-за того, что безопасность данных у первоначального владельца может быть поставлена под угрозу. Это может быть связано, например, с промышленный шпионаж или взлом.

Во-вторых, как только потенциально ценные данные начнут храниться в офисе, риск привлечения злонамеренных намерений повысится. Если хранимые данные имеют очень высокую ценность для бизнеса, следует быть готовым к очень высокой вероятности атак, направленных на ИТ-инфраструктуру, поэтому вероятность возникновения взлома может быть потенциально выше (4).

Если хранимые данные не воспринимаются как имеющие ценность, общая вероятность представляется не очень высокой — от (1) до (3) в зависимости от источника данных.

5.1.3. Влияние

Потенциальный урон репутации может быть большим (5). Что важно в случае с BDS, так это то, что если нарушение безопасности происходит у первоначального владельца, воздействие на репутацию статистического управления, как ожидается, будет ниже, чем если бы нарушение произошло с данными, находящимися на его хранении.

С другой стороны, возможно, что нарушение в статистическом управлении может иметь негативные последствия для первоначального владельца. В этом случае снова возможно сильное негативное влияние из-за ущерба с точки зрения доверия между поставщиком и статистическим управлением (5).

5.1.4. Профилактика

Что характерно для случая BDS, так это то, что процедуры безопасности первоначального владельца могут быть уместными. Маловероятно, что статистические управления получат аудиторские полномочия, чтобы контролировать это. Владельцы, чьи данные используются для изготовления записей с конфиденциальными графиками публикации, должны быть проинформированы о последствиях для официальной статистики потенциального нарушения безопасности в их помещениях и должны получить официальную гарантию того, что применяются надлежащие процедуры безопасности.

Прямой способ предотвратить серьезное влияние нарушения безопасности в помещении владельца на статистическое управление — обеспечить использование нескольких источников для одного и того же продукта, чтобы одного скомпрометированного источника было недостаточно для получения окончательной цифры. Преимущество этого подхода состоит в том, что больший контроль находится в руках статистического управления.

Способ предотвращения негативных последствий нарушения безопасности в статистическом офисе для первоначального владельца данных состоит в том, чтобы найти способ работы, который не предполагает передачу данных, которые потенциально чувствительны с точки зрения владельца, в статистическое управление. В сыром виде. Возможный профилактический подход — использование агрегированных данных. Следует помнить, однако, что некоторые формы агрегации, например, те, которые предназначены для предотвращения идентификации отдельных членов населения, могут не подходить в этом случае. Одной из причин этого может быть тот факт, что риск для владельца связан с коммерческой ценностью данных, которая может быть существенной даже после достижения анонимности.

5.1.5. Смягчение

В случае нарушения данных, находящихся в ведении статистического управления, меры по смягчению последствий будут такими же, как и в случае традиционных источников, если не произошло отрицательного воздействия на первоначального владельца.

В случае негативных последствий для первоначального владельца, статистическое управление должно пересмотреть и усилить свои процедуры безопасности и четко сообщить и продемонстрировать свою приверженность этому.

Если нарушение произошло в помещении первоначального владельца, то соответствующая статистическая служба должна четко сообщить о ситуации и настаивать на улучшении процедур безопасности владельца. При необходимости можно искать альтернативного поставщика.

5.2. Нарушения конфиденциальности данных

5.2.1. Описание

Это риск того, что конфиденциальность одного или нескольких лиц из статистической совокупности будет нарушена. Это может быть связано с нападение на ИТ-инфраструктуру из-за давления со стороны других государственных учреждений или из-за неадекватных мер контроля за раскрытием статистических данных.

5.2.2. Вероятность

Как и в случае риска нарушения безопасности данных, технические условия хранения микроданных не сильно меняются при добавлении BDS. Однако и здесь есть предостережения.

Микроданные из определенных источников данных могут иметь высокую деловую ценность, поэтому их хранение увеличит вероятность атак.

Кроме того, некоторые микроданные могут быть потенциально очень полезны для других государственных учреждений, например правоохранительные органы, налогообложение или здравоохранение. В определенных обстоятельствах приверженность принципу статистической конфиденциальности может оказаться под большим давлением.

Что касается сбоев в контроле раскрытия статистической информации, то к настоящему времени уже существует устоявшаяся практика. BDS может позволить производить статистику для небольших подгрупп населения или предоставлять возможность связывать агрегированные данные из разных BDS, что может увеличить вероятность возникновения риска. Кроме того, новые источники, однако, потребуют новых методологических разработок, поэтому реальная опасность заключается в том, что методология контроля раскрытия информации не обновляется должным образом.

В целом, при разумных превентивных мерах вероятность может быть сохранена на разумных уровнях, но, поскольку существует множество различных и разнообразных факторов, соответствующая оценка здесь, по-видимому, заключается в том, что вероятность высока (4).

5.2.3. Влияние

Потенциальный урон репутации может быть большим (5). Как и в случае риска нарушения безопасности данных, нарушение в статистическом управлении может иметь негативные последствия для первоначального владельца. Здесь влияние такого события может быть потенциально даже больше, особенно при условии, что нынешние тенденции в общественном мнении сохранятся. Ущерб в отношениях между поставщиком данных и статистическим управлением также, как ожидается, будет очень большим.

5.2.4. Профилактика

Безошибочный способ предотвратить возникновение такого риска – вообще не иметь микроданные из BDS (хотя хранение других микроданных по-прежнему сопряжено с соответствующим риском, хотя и с другой вероятностью и влиянием). Такой путь, как и в случае риска нарушения безопасности данных, повлечет за собой необходимость разработки других способов использования данных в статистических целях. Кроме того, здесь различная природа источников будет означать, что необходимо будет разработать новые методологии с конкурирующими целями извлечения как можно большего количества полезной информации и защиты конфиденциальности от опасности.

В случае хранения микроданных механизмы обеспечения безопасности ИТ и контроля доступа должны находиться на требуемом уровне и постоянно контролироваться. Особое внимание необходимо уделить обеспечению безопасности новых способов получения данных. По иронии судьбы таким новым способом может быть физическая транспортировка устройств хранения (например, жестких дисков). Если этот метод используется, то доставка должна быть физически защищена, и должно использоваться шифрование.

5.2.5. Смягчение

Смягчающие меры здесь в принципе такие же, как и в случае нарушения безопасности данных. Если причиной нарушения является давление со стороны другого государственного органа, то следует воспользоваться возможностью для укрепления независимости управления, с тем чтобы подобные нарушения в будущем стали еще более трудными.

5.3. Манипуляции с источником данных
5.3.1. Описание

Поставщики данных третьих сторон, например данные социальных сетей или добровольно предоставленные данные, подвергаются риску манипулирования. Это может быть сделано либо самим поставщиком данных, либо третьими лицами. Например, многие ложные сообщения в социальных сетях могут быть сгенерированы для того, чтобы подтолкнуть статистический индекс, полученный на основе этих данных, тем или иным образом, если известно, что индекс рассчитывается на основе таких данных.

Для добровольно предоставленных данных может быть случай, когда добровольцы представляют определенную группу интересов с определенной повесткой дня.

5.3.2. Вероятность

Для данных, манипулирование которыми может принести большую пользу, вероятность выше. Это могут быть данные, для которых статистика интересна, например, фондовый рынок. В свете недавних скандалов, связанных с LIBOR и Forex, можно предположить, что, пока существует стимул, попытки манипулирования данными будут вероятны.

Для статистики, основанной на добровольно предоставленных данных, нужно только взглянуть на недавнюю PR-практику найма людей, которые притворяются, что имеют определенное мнение и которым платят за публичное выражение (например, на интернет-форумах), чтобы сделать вывод, что вероятность не мала. В целом цифра от 3 до 4 кажется адекватной.

5.3.3. Влияние

Большая проблема с манипуляциями заключается в том, что они могут длиться долго без обнаружения. Если манипуляции продолжаются в течение длительного времени, влияние на качество может стать значительным. Кроме того, ущерб общественному доверию к официальной статистике также может быть большим, особенно если публично подчеркивается роль статистических управлений как поставщиков качественных данных. С другой стороны, если манипуляции обнаруживаются вовремя, а затем публикуются, это может фактически улучшить общественное восприятие. За исключением чрезвычайно плохих случаев, можно представить максимальное влияние (3).

5.3.4. Профилактика

Выполнение регулярных контрольных упражнений с альтернативными источниками является одним из возможных профилактических подходов. Эти альтернативные источники могут быть традиционными или иными. Использование статистики на основе комбинации источников может помешать значительным воздействиям манипуляций. В случаях, когда опасаются инициированных провайдером манипуляций, юридические соглашения также могут быть одним из способов предотвращения такой практики.

5.3.5. Смягчение

С точки зрения ущерба общественным отношениям смягчающие меры, которые должны быть приняты здесь, мало чем отличаются от мер по борьбе с любым кризисом.

С точки зрения качества данных было бы полезно, если бы прошлые данные могли быть исправлены так, чтобы даже с большой задержкой правильная серия могла быть
производится. Для этого может быть полезен регулярный бенчмаркинг. Обратите внимание, что цель сравнительного анализа в этом случае немного отличается от цели предотвращения. Для предотвращения важно быстро заметить и расследовать подозрительное несоответствие между данными эталонного теста и BDS. Для смягчения последствий старые полезные данные всегда полезны.

Кроме того, следует позаботиться о том, чтобы не допустить подобных манипуляций в будущем — в особо деликатных случаях это может означать получение потенциально избыточных данных от нескольких поставщиков для сравнительного анализа.

5.4. Неблагоприятное общественное восприятие использования больших данных официальной статистикой
5.4.1. Описание

Средства массовой информации и широкая общественность очень чувствительны к вопросам конфиденциальности и использования персональных данных из больших источников данных, особенно в контексте вторичного использования данных государственными органами, принимающими административные или правовые меры в отношении граждан. Отрицательно воспринимаемым использованием может быть позиционирование контроля скорости на основе анализа навигационных данных (11 See www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps).
Конкретный случай TomTom Netherlands вызвал значительное падение спроса на устройства TomTom и привел к решению компании ограничить доступ к данным. В этом конкретном случае данные относились к отдельным лицам, но к уровням скорости по участкам дороги.

Тем не менее, могут быть приложения с большими данными, которые положительно воспринимаются публикой. Одним из примеров могут служить приложения, предотвращающие такие преступления, как кража со взломом на основе методов больших данных.

Позитивное, а также негативное общественное мнение может оказать сильное влияние на использование BDS в контексте производства официальной статистики.

Следствием негативного общественного восприятия может быть то, что:

  • BDS больше не будет доступен для статистических управлений, либо из-за решений поставщика данных или правительственных решений не использовать данные, либо
  • использование данных будет ограничено, что может помешать производству, если определенные BOSP.

5.4.2. Вероятность

Факторы, которые могут повлиять на вероятность такого события или его влияние на производство статистики:

  • конфиденциальность данных, т. е. насколько легко людей можно идентифицировать;
  • объем информации, которую данные раскрывают о физических лицах, например, увеличивается путем связывания данных из разных источников;
  • тип данных, например, финансовые операции воспринимаются как более конфиденциальные, чем другие данные;
  • тип потенциального действия, которое может быть выполнено в отношении граждан, например, штрафовать людей за превышение скорости;
  • нечеткая правовая среда, в которой работают поставщики и пользователи данных или когда правовые условия вступают в противоречие с общественными этическими мнениями / стандартами;
  • степень зависимости от определенного источника данных для получения статистики; на этапе разведки этот фактор может иметь незначительное значение. Однако это может очень сильно повлиять на получение статистики на более позднем этапе и, следовательно, должно быть рассмотрено также на этапе разведки. Одна из проблем может заключаться в том, что окончательный объем использования данных вначале неизвестен, поскольку источники данных могут потенциально обслуживать более одной статистической области.

Оценка времени нежелательных явлений невозможна, поскольку мобилизация общественности часто инициируется освещением событий, оказывающих отрицательное влияние на граждан. Тем не менее, с ростом использования больших данных правительствами и частными предприятиями, и особенно с активным маркетингом данных для других целей, чем та, которая привела к их первоначальному сбору, более вероятно, что такие события произойдут.

События, которые сильно влияют на общественное восприятие, являются не частыми, а скорее случайными (3) и отдаленными (2). С увеличением использования больших источников данных вероятность также возрастет.

5.4.3. Влияние

Воздействие события очень сильно зависит от факторов, которые обсуждались выше. В целом влияние оказывается более серьезным для уже созданного производства статистических данных, поскольку, возможно, действие должно быть прекращено. Воздействие также зависит от доступности альтернативных источников данных, хотя может случиться так, что общественное восприятие не различает разные источники данных в случае материализации события. В текущем состоянии использования больших данных кажется, что эти источники не могут полностью заменить традиционные источники данных, а скорее дополняют существующую статистику. Это уменьшит влияние событий. Поэтому влияние события рассматривается в диапазоне от 2 (незначительное) до 3 (основное). На этапе производства влияние может увеличиться до 4 (критическое значение).

5.4.4. Профилактика

Профилактическими мерами может быть определение этических принципов для больших данных в официальной статистике. Этические руководящие принципы должны основываться на таких принципах, как кодекс практики для европейской статистики или основополагающие принципы официальной статистики (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx). Следующей мерой будет определение коммуникационной стратегии, которая будет публиковать результаты этических руководящих принципов для общественности и может использоваться для информирования заинтересованных сторон об этическом использовании BDS для BOSP.

Отдельная оценка риска для конкретной BDS может быть проведена для выявления рисков и предложения профилактических или смягчающих действий на основе этических принципов. Отдельная оценка рисков может также включать заинтересованные стороны, такие как агентства по защите данных, чтобы обеспечить идентификацию всех рисков и обоснованность действий.

5.4.5. Смягчение

Коммуникационная стратегия должна также включать меры в случае растущего негативного отношения общественности. Отдельная оценка риска должна собирать положительные примеры использования данных и меры по предотвращению злоупотребления данными, которые могут быть обязательно приняты на политическом уровне, и статистическое сообщество может оказаться не в состоянии эффективно влиять на них.

5.5. Утрата доверия — полученное не в результате наблюдения
5.5.1. Описание

Пользователи официальной статистики обычно имеют высокую уверенность в точности и достоверности статистических данных. Это основано на том факте, что производство статистических данных встроено в надежную и общедоступную методологическую базу, а также документацию о качестве статистического продукта. Кроме того, большинство статистических данных основаны на наблюдениях, т.е. получены из обследований или переписей, которые устанавливают легко понятную связь между наблюдением и статистическими данными. Использование BDS, которые не собираются для основной цели статистики, сопряжено с риском того, что эти отношения будут потеряны, и пользователи потеряют доверие к данным официальной статистики. Пример, относящийся к последнему раунду (2010 г.) переписи населения, связан с тем, что в некоторых странах статистические данные были получены с использованием нескольких источников и статистических моделей. В ряде случаев заинтересованные стороны оспаривали статистические данные.

5.5.2. Вероятность

Вероятность возникновения риска зависит от таких факторов, как сложность статистической / методологической модели, достоверность отношений между BSD и BOSP или соответствие другим статистическим данным. Вероятность должна быть в диапазоне от 3 (случайных) до 4 (вероятных), что означает, что это может произойти несколько раз или часто.

5.5.3. Влияние

Влияние возникновения риска будет в значительной степени зависеть от того, смогут ли NSOs успешно доказать точность и достоверность статистических данных. В случае, если это не может быть достигнуто, воздействие с точки зрения потери доверия и доверия может также затронуть другие статистические области, то есть достоверность не только некоторых статистических данных, но и поставить под сомнение саму организацию. NSOs потеряли бы конкурентное преимущество перед другими частными организациями, действующими в этой области.

5.5.4. Профилактика

Профилактические действия будут заключаться в разработке и публикации научно обоснованной методологии, которая признается научным сообществом, обогащать данные метаданными по качеству, обеспечивать согласованность BOSP с не BOSP, осуществлять строгий контроль качества.

Прежде чем приступить к статистическому производству, BOSP можно было бы опубликовать в качестве экспериментального, и заинтересованным сторонам было бы рекомендовано оспорить BOSP, чтобы подтвердить или улучшить BOSP.

5.5.5. Смягчение

Есть два случая, чтобы различать. В случае, если статистические данные оспариваются, но имеют высокое / достаточное качество (правильное / точное), было бы достаточно объяснить и донести статистические данные до общественности, предоставляя простые для понимания примеры.

6. Риски, связанные с навыками

6.1. Отсутствие специалистов
6.1.1. Описание

Анализ цифровых следов, оставленных людьми во время выполнения их деятельности, требует определенных инструментов анализа данных, которые в настоящее время не являются наиболее распространенными в официальной статистике. Во-первых, использование косвенных данных о деятельности людей вместо прямых опросов в опросах требует использования статистических моделей и, следовательно, навыков умозаключений и машинного обучения. Во-вторых, эти цифровые записи состоят из данных, которые часто не имеют обычного формата таблицы, обычного для результатов обследования, с строками, соответствующими статистической единице, и столбцами с конкретными характеристиками этих статистических единиц. Цифровые трассы также представлены в виде текста, звука, изображения и видео. Извлечение соответствующей статистической информации из этих типов данных требует навыков обработки естественного языка, обработки аудиосигнала и обработки изображений. В-третьих, эти источники данных имеют тенденцию предоставлять массивные наборы данных, обработка которых требует хорошего понимания методологий распределенных вычислений.

Риск нехватки экспертов заключается в получении данных из одного из этих новых больших источников данных, поскольку у статистического управления нет возможности обрабатывать и анализировать его должным образом из-за того, что у его персонала нет необходимых навыков.

6.1.2. Вероятность

Вероятность этого риска будет зависеть от трех факторов: 1) конкретных типов навыков, необходимых для каждого типа источника больших данных, и вероятности того, что статистическое управление найдет возможность изучить такой источник; 2) текущее наличие необходимых навыков в статистическом управлении; и 3) организационная культура статистического управления.

Что касается типов навыков, которые могут потребоваться, следует отметить, что не все источники требуют всех навыков, перечисленных выше. Некоторые (например, данные типа Google Trends) не требуют распределенных вычислений, так как они уже предварительно обработаны от держателя данных или имеют навыки обработки сигналов, и им в основном потребуются навыки статистического моделирования. Тем не менее, существует большое разнообразие источников больших данных, для большинства из которых требуются навыки распределенных вычислений, обработки сигналов и машинного обучения. В то же время правильное исследование этих цифровых трасс потребует обработки нескольких источников. Таким образом, существует высокая вероятность того, что большие источники данных, становящиеся доступными для статистического управления, потребуют этих необычных навыков, и вероятность этого риска очень высока (5).

Что касается текущего наличия необходимых навыков, это будет зависеть от конкретного статистического управления. Даже если методика опроса менее распространена, чем методология опроса, она также используется в официальной статистике в отдельных областях. Поэтому, даже если это может потребовать некоторого перераспределения людских ресурсов, статистические управления могут найти решение собственными силами. Что касается навыков распределенных вычислений, в основном связанных с ИТ, они будут зависеть от того, как ИТ-инфраструктура управляется в организации. В зависимости от того, насколько ИТ-отдел находится на стороне, решения могут быть найдены в контексте существующих договоренностей. Тем не менее, навыки обработки сигналов и машинного обучения, как правило, не существуют в большинстве официальных статистических управлений, и применение этих навыков не может быть передано на аутсорсинг, поскольку они должны применяться экспертами в области статистики. Следовательно, с этой точки зрения вероятность этого риска также кажется очень высокой (5).

Организационная культура также будет влиять на вероятность этого риска. Наличие персонала, готового приобрести необходимые навыки посредством самообучения, может дать организации возможность реагировать на ситуацию с новым источником данных, требующим навыков, отличных от обычных. Это будет зависеть от организационной культуры статистического управления, а именно от того, будет ли оно поощрять сотрудников к освоению новых навыков и позволяет ли это сотрудникам время для самостоятельного обучения.

Таким образом, вероятность того, что статистическое управление не сможет обрабатывать и анализировать новые источники данных из-за недостатка навыков у своих сотрудников, будет между вероятной (4) и частой (5) в зависимости от культуры самообучения организации.

6.1.3. Влияние

Статистическое управление, неспособное обрабатывать и анализировать большие источники данных из-за нехватки навыков у своих сотрудников, может иметь два возможных негативных последствия: 1) источник данных не будет изучен, по крайней мере, не в полной мере; 2) источник будет неправильно использован.

Отсутствие возможности полного изучения потенциала ценного источника больших данных окажет незначительное влияние (2) в краткосрочной перспективе, поскольку статистические управления действительно располагают статистическими инструментами для удовлетворения текущих потребностей. Однако в долгосрочной перспективе (и, возможно, даже в среднесрочной перспективе) последствия потери этой возможности будут иметь решающее значение (4), поскольку статистические управления все чаще сталкиваются с конкуренцией частных поставщиков, которые не имеют такой же институциональной структуры, которая позволит им гарантировать обществу независимость статистических данных.

Однако неправильное использование источника будет иметь крайне негативные последствия для статистических управлений, поскольку официальная статистика в значительной степени зависит от своей репутации при выполнении своей миссии. Тем не менее, мы можем утверждать, что наиболее важным навыком, который, если он пропущен, может привести к получению неправильных результатов, является статистический вывод, в частности вывод, основанный на модели, который также менее вероятно будет отсутствовать. Поэтому ожидаемое воздействие будет скорее критическим (4), чем экстремальным.

6.1.4. Профилактика

Статистические службы могут активно предотвращать этот риск двумя способами: 1) обучение; и 2) набор.

Статистические управления могут предоставить персоналу необходимые навыки, детально определив навыки, необходимые для использования больших источников данных в статистическом производстве, составив перечень существующих навыков персонала, определив потребности в обучении, а затем организовав учебные курсы.

Статистические управления также могут набирать новых сотрудников с необходимыми навыками. Это, как представляется, имеет серьезные ограничения, поскольку статистические управления не смогут набрать критическую массу персонала для ситуации, когда использование больших источников данных будет широко распространено в отделении, а новым сотрудникам все еще потребуется несколько лет, чтобы достичь уровня опыт существующих сотрудников. Однако, по крайней мере, некоторые из новых сотрудников, набираемых в рамках обычного обновления персонала, могут обладать навыками, связанными с большими данными.

6.1.5. Смягчение

Столкнувшись с ситуацией, когда новые источники больших данных доступны без сотрудников с необходимыми навыками, статистические управления могут смягчить негативные последствия двумя способами: 1) субподряд; и 2) сотрудничество.

Статистические управления могут заключать договоры на обработку данных и анализ новых источников больших данных с другими организациями, которые предоставляют эти виды услуг. Похоже, что это жизнеспособное решение, так как появляется новый сектор предприятий, специализирующихся на обработке данных такого типа. Однако это решение, которое само по себе сопряжено с определенными рисками, поскольку статистическое управление будет иметь меньший контроль над производством потенциально чувствительных статистических продуктов. Это решение также имеет недостаток, заключающийся в том, что оно не позволяет сотрудникам статистического управления учиться и приобретать необходимые навыки.

Сотрудничество с другими организациями, в которых есть сотрудники с необходимыми навыками и которые также заинтересованы в изучении источника больших данных, представляется более перспективным решением. Это сотрудничество может принимать форму совместных проектов с сотрудниками статистического управления и сотрудниками других организаций на равных, которые делятся своими знаниями. Это позволило бы не только снизить риск нехватки навыков, но и позволить сотрудникам статистического управления приобрести эти навыки.

6.2. Утечка экспертов в другие организации
6.2.1. Описание

Этот риск состоит в том, что статистические управления теряют свой персонал другим организациям после того, как они приобрели навыки, связанные с большими данными.

6.2.2. Вероятность

Вероятность этого риска будет зависеть от двух факторов: 1) существующих привлекательных возможностей в организациях вне официальной статистики; 2) условия работы в статистических управлениях.

Что касается возможностей в организациях вне официальной статистики, вероятность этого риска представляется вероятной (4). Существует высокий спрос на людей с навыками работы с большими данными в частном секторе, а также в других организациях государственного сектора. После приобретения навыков работы с большими данными официальные статистики получат сравнительное преимущество, будучи опытными специалистами в области статистики. Помимо специфических навыков работы с большими данными, другим организациям требуются специалисты по данным, обладающие более традиционными навыками, такими как оценка потребностей пользователей и разработка ключевых показателей эффективности (KPI), которые являются общими для официальных статистиков. Кроме того, ожидается, что сотрудники, которые будут более склонны приобретать новые навыки, также будут теми, кто также будет более открыт для перемен в карьере и покинет статистическое управление.

Что касается условий работы в статистических управлениях, то это, очевидно, будет зависеть главным образом от конкретного офиса. Тем не менее, статистические управления в целом по-прежнему предлагают привлекательные профессиональные возможности для людей с количественной точки зрения. Статистические управления предлагают самый большой диапазон возможных доменов для работы и самый большой выбор данных для работы. Это каким-то образом уменьшит вероятность того, что статистические управления потеряют свой персонал из-за непредвиденных обстоятельств (3).

6.2.3. Влияние

Воздействие этого риска будет таким же, как и риск отсутствия персонала с соответствующими навыками в первую очередь. Следовательно, воздействие будет критическим (4), как указано выше.

6.2.4. Профилактика

По-видимому, единственной возможностью для статистических управлений предотвратить этот риск является обеспечение привлекательных условий труда для своих сотрудников. Это в целом верно для всего персонала. Однако в конкретном случае, когда сотрудники открыты для освоения новых навыков, а именно навыков работы с большими данными, условия труда можно улучшить, предоставив им возможности для обучения, где они могут развивать свои профессиональные интересы. Статистические управления могут также уделять особое внимание тому, чтобы быть открытыми для новых инновационных проектов и идей, связанных с новыми источниками больших данных, поступающими от статистиков, работающих в нескольких областях статистики. Наконец, предотвращение потери персонала для других организаций в последовательности их навыков работы с большими данными будет зависеть от хорошей идентификации персонала, способного и желающего работать с такими данными, и от предоставления хороших возможностей для их профессионального развития.

6.2.5. Смягчение

Снижение этого риска будет сделано в отношении риска отсутствия у персонала с соответствующими навыками: 1) субподряд; и 2) сотрудничество.

7. Обсуждение

Из этого первого обзора очевидно, что невозможно установить единую вероятность или влияние для данного «риска больших данных» — как правило, оба показателя в значительной степени зависят от источника больших данных, а также от «официальной статистики на основе больших данных».
продукт «.

Таким образом, мы приходим к выводу, что логичным следующим шагом в этом направлении является принятие ряда возможных пилотных проектов (каждый из которых включает в себя комбинацию одного или нескольких BDSs и одного или нескольких BDOSs) в качестве отправной точки и – для каждого такого пилота – стремление оценить вероятность и воздействие каждого риска.

С этой целью мы находимся на пороге запуска опроса заинтересованных сторон, пытаясь оценить оценку OSC вероятности, воздействия (и возможных действий по предотвращению / смягчению последствий) в отношении ряда возможных пилотных проектов – и запросить предложения OSC относительно рисков, которые мы не включили в этот документ.

8. REFERENCES

UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214

ссылка на оригинал статьи https://habr.com/ru/post/494044/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *