Всем привет!
Я — Дарья Касьяненко, эксперт Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ. Недавно моя коллега, Дарья Огнева, аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных», провела вебинар для тех, кто только начинает погружаться в бизнес-аналитику и хочет разобраться в визуализации данных.
Дарья Огнева
Аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных»
Two hundred twenty participants (88%) ranked sight as their most valuable sense. ©
Как было бы классно, если бы за доли секунды, мельком скользнув по графику, вы уже видели ответ на вопрос. А не сидели с линейкой и уровнем в попытке попасть в нужную ячейку на пересечении столбца и строки или сравнить высоту соседних колонок.
Особенно, если это презентация — экран далеко, а вместо линейки стакан кофе. Идеальный недостижимый мир с розовыми единорогами или все в наших руках?
График — многопараметрический объект, рассматривать и оптимизировать который можно часами. Для простоты эксперимента давайте остановимся хотя бы на одном параметре — визуальная кодировка. Еще проще — ограничимся пятью самыми популярными: барчарт, линейный, скаттерплот, пайчарт и таблица.
Уровень: без предварительной подготовки.
Эксперименты не грабли — по ним продуктивнее пройтись самим.
Вдохновившись статьей «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp» и взяв несколько неслучайных датасетов со случайным распределением по типам (визуальной кодировки) графиков, за вебинар мы попробовали решить 3 задачи: упрощенное ранжирование (выберите 6-ой по убыванию метрики ХХХ), наличие аномалий и корреляций.
Выборка: активные слушатели вебинара: https://cs.hse.ru/dpo/announcements/973735262.html
Инструмент: https://etc.ch/ *
*для множественного выбора очень странно считаются проценты (сумма нормируется в 100%) -> постфактум отдельный расчет по абсолютам, которые инструмент позволяет выгрузить.
Упрощенное ранжирование: шестой по убыванию затрат номер
Тестовые картинки:
Упрощенное ранжирование / Результаты:
тип графика |
точность (доля верных ответов) |
популярность |
таблица |
64% |
top1 |
скаттерплот |
50% |
top1 |
барчарт |
31% |
top1 |
линейный |
29.2% |
top1 |
пайчарт |
18.5% |
top4, минимальный из ненулевых |
Выводы: таблица — лидер. Для близких по величине значений окружающий контекст (барчат vs скаттерплот) существенно влияет на точность ответа. В таблице влияние контекста снижено. Пайчарт — впечатляюще низкий результат.
Что еще интересно посмотреть:
-
Провести эксперименты с разным распределением значений в датасете.
-
Посмотреть динамику точности в зависимости от величины выборки.
Из-за низкой точности и для меньшей травматизации опрашиваемых пайчарт исключен из гонки.
Наличие аномалий
тип графика |
точность (доля верных ответов) |
корректный ответ |
скаттерплот |
95,5% |
да |
линейный |
86,4% |
нет |
барчарт |
50,0% |
нет |
таблица |
22,7% |
да |
Выводы: таблица — не лидер. Аномалии или их отсутствие хорошо показаны на линейном и скаттерплоте. Не все опрашиваемые всецело понимают суть аномалий.
Что еще интересно посмотреть:
-
Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.
-
Рассмотреть свободно владеющих понятием аномалия и приближенно понимающих термин.
-
Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.
Наличие корреляций
тип графика |
точность (доля верных ответов) |
корректный ответ |
скаттерплот |
92% |
да |
линейный |
52% |
да |
таблица |
16% |
да |
таблица |
12% |
да |
Выводы: Специфичность данных барчата существенно исказило результаты. Примеры понятия корреляций было дано на скаттерплотах — на них опрашиваемые достаточно точно ответили на вопрос, для всех остальных типов не хватило примера наличия/отсутствия корреляции. Хочется повторить эксперимент, поменяв методологию.
Что еще интересно посмотреть: как и для аномалий
-
Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.
-
Рассмотреть свободно владеющих понятием корреляция и приближенно понимающих термин.
-
Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.
По итогам экспериментов — хочется еще больше экспериментов. Для проверки уже полученных результатах на больших выборках, для нивелирования точечных артефактов. Более того, мы исследовали только точность ответа. Было бы классно, обращаясь к оригиналу, рассмотреть и время выполнения задания, и субъективное предпочтение пользователя (как ему удобнее/привычнее работать). Более того, было бы классно рассмотреть разные типы задач, дополнив текущие три.
Результаты статьи «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp / статзначимое превосходство одних типов графиков над другими по метрикам точность-скорость-удобство в разбивке по типу задач
Тем не менее, даже с учетом специфичности данных и ЦА наше небольшое исследование подтвердило выводы статьи и здравый смысл:
Таблица хороша в задачах:
-
Получение точных значений
-
Вычисление точных значений
-
min, max
-
Фильтрация
Барчарт хорош в задачах:
-
Покомпонентное сравнение
-
min, max
-
Выявление аномалий
-
Распределение
Линейный график хорош в задачах
-
Динамика
-
Корреляция
Скаттерплот хорош в задачах
-
Выявление аномалий
-
Распределение
-
min, max
-
Разброс
Пайчарт хорош в задачах:
-
Часть целого
-
«Пицца — круговая диаграмма, показывающая сколько у тебя осталось пиццы»
Однако типов графиков существенно больше 5 (например, https://datavizproject.com/), и выбор того самого — нетривиальная задача и для новичка, и для опытного пользователя, постоянно скатывающегося в барчарты.
Благо, есть блок-схемы, помогающие заблудшим аналитикам выйти на нужный график: чарт-чузеры. Какая ты палка — только лучше на уровне.
Чарт-чузеры
-
По задачам: https://public.tableau.com/app/profile/andy.kriebel/viz/VisualVocabulary/VisualVocabulary
-
Интерактивный: https://public.tableau.com/profile/glowbyte.consulting#!/vizhome/ChartChooser_15550897459460/ChartChooser
-
Деревцем по задачам и типу переменных**: https://www.data-to-viz.com
** Обратите внимание, что в последнем проекте есть и статьи с самыми популярными дилеммами, и плюсы-нюансы использования каждого типа графиков. Более того, inspiration. И практика английского языка.
Заключение
В статье мы посмотрели на 5 популярных типов визуальной кодировки из десятков, которые представляют один из атрибутов графиков, которые часть волшебной мира визуализации данных, дрейфующего в безумной вселенной BI-аналитики
ссылка на оригинал статьи https://habr.com/ru/articles/856206/
Добавить комментарий