6. Визуализация данных Flashcards

1
Q

Line chart

A

Стандартный способ показать изменения данных во времени.

  • Можно делать с двумя осями, но лучше с одной.
  • Можно поставить маркер на точке, на которой нужно сделать акцент или подписать конец/начало линии.
  • Нельзя подписывать все значения точек на графике.

Также не рекомендуется использовать данный тип графика, когда по оси x расположено не время.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Bar chart

A

Хорошо подходит для того, чтобы сравнить долю разных категорий или их ранг (топ-N значений).

  • Лучше использовать горизонтальные столбики.
  • Вертикальные рекомендуется использовать только в том случае, когда по оси X — время.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Pie chart

A

Pie = Пирог
Хорошо подходит только для одной задачи: показать соотношение небольшого количества категорий, образующих одно целое.
Почему этот тип графика критикуется? Определить точные значения по пайчарту довольно проблематично: считывание угла — довольно сложная операция, и на глаз такой график воспринимается плохо.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Area chart

A

График подойдет для ситуаций, в которых важно показать суммарный тренд и примерное распределение составляющих его компонент.

  • Внизу располагается наибольшая или наиболее важная компонента.
  • При комбинации с line chart можно показывать плановые и фактические значения.

Частая ошибка – предположение, что по данному графику “легко отследить динамику каждого компонента”. Это не так: график хорошо работает для отслеживания общей динамики и понимания примерной разбивки.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Scatter plot

A

График для отражения корреляции между двумя величинами. Размерами точки можно показать, например, удельный вес для этой точки.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

KPI и Фактоиды

A

KPI и Фактоиды – крупные цифры, которые обозначают текущее значение метрики и тренд за какой-либо период.

  • Самое важное значение лучше делать самым крупным.
  • Показывать название метрики, которая отображается.
  • Можно показывать дополнительную информацию (например, прирост в процентах).

Полезны для отображения текущих значений и трендов, особенно в операционных дашбордах.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Таблица

A

Хорошо позволяет считать точное значение или сравнить несколько разрезов по нескольким метрикам.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Параметры (dimensions)

A

Параметры (dimensions) – срезы, которые делят наши данные по каким-то смысловым категориям. Например, по региону или продукту. Чаще всего – какие-то дискретные значения, не агрегированы

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Меры (measures)

A

Меры – метрики; то по каким параметрам мы хотим узнать что-то про измерения, т.е. то поле, которое мы агрегируем (например, число пользователей).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Дискретные значения

A

Создает разбивку(группировку)/таблицу, всегда не агрегированы
Примеры:
* Dimensions: Пол (м/ж), Регион, Тип пользователя, возрастная группа (18-22, 23-30 и тд)

  • Measures: таких нет
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Непрерывные значения

A

Создает ось
Примеры:
* Dimensions: оценка в школе (1, 2, 3.6), дата (янв. 2017, фев. 2017, янв. 2018)

  • Measures: прибыль (1000, 2000, 2300), возраст, кол-во голосов и тп. Данные, которые можно агрегировать
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Шаги алгоритма по созданию дашборда

A

1) Создание команды
Создать список участников и распределить задачи и роли в создании дашборда. Важнее всего акцентировать на ролях, так как команда может быстро меняться. Определить способ коммуникации внутри команды.

2) Организация интервью с заказчиком и понимание задачи
Исполнитель приступает к созданию дашборда лишь в том случае, если он полностью понимает задачу, а заказчик согласен с его пониманием. Необходимо понять модель бизнеса и определить его цель. А также понять, как сейчас существует бизнес и какие решения или прототипы решения уже есть.

3) Создание портрета пользователя
Создание такого портрета зависит от количества целевых пользователей. Если их мало (до 15 человек), то можно охватить всех человек. Если же пользователей больше, то нужно охватить все возможные группы пользователей, так как разным представителям будут интересен разный функционал. Топ-менеджер захочет оценить глобальную картину, в то время как менеджеру в конкретном подразделении будет интересна специфические показатели его отдела.

4) Контекст и формат взаимодействия
Какие требования от дашборда — в каких условиях человек взаимодействует с дашбордом. Необходимо описать эти условия — работа на ноутбуке или мобильная версия.

5) Вопросы от заказчика, ответы на них и возможные варианты бизнес-решений
Необходимо определить конкретные вопросы, на которые будет отвечать дашборд. Чем лучше написаны эти вопросы, тем лучше будет этот дашборд выполнять свою функцию. Эти вопросы выясняются при тесном взаимодействии с заказчиком. Вы должны четко понять, какие бизнес-задачи будет решать дашбод.

6) Определение источников и блоков для поступающих данных
Необходимо описать типы и структуры данных, понять источники их получения. Вам нужно задать вопрос, откуда физически возьмутся ваши данные — это поможет детальнее понять процессы и, возможно, выявить новые переменные, на которые стоит обратить внимание

7) Определение основных блоков отчета и типов графиков
Сформулируйте вопросы, на которые должен отвечать дашборд. В качестве ответа на каждый можно предложить график.

8) Создание прототипа и защита прототипа
Прототип (мокап) создается еще до первого создания дашборда — можно накидать макет и утвердить концепцию. Затем приступайте к созданию дашборда.

9) Запуск и тестирование
Самый простой способ понять сделали ли вы то, что надо — показать заказчику дашборд и понаблюдать за его работой. Также можно провести развернутый опрос, чтобы выявить проблемные места. Самый крутой вариант — сделать набор вопросов, на которые можно ответить с помощью вашего дашборда.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Как проводить интервью для оценки качества дашборда?

A

К нему стоит подготовится, а именно сделать следующее:

1) Составьте план интервью, тех тем и вопросов, которые вы хотите обсудить. Иногда это лучше делать с тем, кто запишет ваш разговор.
2) Используйте только понятные термины.
3) Старайтесь больше слушать в ходе интервью и меньше командовать. Ни в коем случае не давите знаниями!
4) Перефразируйте ваш вопрос, чтобы найти ту формулировку, которая поможет получить нужную информацию.
5) Не задавайте слишком много вопросов.
6) Применяйте тактику Коломбо — старайтесь вести себя просто, не сыпьте техническими терминами и дайте своему собеседнику почувствовать себя уверенно. Тут есть лайфхак, задайте вопрос: “А что я забыл спросить?”.
7) Напишите письмо-резюме, в котором будет тезисно изложена информация, полученная на интервью. Тогда вы будете уверены, что правильно поняли коллег.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Чек-лист перед запуском дашборда в продакшн

A

1) Отчёт сделан на сертифицированном источнике данных
2) Настроены уведомления в случае падения сборки данных
3) Отчёт грузится менее чем за X секунд
4) Отчёт оформлен по стайлгайду
5) Есть описание отчёта, отчёт назван в соответствии с требованиями
6) Есть документация на отчёт, ссылки на документы есть в отчёте
7) Проведено обучение основных пользователей отчёта
8) Сделана рассылка о появлении нового отчёта
9) Отчет добавлен в реестр отчётов

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Способы подключения к данным в Tableau

A

Процесс подключение к данным в Tableau выглядит так же, как и в любой другой системе работы с данными. При запуске Tableau, в левом столбце вам будут указаны доступные типы подключений. Для подключения к данным можно использовать четыре способа:

1) Подключение к источнику данных на Tableau Server

Вы используете заранее созданные подключения к базе данных и опубликованные на сервере (Tableau server). Кликнув, вы переходите во внутренний интерфейс, где указаны доступные источники данных на сервере. Подключение к ним доступно по клику, доступы и авторизация вшиты внутрь, и вы можете выбрав таблицу, подключиться к ней.

2) Подключение к файлу

Пользователю доступны форматы и расширения (excel, csv, json, pdf и другие), которые поддерживает Tableau и встроенный инструмент парсинга. Такой тип подключения удобен, если вам необходимо совместить данные из внешней базы данных и локальной таблицей на вашем рабочем месте (ноутбуке).

3) Подключение к серверу

Это возможность подключения к различным базам данных. В начале этого списка будут показаны часто используемые вами виды подключений. По клику на строку More, вы можете посмотреть весь список предлагаемых вариантов. В последней версии Tableau есть так называемые Installed Connector - драйвера, которые умеют соединять Tableau с какой-нибудь базой данных и Additional Connectors (дополнительные) - драйвера, представленные в галерее, не установленные на ваш компьютер и которые Tableau изначально не прописало коннектор.

Кроме баз данных, Tableau предоставляет возможность подключения к облачным хранилищам.

Выбирая необходимый коннектор, вы заполняете параметры доступа и подключаетесь. После этого у вас появляется база данных и таблицы, доступные пользователю. Необходимую таблицу можно перетащить из левого столбца в правый либо можно создать custom SQL или Union.

После подключения к БД, у вас отображается интерфейс, знакомый вам по Tableau Public:

  • область сборки данных (сверху);
  • данные и значения, отображаемые в таблице (нижняя часть

4) Сохраненные источники

Если вы сделали какой-либо источник и используете его регулярно, он сохраняется у вас для быстрого доступа. Довольно удобно и экономно по времени.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Custom SQL

A

Custom SQL - это возможность при подключении к БД использовать необходимую таблицу, а поверх этой таблицы использовать SQL код;
Custom SQL настраивается на вкладке Data source, в левой колонке рядом с источником данных у вас будет строка New Custom SQL, которую вы перетаскиваете слева в верхнюю часть вкладки, в область создания данных.

У вас появляется редактор, куда вы можете вставить SQL код. Tableau дает возможность перенести часть трансформации на сторону BI-инструмента.

Минусы редактора:

  • здесь нет подсветки кода, и это неудобно;
  • эту трансформацию никто кроме вас не видит, это потенциальные риски.

Но основной плюс - можно быстро сделать какой-нибудь источник (ad-hoc).

Минусы Custom SQL - Tableau его не оптимизирует при передаче в БД. Поэтому если вы делаете простую операцию или выбираете набор полей - делайте это в визуальном редакторе Tableau, код будет оптимизирован под решение вашей задачи.

17
Q

Типы подключений к БД

A

В Tableau есть два способа подключения к БД:

1) Live режим;
При выборе Live режима, при каждом действии с листом будет происходить отправка запроса к базе данных.

2) Extract (слепок данных).
При выборе Extract, вам необходимо будет указать Tableau куда вы хотите его (слепок данных) сохранить. При работе с большим объемом данных, например в течении дня, по умолчанию вам будет предложено сохранить это в папку Datasources в формате .hyper, который обеспечивает высокое качество сжатия.

В левой колонке, рядом с названием источника данных визуально показан режим подключения: Live или Extract (один или два бочонка).

У каждого из типов подключения есть свои сильные и слабые стороны, использование которых зависит от ваших целей, навыков и использования архитектуры.

18
Q

Типы объединения: Join, Union и Relation в Tableau

A

Join
По традиции, мы используем набор данных Sample superstore. В этом датасете есть таблица заказов (Orders), она является основной. На вкладке Data source, мы переносим ее из левой колонки в верхнюю часть вкладки, в область создания данных.

Для создания Join, необходимо зайти в таблицу заказов, в верхней части вкладки, двойным кликом. Затем мы объединяем заказы, перетаскивая таблицу people в верхнюю часть вкладки.

Если поля называются одинаково - Tableau автоматом создаст Join по этим полям. Если этого не произошло, пользователь может сам выбрать поля, по которым необходимо создать объединение.

Пользователь может выбрать тип Join’ов, можно донастроить на совпадение или не на совпадение. На этапе создания Join’ов вы можете задать предобработку данных.

Когда мы делаем Join, при выборе Extract’а у нас есть возможность настроить физического или логического Join’а. Как это работает:

  • если мы делаем логические таблицы, Tableau сделает Join, и после этого сделаем Extract (данные сперва соединяются, а затем делается их слепок);
  • физические таблицы работает по другому принципу - мы делаем слепок с обеих таблиц и после этого делаем Join, операция соединения происходит после и каждый раз при работе с этими таблицами.

Union
Эта операция поможет вам, если стоит задача соединить несколько таблиц.

Первый способ - на вкладке Data source, мы переносим первую таблицу из левой колонки в верхнюю часть вкладки, в область создания данных, два раза кликаем и кидаем вторую таблицу под первую. Так создается union таблиц

Второй способ - на вкладке Data source, в левой колонке строку New Union переместить в верхнюю часть, в область создания данных и он откроет вам окошко, куда можно накидать необходимые вам таблицы.

В новом окошке самая классная функция - создать автоматический Union по заранее заданному правилу. Например по названию листа, книги или по названию таблицы в БД.

Relations
Relations (связи) - новый способ, который позволяет легко анализировать данные из нескольких таблиц на разных уровнях детализации.

Relations (связи) объединяют таблицы и агрегируют данные во время анализа, запрашивая данные на необходимом уровне детализации на основе полей и фильтров. Они позволяют уверенно комбинировать таблицы, разрешая многие сценарии дублирования данных и гарантируя, что вы получите точные результаты, не полагаясь на вычисления LOD.

Relations (связи) легко создавать. При подключении к данным в Tableau необходимо на вкладке Data source, перенести из левой колонки в верхнюю часть вкладки, в область создания данных таблицы и объединить их по необходимым вам параметрам (колонкам).

В примере с набором данных Sample superstore, для связки заказов и плана, мы создадим расчетные поля, для связки их по датам.

В таблице заказов даты указаны по дням, а в таблице планов - по месяцам. Чтобы между ними установить связь, нам понадобиться для таблицы заказов функция: DATE(DATETRUNC (“month”, [Order Date]))

19
Q

Blending и особенности соединения данных

A

В Blending логика очень похожа на Relations, но отличается сам подход и возможность настройки. Это подмешивание данных из разных источников в одни и те же дашборды.

Предположим, у нас есть данные по продажам в разрезе регионов и в ассортименте. И есть данные по посещаемости нашего сайта, в каждой категории продукта. Эти данные между собой не связаны, но мы хотели бы их отображать и фильтровать одновременно.

Для правильного применения Blending’а важно, какой источник будет главным - это задается в начале вашей работы, когда вы забираете первое поле из имеющихся у вас источников данных. Второстепенный источник данных визуально помечается, чтобы пользователь видел иерархию при построении дашбордов.

Если стоит задача сравнить два равнозначных показателя из разных источников, у вас есть два способа. Первый - переименовать эти показатели, чтобы Tableau автоматически выстроил между ними связи (например сделать это сразу в Tableau). Второй способ - настроить эти значения через функционал Data > Edit Blend Relationships …

В открывшемся окне можно выбрать, по каким полям ваши данные должны быть связаны. После настройки новой связи, в левой колонке Tables рядом со связанным полем появится иконка звеньев цепи (цепочка). Теперь это связанное поле вы можете использовать в своей работе.

В чем разница между Blending и Relations? Есть два кейса.

Первый: Blending настраивается для каждого листа (в Tableau) отдельно, Relations настраивается на уровне источника данных. Это дает гибкость в построении дашбордов.

Второй кейс - у вас есть два независимых источника данных, по ним есть графики и вам не нужно делать никаких операций между ними. Но при построении общего дашборда, пользователи хотят использовать один фильтр для двух разных графиков. Это дает удобство пользователям, Relations работал бы медленно и долго, создавая неудобство для пользователей, а Blending работает нормально.

20
Q

Tableau log viewer

A

Для удобства рекомендую использовать утилиту Tableau log viewer.

Это дистрибутив, который позволяет парсить логи Tableau Desktop.

Логи хранятся в папке My Tableau Repository > Logs. Здесь можно видеть все действия, которые производит программа во время работы.

При открытии Tableau log viewer, вы подключаетесь к файлу, который был последним в работе. Дальше можно включить Live mode - это означает, что действия теперь будут логироваться.

21
Q

Tableau Prep и Data Management Add-on

A

Tableau Prep

Это визуальный ETL инструмент для подготовки, очистки, слияния и загрузки данных в BI систему. Это отдельный инструмент на декстопе и на сервере.

Вот так он выглядит и может быть знаком вам, если вы работали, например с Alteryx.

Это “молодой” инструмент, относительно ненадежный, активно развивается в экосистеме Tableau и подходит для небольших и среднего размера команд. Он умеет исполнять flow обработки данных и сразу их публиковать на сервер. что дает возможность обновлять Extract’ы.

Tableau Catalog

Он позволяет управлять данными на стороне сервера, т.е. делать Data Governance - выполнять стратегию для эффективного управления вашими (корпоративными) данными.

На Tableau Server появляется возможность посмотреть к какому источнику подключен ваш отчет и какие дальше идут соединения. Если вы работаете в связке Tableau Server, Tableau Prep и Tableau Catalog - это крутая альтернатива, которая дает вам комплексное решение.

Data Management Add-on

Это набор функций и возможностей, которые помогают клиентам управлять содержимым Tableau и данными в их среде Tableau Server.

К этому относится возможность публиковать источники данных - встроенные в книгу или опубликованный на сервере.

22
Q

Row/Column Security

A

Бывают такие задачи, что часть данных нужно показывать части пользователей. Это может быть региональное или продуктовое деление - это еще называется Row level security.

Ситуация, когда части пользователей надо показать один набор измерений, а другому - только часть этих измерений - это Column level security.

Для создания Row level security в Tableau есть как встроенные инструменты, так можно создавать отдельные таблицы управления доступами.

Во вкладке Server вы можете создать фильтры по пользователям, например одной части пользователей доступны определенные регионы.

По клику вам доступно окно, со списком пользователей и регионов, в котором вы задаете необходимые параметры доступа.

Созданный пользовательский фильтр можно переименовать.

И затем использовать в построении дашборда.

Чтобы организовать Row level security, мы добавляем фильтры, которые будут действовать на весь дашборд, до его запуска. Мы выставляем эти условия по следующему условию - региональный менеджер должен совпадать с username пользователя.

Для такого решения нам обязательно нужно делать физический Join, потому что логическом Join наша таблица будет “взрываться” на количество менеджеров.

23
Q

Подключение к Clickhouse

A

Подключение к Clickhouse “из коробки” в Tableau пока отсутствует.

Из действующих решений на рынке рекомендую два решения:

1) ODBC Driver for ClickHouse
2) ClickHouse JDBC driver