Собсес Flashcards

Question

Приходилось ли вам строить витрины в ClickHouse?

Answer 1

Нет, только плоские аналитические таблицы; полноценные витрины (Data Vault, звёзды) развернули на Greenplum.

Answer 2

Да, в ЮMoney анализировали логи, события, рекламные клики, пока не настроили полноценный DWH.

Answer 3

Да, например, с Greenplum. ClickHouse быстрее на простых агрегирующих запросах, Greenplum удобнее для сложных JOIN и Data Vault-моделей.

Answer 4

Оба могут работать колоночно (ClickHouse изначально, Greenplum через AO/CO-таблицы). Колоночное хранение отлично для аналитических нагрузок и больших объёмов.

Answer 5

Да, приходилось адаптировать PostgreSQL-запросы: заменять оконные функции и CTE на более простые подходы, либо использовать функции ClickHouse (uniqExact, arrayJoin), также учитывал другие типы дат.

Answer 6

Да, в ЮMoney Greenplum стал центральной MPP-СУБД для корпоративного DWH по Data Vault 2.0, где я занимался загрузками и оптимизацией запросов.

Answer 7

Да, переносили данные из ClickHouse и PostgreSQL, настроили Data Vault, распределяя хабы и сателлиты по сегментам. Я участвовал в планировании, написании Airflow DAG-ов и SQL-скриптов.

Answer 8

Детального POC со Snowflake не делал, но S3 мы использовали как промежуточное или архивное хранилище, тогда как Greenplum выступал полноценной аналитической MPP-платформой.

Answer 9

Со Snowflake нет, но из ClickHouse и PostgreSQL да: заменял специфичные функции, учитывал особенности MPP, следил за дистрибуцией таблиц.

Answer 10

Да, например, в ClickHouse есть uniqExact, в Greenplum я заменял это на COUNT(DISTINCT), а оконные функции из PostgreSQL мог работать иначе с точки зрения распределения.

Answer 11

Нужно чётко понимать MPP-архитектуру, грамотно задавать дистрибуционные ключи, чтобы избежать больших motion, и уметь читать планы EXPLAIN для оптимизации.

Answer 12

Проектирование таблиц Raw/Business Vault, написание ETL/ELT-пайплайнов (Airflow), оптимизация тяжёлых запросов, настройка партиционирования и дистрибуции.

Answer 13

У нас был собственный кластер, но похожие проблемы — сетевые задержки, ограничение памяти сегментов, при больших загрузках приходилось дробить данные по дням.

Answer 14

Да, при миграции крупной таблицы из ClickHouse разбивали выгрузку по датам, загружали порциями, освобождали старые партиции в случае неактуальных данных.

Answer 15

Из ClickHouse, PostgreSQL (Debezium или batch-дампы), внешних рекламных API (через Python + Airflow), также частично из S3 (CSV/Parquet).

Answer 16

Да, писал Airflow DAG, который скачивал файлы (TSV/CSV), проверял структуру, применял COPY/INSERT в нужные таблицы, иногда используя gpfdist.

Answer 17

Да, в Business Vault формировали итоговые сателлиты, а затем Data Marts, куда BI-команда подключалась. Я помогал писать SQL-транформации и настроил партиционирование для фактов.

Answer 18

Да, весь корпоративный DWH в ЮMoney строился на Data Vault 2.0 в Greenplum, я создавал хабы, линки и сателлиты, писал логику версионности.

Answer 19

Нет, мы остались на классических SQL-скриптах и Airflow, DBT не внедряли.

Answer 20

Нет, в моих проектах не применялся, работали со стандартным Greenplum-дистрибутивом.

Answer 21

С EXPLAIN/EXPLAIN ANALYZE, проверяю наличие Redistribute/Broadcast Motion, смотрю план, анализирую, не нужно ли поменять дистрибуцию.

Answer 22

Смотрю EXPLAIN, избавляюсь от лишних DISTINCT, делаю правильную дистрибуцию, если нужно — разбиваю запрос на подшаги (CTE/временные таблицы).

Answer 23

Партиционирование больших таблиц, выбор ключей дистрибуции, замена DISTINCT на GROUP BY, локальные джойны (совпадающие дистрибуции), рефакторинг слишком сложных подзапросов.

Answer 24

Это MPP, каждая операция может тянуть данные между сегментами, нужно грамотно проектировать схему, чтобы минимизировать shuffle.

Answer 25

Выполню EXPLAIN ANALYZE, определю узкое место (motion, join), перепишу запрос, поменяю дистрибуцию таблиц, возможно добавлю партиционирование или разобью логику на шаги.

Answer 26

Да, это ключевой инструмент: смотрю, какие операции самые затратные, нет ли broadcast на большую таблицу, какая оценка времён.

Answer 27

Настраиваю одинаковые дистрибуционные ключи, иногда реплицирую маленькие справочники, заменяю DISTINCT на GROUP BY, чтобы не гонять все данные по сегментам.

Answer 28

Предпочитаю GROUP BY, так как оптимизатор MPP лучше распараллеливает группировку, а DISTINCT часто сводит все данные в один узел.

Answer 29

DISTINCT может работать как global unique, что вызывает полный shuffle, а GROUP BY можно обработать сегментарно.

Answer 30

Да, например, партиционировал таблицы фактов по датам, чтобы ограничивать сканирование только нужными партициями при запросах за конкретные периоды.

Answer 31

Hash Distribution по полю, Random Distribution, Репликация (для маленьких таблиц), Master-only для крохотных служебных данных.

Answer 32

Чтобы равномерно загружать сегменты и избегать «узких горлышек» при JOIN, а также уменьшать объём пересылок (motion).

Answer 33

Hash distribution по JOIN-ключу, random distribution, реплицированная таблица (small reference) — в зависимости от размерности и сценариев JOIN.

Answer 34

Оба позволяют колоночное хранение (ClickHouse изначально, Greenplum через AO/CO). Это даёт преимущества при аналитических запросах, где считывают множество строк, но не все столбцы.

Answer 35

Да, gpfdist для загрузки, функции по работе с внешними таблицами. Также пользовался EXPLAIN (ANALYZE, DIST) для подробной информации о распределении.

Answer 36

Да, в ББР Банке и ЮMoney много микросервисов хранились в PostgreSQL, откуда мы потом тянули данные в DWH.

Answer 37

В Airflow через PostgresHook, Python-скрипты (psycopg2), Debezium (Kafka Connect) для CDC, вручную через psql, когда нужно.

Answer 38

Да, в ЮMoney, где мы подключались к WAL, Debezium формировал JSON-события (before/after), отправлял в Kafka, а дальше в Greenplum для near real-time.

Answer 39

Numeric/Decimal для денег, text/varchar для строк, timestamp, иногда JSONB для гибких полей у микросервисов (настройки пользователей).

Answer 40

Да, для рекламных сервисов в ЮMoney, создавал схему ads_reporting, таблицы ad_campaigns, ad_platforms, которые наполнялись через ETL-скрипты.

Answer 41

Да, делал и простые SELECT, и сложные оконные функции, писал JOIN по нескольким таблицам. При необходимости оптимизировал, смотрел план выполнения.

Answer 42

Да, убирал лишние подзапросы, добавлял индексы по полям, которые часто используем в WHERE. Иногда менял структуру хранения, если запросы тормозили.

Answer 43

Да, в основном B-Tree индексы на столбцы, по которым шли частые фильтры/сортировки, реже делал кластеризацию под конкретные запросы.

Answer 44

Когда у нас часто повторяющиеся выборки по определённому столбцу, либо частые JOIN по ключу, и объёмы уже достаточно велики, чтобы full scan стал тормозом.

Answer 45

В промышленном формате редко, чаще мы делали это в Greenplum, но знаю, что PostgreSQL поддерживает декларативное партиционирование по дате или другим полям.

Answer 46

Серьёзные временные ряды мы уносили в ClickHouse или Greenplum. PostgreSQL мог хранить небольшие исторические записи, но не как полноценное time-series решение.

Answer 47

Да, в ЮMoney выгружали микросервисные таблицы (включая billing, transactions) в Greenplum через Debezium для near real-time, либо batch (Airflow SELECT + COPY).

Answer 48

Нет, обычно витрины держали в DWH на Oracle (в ББР) или Greenplum (в ЮMoney), PostgreSQL — это больше OLTP/микросервисы.

Answer 49

Уверенный уровень: JOIN-ы, оконные функции, оптимизация, индексы — всё это делал регулярно.

Answer 50

PostgreSQL — универсальная реляционная СУБД для OLTP; ClickHouse и Greenplum — колоночные/MPP решения для масштабной аналитики.

Answer 51

Да, Kafka + Debezium для CDC, Airflow PythonOperators (psycopg2) для batch-загрузок, всё активно применялось.

Answer 52

Глубоко нет, DevOps это делали. Я смотрел логи и pg_stat_activity при troubleshoot, при необходимости добавляли индексы.

Answer 53

Да, писали Python-скрипты (psycopg2 → pandas → CSV → boto3 upload), либо делали pg_dump → S3, чтобы использовать далее в Greenplum.

Answer 54

В основном операционная (микросервисная) деятельность, хотя простую аналитику тоже иногда делали в рамках небольших запросов.

Answer 55

Да, при сотнях миллионов строк запросы заметно замедлялись, поэтому часть аналитики выносили в Greenplum/ClickHouse.

Answer 56

Debezium читал WAL (logical decoding), формируя события before/after, которые мы отправляли в Kafka для CDC.

Answer 57

Иногда да, для временных таблиц при интеграции, но основное DWH всё равно было Oracle/Greenplum.

Answer 58

Администрированием занимался DevOps, но я знал, что pg_dump/pg_restore или физические бэкапы позволяют вернуть базу к нужному состоянию.

Answer 59

Да, создавал replication slot, прописывал конфиг (host, table.include.list), Debezium как Kafka Connect plugin, чтобы вылавливать изменения в реальном времени.

Answer 60

Да, часть сервисов в ЮMoney жила в Yandex Cloud, но логика подключения и загрузки была той же.

Answer 61

Глубоко нет, конфиги и бэкапы делал DevOps, я лишь создавал схемы, таблицы, индексы под нужды ETL.

Answer 62

Да, logical replication через Debezium, physical replication на слейвы занимались DevOps.

Answer 63

Следили за lag в Debezium, если коннектор падал, Airflow присылал алерты; могли вручную перезапустить слот. Ставили ретраи в случае временных сбоев.

Answer 64

Да, в ББР Банке мы имели Hadoop-кластер, применяли Hive для SQL-доступа к логам, Spark (PySpark) для парсинга JSON, HDFS как data lake.

Answer 65

Чаще всего через Hive (HiveQL) или Spark (spark-submit). Некоторым давали Zeppelin/Jupyter для интерактивной аналитики, но основа — Hive + SQL.

Answer 66

Да, создавал внешние таблицы (EXTERNAL TABLE), прописывал схемы для JSON/CSV, чтобы аналитики могли запросить файлы из HDFS как обычную таблицу.

Answer 67

Это сервис/база, где хранятся метаданные Hive: схемы, таблицы, типы, пути в HDFS, позволяющие интерпретировать файлы как реляционные таблицы.

Answer 68

Да, Spark job иногда формировал Parquet-файлы, которые уже были очищены, и потом другие аналитики через Hive или Spark повторно обрабатывали эти Parquet.

Answer 69

Напрямую писал MapReduce редко, мы преимущественно пользовались Spark, но теоретически знал о MapReduce, Yarn, работе shuffle.

Answer 70

Это базовый фреймворк распределённой обработки (Map -> Shuffle -> Reduce), над которым позже появился Spark как более быстрый вариант in-memory вычислений.

Answer 71

Есть Pig, HBase, Flink, но в моём опыте основные вещи были Spark, Hive.

Answer 72

Yarn — диспетчер ресурсов кластера, распределяет CPU/память между job-ами (Spark, MapReduce) и отслеживает их выполнение.

Answer 73

Меняет стадии выполнения, выдаёт контейнеры под задачи, управляет очередями, балансирует нагрузку.

Answer 74

MapReduce каждый раз пишет результаты на диск, Spark обрабатывает данные в памяти (RDD, DataFrame), что ускоряет итеративные задачи.

Answer 75

Да, в ББР Банке мы складывали туда логи мобильных и веб-приложений, JSON, CSV для дальнейшей обработки в Hive/Spark.

Answer 76

NameNode (метаданные, управление), DataNode (хранение блоков), SecondaryNameNode (резерв метаданных), клиентские библиотеки, чтобы обращаться к системе.

Answer 77

Хранит структуру файлов и блоков, отслеживает где какие блоки лежат на DataNode, обрабатывает операции (создание, удаление, перемещение).

Answer 78

JSON, Parquet, текстовые логи. Parquet активно применяли в Spark для колоночного хранения и лучшей сжатости.

Answer 79

Нет, использовали vanilla Hadoop-дистрибутив с нужными компонентами (Hive, Spark).

Answer 80

Да, логи и системные события достигали сотен гигабайт. Мы партиционировали их по дате, чтобы управлять хранением.

Answer 81

Да, Hadoop подходит для полуструктурированных данных и больших batch job, тогда как MPP-базы (Greenplum, ClickHouse) больше про structured аналитические запросы.

Answer 82

HDFS (хранилище), Yarn (диспетчер ресурсов), MapReduce (базовый механизм распределённой обработки).

Answer 83

Чтобы сократить пересылку данных между узлами, уменьшить shuffle, упростить локальные JOIN.

Answer 84

Если нет ключа для hash-distribution, random позволяет равномерно раскидать данные по узлам, избегая перекосов.

Answer 85

Прямо не сравнивал со Snowflake, но S3 часто использовали как объектное хранилище/landing zone, а Greenplum — как основную MPP-СУБД.

Answer 86

Стоимость, масштабируемость, простота интеграции, требования к доступности, форматы файлов (CSV/Parquet), а также частота обращений.

Answer 87

Обычно медленнее, чем локальное или MPP-хранилище, но для batch-выгрузок приемлемо, позволяет гибко масштабировать объёмы.

Answer 88

Когда нужно долговременное дешёвое хранение больших объёмов (архив логов), перенос промежуточных результатов между системами, интеграция с облачными сервисами.

Answer 89

Нет, Snowflake мы не применяли, но S3 часто служил landing для Greenplum и Spark.

Answer 90

Да, через Python-скрипты (boto3) + Airflow, дальше копировали файлы и делали COPY в Greenplum.

Answer 91

Да, Spark мог забирать файлы из S3, если локальный HDFS был перегружен или если нужно было хранить «холодные» данные в облаке.

Answer 92

Да, делали pg_dump → S3 для бэкапов, а также CSV-выгрузки из PostgreSQL через Python.

Answer 93

Да, часто: сохраняли там сырые CSV/Parquet, потом Airflow DAG-ом подгружали в нужное DWH.

Answer 94

Да, писал PythonOperators в Airflow, которые проверяли наличие файла, скачивали, конвертировали, затем загружали в DWH.

Answer 95

Да, это классический сценарий: «Raw Zone» в S3, после проверки и преобразования — загрузка в Greenplum.

Answer 96

Да, в ЮMoney мы строили корпоративное хранилище по Data Vault 2.0 в Greenplum.

Answer 97

Это методология моделирования: Hub (бизнес-сущность), Link (связь), Satellite (атрибуты и история), позволяющая гибко расширять хранилище и хранить полную версионность.

Answer 98

Hub, Link, Satellite; Hub хранит бизнес-ключи, Link — связи между хабами, Satellite — детальные поля с историей изменений.

Answer 99

Hub — ядро сущности (клиент, продукт), Link — соединяет несколько хабов (клиент-продукт), Satellite содержит атрибуты и временные метки, что позволяет версионировать данные.

Answer 100

Обычно суррогатный ключ (HashKey), бизнес-ключ (BusinessKey), LoadDate, RecordSource — то есть минимум 4 поля.

Answer 101

Бизнес-сущности (хабы), отношения (линки) и детальные атрибуты с историей (сателлиты).

Answer 102

Да, это популярный подход к историзации и масштабированию DWH, я видел много запросов и у нас в ЮMoney это доказало гибкость.

Answer 103

В ЮMoney на тот момент — да, мы переходили с плоских таблиц/ClickHouse на DV2.0 в Greenplum.

Answer 104

В ЮMoney корпоративный DWH выстраивался именно по DV2.0, охватывая все ключевые бизнес-процессы (транзакции, клиенты, рекламные кампании).

Answer 105

Да, создавал структуры Raw/Business Vault, прописывал логику загрузки, оптимизировал запросы на Hub/Link/Satellite.

Answer 106

Это гибкая схема хранения, где данные разбиваются на сущности и связи, а все изменения версионируются в сателлитах. Легко расширять новые источники, не ломая старую модель.

Answer 107

В предыдущем (ЮMoney) — да, после ухода я не сталкивался с новыми проектами, где DV уже внедрён.

Answer 108

Да, иногда делал OBT при быстром прототипировании: брали Excel + Oracle + CSV, склеивали в одну «широкую» таблицу для оперативного анализа.

Answer 109

Если проект небольшой, структура редко меняется, нужно быстро получить результат без сложных JOIN.

Answer 110

В пилотных, разовых аналитических исследованиях или маленьких самописных отчётах, где нет комплексных исторических изменений.

Answer 111

В ББР Банке для срочных сводок: брали данные из нескольких CSV, формировали «широкую» сводную таблицу, чтобы сделать BI-дашборд без полноценного DWH.

Answer 112

Да, когда данные росли и появились требования к истории, пришлось переводить в Data Vault/звёздную схему, чтобы избежать дублирования и медленных JOIN.

Answer 113

Да, OBT «за» — быстро стартовать, «против» — плохо масштабируется, трудно хранить историю, большие таблицы тормозят. Data Vault или классическая Kimball-схема гибче в долгосрочной перспективе.

Answer 114

Преимущества — простота, скорость реализации. Недостатки — громоздкость при росте данных, проблемы с версионностью, потенциальное дублирование полей.

Answer 115

Тормозные запросы (full scan), колоссальное дублирование данных, сложность внесения изменений.

Answer 116

При больших объёмах запросы могут стать крайне медленными, так как всё лежит в одной таблице без нормализации.

Answer 117

Увеличивается, так как данные часто дублируются по многим полям, которые при нормализации выносили бы в отдельные измерения.

Answer 118

Строго контролировать формат входных данных, партиционировать, добавлять индексы (где возможно), но это всё временные меры, лучше переходить к более структурированной модели.

Answer 119

OBT упрощает старт, но плохо масштабируется; Data Vault позволяет историзировать и добавлять источники без «сноса» схем.

Answer 120

Преимущество — быстрая разработка. Недостаток — трудное расширение, нет нормальной историзации, высокая избыточность.

Answer 121

Да, в ББР Банке часть логов уносили в Hadoop/HDFS, чтобы не держать всё в дорогом Oracle, а в ЮMoney — старые данные иногда выгружали в S3.

Answer 122

Да, это когда часть «горячих» данных лежит в быстром DWH (Greenplum/ClickHouse), а «холодные» — в дешёвом хранилище (HDFS/S3), чтобы балансировать стоимость и доступность.

Answer 123

Могут быть многоуровневые пайплайны (Airflow), где данные, не используемые регулярно, переносятся из DWH в S3/HDFS, а при необходимости загружаются обратно.

Answer 124

При огромных исторических объёмах, которые редко запрашиваются, когда невыгодно держать всё в дорогой MPP, но нужно иметь опцию вернуть данные при необходимости.

Answer 125

Частота запросов, SLA на доступ, стоимость хранения, сложность управления данными (метаданные, граничные кейсы).

Answer 126

Да, логи за 1+ год уносили в HDFS/S3, а актуальные оставляли в Greenplum/ClickHouse.

Answer 127

Анализирую, какие данные часто нужны в отчётах (держу в DWH), а что редко запрашивается (выношу в «холод»), и даю механизм быстрой догрузки при необходимости исторического анализа.

Answer 128

Airflow/Workflow для перемещения, Hive Metastore/S3 Catalog, MPP DWH (Greenplum), Spark для чтения с S3, плюс система метаданных и политики «охлаждения».

Answer 129

Да, в ББР Банке часть старых логов переносили в HDFS, а в ЮMoney — в S3, снижая нагрузку на основное DWH.

Answer 130

Полностью без потери скорости не обходилось, но для редко запрашиваемых данных это было оправдано, и при грамотной системе кэширования/предзагрузки потери минимизировались.

Answer 131

Да, в ББР Банке логи REST, в ЮMoney — рекламные API, микросервисы. Приходилось парсить, валидировать, грузить в DWH.

Answer 132

Avro не использовал, чаще работал с «чистым» JSON, хотя в Spark/Hive можно было подключить Avro, но у нас не было постоянного Avro-проекта.

Answer 133

Python-скрипты (json.loads), Spark (read.json), Debezium (Kafka) давал before/after поля JSON, я писал потребители, которые разбирали нужные ключи.

Answer 134

Да, стандартный json в Python, requests для REST, иногда pandas для быстрой обработки.

Answer 135

Да, когда из внешних рекламных API приходили разные форматы. Делал проверку ключей, типов (дата, число), логгировал ошибки в отдельный CSV.

Answer 136

Документировал ожидаемый формат, при загрузке делал валидацию (если нет ключа/тип не совпадает — пишу в лог ошибок), следил за версиями API.

Answer 137

Да, в ЮMoney микросервисы иногда писали JSONB. При вытягивании в DWH я старался распаковать структуру по столбцам.

Answer 138

В Python иногда рекурсивно обходил, в Spark использовал explode при сложных массивных структурах. Старался нормализовать по мере возможностей.

Answer 139

Да, особенно когда API менялось, добавляли поле version, делали backward-совместимость, чтобы не ломать парсеры.

Answer 140

В Confluence описывал ключи, типы, примеры JSON, обязывал коллег следить за обновлениями при релизах.

Answer 141

Сильно влияет, особенно при JSONB в PostgreSQL стоит делать GIN-индексы на ключевые поля, для OLAP лучше распаковать JSON в таблицы.

Answer 142

Да, классические SCD2 в Oracle DWH, а также Data Vault (хранение атрибутов в сателлитах).

Answer 143

Да, при обновлении записываем новую строку с актуальным значением, старую помечаем end_date или флагом, что она неактивна.

Answer 144

Каждый раз при изменении измерения создаём новую версию, сохраняя историю — так можно в отчётах восстанавливать состояние на любую дату.

Answer 145

Да, в ББР Банке, где DWH построен по Кимбаллу, в таблицах измерений мы вели effective_start, effective_end, is_current.

Answer 146

Сравнивал поля входных данных с текущей версией, если менялись — «закрывал» старую (end_date=...), создавал новую (start_date=now), ставил active=1, а старой — active=0.

Answer 147

В Informatica/Airflow делал lookup текущей записи, если поля отличались — менял end_date старой, вставлял новую.

Answer 148

Суррогатный ключ (dim_id), natural key (client_id), start_date, end_date, active_flag, набор атрибутов (name, address), load_dttm/record_source.

Answer 149

Плюс — полная история изменений, минус — рост объёма данных, усложнение запросов, нужно аккуратно поддерживать корректность end_date.

Answer 150

Когда бизнесу важна историческая прослеживаемость (например, адрес клиента менялся, нужно видеть, какой был при оформлении кредита).

Answer 151

Для актуальной версии фильтровал is_current=1, для истории JOIN по дате факта (between start_date and end_date) или по active_flag, если нужна конкретная временная точка.

Answer 152

Полное соответствие, я вёл проекты по миграции с Informatica и активно писал DAG-лопаты в ЮMoney.

Answer 153

Да, большой: настройка, написание операторов, CI/CD, мониторинг. Переводил десятки ETL-процессов из Informatica в Airflow в ББР Банке.

Answer 154

Да, в обеих (ББР Банк и ЮMoney) Airflow стал основным оркестратором ETL/ELT.

Answer 155

Это скорее оркестратор (scheduler), но мы используем его как ETL, так как много логики пишется в PythonOperators.

Answer 156

В основном PythonOperator для вызова скриптов (парсинг CSV, вызов API, Debezium-обработка), плюс иногда BashOperator для более простых shell-команд.

Answer 157

Переносил маппинги из Informatica: разбивал логику на шаги (extract, transform, load), настраивал зависимости (>>), расписание (cron), ретраи, оповещения. В ЮMoney делал DAG для сбора рекламных метрик (Google Ads, Яндекс.Директ) и загрузки их в Greenplum.

Answer 158

Локальные юнит-тесты (pytest) для Python-функций, airflow test для пробного запуска, а также dev-стенд, где прогоняли DAG целиком.

Answer 159

Фикстура — это способ передавать подготовленные объекты и окружение в тесты, чтобы не дублировать setup/teardown-код.

Answer 160

Да, когда тестировал Python-скрипты (парсер CSV) отдельно, фикстуры создавали временные файлы, имитировали окружение.

Answer 161

На уровне default_args указывал owner, retries, retry_delay, email_on_failure, schedule_interval (cron или @daily). Прописывал зависимости (task1 >> task2). Часто хранил конфиги в Variables, Connections.

Answer 162

depends_on_past, retries, retry_delay, email_on_failure, on_failure_callback — настраивал их для критических DAG-ов, чтобы автоматически перезапускать при сбоях.

Answer 163

Из TeamCity нет, но из Informatica — да. Приходилось вручную пересобрать логику трансформаций, расписание и ретраи.

Answer 164

Да, Airflow-сcheduler кладёт задачи в очередь, воркеры (CeleryExecutor, LocalExecutor) берут задачи, учитывая настройки pools и concurrency.

Answer 165

PythonOperator, BashOperator, EmailOperator, Sensors (FileSensor), ExternalTaskSensor. Иногда писал кастомные операторы (S3->DB загрузка).

Answer 166

Конечно, многие DAG-ы были цепочками: сначала extract, потом transform, потом load, плюс синхронизация с ExternalTaskSensor.

Answer 167

Глядел в UI (Gantt, Graph view), настраивал Slack/email-алерты, в случае падения задачи смотрел логи, при необходимости ручной перезапуск.

Answer 168

Да, держали DAG-и в Git, при пуше автотест на синтаксис, деплой на dev-стенд, затем после проверки — на prod, используя Jenkins/GitLab CI.

Answer 169

Делали «рефакторинг-спринты», объединяли дублирующие скрипты в модули, выпиливали legacy-процессы, писали документацию в Confluence, чтобы упростить поддержку.

Answer 170

Да, ограничивал concurrency, разбивал очень тяжёлые DAG на несколько, чтобы не перегружать воркеры, создавал пулы для ресурсоёмких задач.

Answer 171

Да, почти все кейсы были batch: загрузка CSV, запросы к API, преобразования и далее запись в DWH.

Answer 172

Да, EmailOperator для важных ETL. При падении задачи Airflow шлёт письмо на указанный адрес.

Answer 173

Через параметр schedule_interval (cron или @daily/@hourly). Например, 0 7 * * * для ежедневного запуска в 7 утра.

Answer 174

Использовал Airflow Variables для хранения путей, логинов, конфигов окружения, получал их через Variable.get("key").

Answer 175

Да, для передачи небольших данных между задачами в одном DAG. Но стараюсь не злоупотреблять XCom объёмными данными.

Answer 176

Да, Slack-нотификации, Debezium/Kafka, REST API внешних систем, S3 и Hive hooks, Spark-submit оператор.

Answer 177

FileSensor (ждёт появления файла), ExternalTaskSensor (ждёт завершения другого DAG). Это помогало синхронизировать процессы, зависящие от внешних условий.

Answer 178

Настраивал ретраи, оповещения, чётко прописывал зависимости. В прод-среде мы делали разделение DAG-ов, чтобы сбой одного не «калечил» весь Airflow.

Answer 179

При падении задача уходит в retry (если настроен). Если все ретраи исчерпаны — алерт в Slack/Email. Если причина — временный сбой, вручную перезапускал, иначе разбирал лог, правил код.

Answer 180

Знаю, что есть API для управления DAG-ами и тасками, но в основном хватало CLI и UI.

Answer 181

Метаданные хранятся в базе (PostgreSQL/MySQL). DevOps делали бэкапы; я лишь убедился, что при сбое можно откатить до последней сохранённой версии.

Answer 182

Docker-compose (локальные тесты), CeleryExecutor (расширенное прод), KubernetesExecutor. У нас чаще CeleryExecutor с разными воркерами.

Answer 183

Да, SubDagOperator. Но сейчас чаще TaskGroup. SubDagOperator применял, когда логически сгруппированные задачи повторялись с разными параметрами.

Answer 184

Поверхностно. В основном пользовался прямыми зависимостями (>>). Для меж-DAG зависимостей — ExternalTaskSensor.

Answer 185

Airflow Connections (UI), иногда Vault. В Variables с шифрованием, указывая login/password, подключение к S3, DB.

Answer 186

Pools ограничивают параллелизм для ресурсоёмких задач. Например, Spark pool: max 3 задачи одновременно, чтобы не перегружать кластер.

Answer 187

Да, обновляли с 1.10 до 2.x, проверяли обратную совместимость DAG-ов, переписывали импорты, DevOps обновляли Docker-образы.

Answer 188

Плюсы — гибкость, pythonic, большое сообщество. Минусы — требует правильной конфигурации окружения, не идеален для real-time стриминга.

Answer 189

Да, через PythonOperator (kafka-python) или Debezium/Kafka Connect API для чтения/записи событий, хотя чаще Spark-стрим брал эти топики.

Answer 190

PythonOperator для парсинга CSV, вызова REST API, Debezium/Kafka чтения, консолидации данных, записи в DWH.

Answer 191

Да, задача при повторных запусках не должна дублировать данные. Например, чистим staging или проверяем, какие записи уже загружены, перед тем как вставлять заново.

Answer 192

Параметры email_on_failure, Slack webhook, on_failure_callback. Если задача упала, Airflow отсылал уведомление.

Answer 193

Да, DevOps иногда давали ограниченные volume для tmp, поэтому хранили временные файлы в разрешённой папке или сразу в S3.

Answer 194

Основные — CSV/Excel (маркетинг), REST API (JSON), Oracle/PostgreSQL, ClickHouse. В ЮMoney часто приходили рекламные выгрузки, в ББР — отчётные CSV.

Answer 195

Ежедневные/еженедельные, разовые массовые. Иногда 8+ файлов разных форматов, которые нужно объединить.

Answer 196

Airflow DAG → скачиваем (FTP/S3/HTTP), проверяем структуру (число колонок, заголовки), парсим Python (csv/pandas), чистим и загружаем во временные таблицы DWH. Затем хранимки или SQL-допобработка.

Answer 197

PythonOperator с paramiko (SFTP), requests (HTTP), boto3 (S3). Сохранял локально или сразу стримил в staging-таблицу, если объём небольшой.

Answer 198

Да, разбирал заголовки, приводил типы (даты, float), мог объединять несколько CSV в один DataFrame, далее загружал в DWH.

Answer 199

Да, убирал BOM, проверял заголовки, заменял «N/A» на NULL, конвертировал запятую в точку для float, чистил пробелы.

Answer 200

Да, например «-» → NULL, «нет» → ‘N’, и т.д., чтобы сохранить единый формат в DWH.

Answer 201

Да, мы сверяли количество колонок, формат дат, если не соответствовало схеме, файл помечался ошибочным, Airflow слал алерт.

Answer 202

Они оказывались в staging (Oracle/Greenplum), потом SQL-процедурами фильтровали, обогащали, вставляли в финальные таблицы/витрины или Data Vault.

Answer 203

Avro не особо, но CSV → Parquet для Spark делал, чтобы эффективнее дальше обрабатывать в Hadoop или на локальном кластере.

Answer 204

Да, в основном pandas, csv-модуль, иногда потоки (io) для больших файлов, подключал всё к Airflow.

Answer 205

Да, часто. Например, FTP → локальный каталог → S3 → Greenplum, организовывал это через Airflow bash/python tasks.

Answer 206

Да, в ЮMoney настроили CDC с PostgreSQL через Debezium, чтобы оперативно передавать транзакции в Kafka, а оттуда в DWH.

Answer 207

Чтобы не ждать ночных batch-загрузок, а получать изменения (INSERT/UPDATE/DELETE) из микросервисных баз почти в реальном времени.

Answer 208

Удобно интегрируется с Kafka, open-source, поддерживает PostgreSQL, отслеживает WAL. Легче настроить, чем писать свою логику logical replication.

Answer 209

StreamSets, встроенный logical replication + custom code, иногда Oracle GoldenGate (для Oracle), но Debezium подходит именно под PostgreSQL+Kafka.

Answer 210

Он читал WAL PostgreSQL, генерировал JSON «before/after» и публиковал в Kafka-топики, откуда мы брали их для Greenplum или antifraud.

Answer 211

Настроил коннектор: прописал database.dbname, table.include.list, replication slot, формат json. Данные попадали в топики, дальше Spark или Airflow потребляли их.

Answer 212

Выдал нужные права пользователю, включил wal_level=logical, создал replication slot, в конфиге Debezium указал нужные таблицы, формат (after/before), задействовал transforms=unwrap для упрощённого JSON.

Answer 213

Менял postgresql.conf (wal_level=logical), создавал пользователя с REPLICATION, replication slot (SELECT * FROM pg_create_logical_replication_slot), в property-файле Debezium указывал хост, port, dbname, user, password.

Answer 214

Обновлять DWH чуть ли не в реальном времени, например для antifraud (подозрительные транзакции) и свежих маркетинговых отчётов.

Answer 215

Да, в antifraud проверяли необычные транзакции; если Debezium видел новое поступление, Spark стрим мог реагировать.

Answer 216

Коннектор Debezium → Kafka, далее Spark Streaming читал топик, при определённых паттернах отсылал алерт в Slack. Концепция near real-time, задержка до нескольких секунд.

Answer 217

Через Kafka Connect. Debezium — это коннектор, который публикует события в определённые топики.

Answer 218

CDC для PostgreSQL (транзакции, справочники), чтобы автоматически синхронизировать данные в Greenplum и в antifraud модуле.

Answer 219

INSERT/UPDATE/DELETE для таблиц transactions, users, products. Debezium отдавал JSON {before, after}, а Spark/Airflow подтягивали нужные поля.

Answer 220

Да, иногда offset сбивался при неаккуратном рестарте коннектора, нужно было перезапускать replication slot или обрабатывать дубли.

Answer 221

Для локальных тестов поднимал zookeeper, kafka, connect, postgres в одном docker-compose, проверял, что коннектор видит изменения, публикует топики.

Answer 222

Да, Debezium — это plugin для Kafka Connect, мы прописывали connector configs JSON через REST API Kafka Connect.

Answer 223

Нужно вручную указать параметры (host, slot, table include), но после запуска connector в целом работает самостоятельно, следя за WAL.

Answer 224

Да, в ЮMoney для CDC (Debezium) и для обмена событиями между сервисами.

Answer 225

В ББР Банке нет, а в ЮMoney Kafka был ключевым стриминговым решением.

Answer 226

Да, настраивал Spark Streaming потребителей, а также Airflow tasks, которые забирали сообщения для пакетной загрузки.

Answer 227

Да, для PostgreSQL таблиц (transactions, users), Debezium писал JSON в топики, я их потреблял для обновления Greenplum и antifraud анализа.

Answer 228

Да, Debezium — типовой connector, плюс мы тестировали sink-коннектор для выгрузки в S3, но в основном писали кастомную логику в Spark.

Answer 229

Да, это фреймворк для подключения источников/приёмников без написания кастомного кода. Debezium — один из source-коннекторов.

Answer 230

Да, именно так получали CDC из PostgreSQL.

Answer 231

Настраивал топики, раскладывал партиции, писал консюмеры (Spark), смотрел consumer lag, чтобы не отставали. Поддерживал Debezium-коннектор, проверял логи.

Answer 232

Да, брокеры/топики/партиции, продюсеры отправляют сообщения, консюмеры читают, offset сохраняется. Zookeeper (или internal quorum) хранит метаданные.

Answer 233

Да, создавал топики через kafka-topics, задавал фактор репликации, количество партиций. Для высоконагруженных потоков делал 3–5 партиций.

Answer 234

Для горизонтального масштабирования и параллельного чтения/записи, чтобы распределить нагрузку между брокерами и консюмерами.

Answer 235

По ключу (hash) или round-robin, если ключ не задан.

Answer 236

Продюсер отправляет сообщение, Debezium формирует JSON (before/after) и публикует в топик.

Answer 237

На уровне Debezium (table.include.list), иногда в потребителе (Spark) скидывал нерелевантные типы операций. Например, оставлял только INSERT/UPDATE транзакций.

Answer 238

Да, при корректном мониторинге и настройке брокеров. Главное следить за storage, lag, replication.

Answer 239

Надёжная, масштабируемая система, подходящая для асинхронного обмена сообщениями и стриминга. Интеграция с Debezium удобна.

Answer 240

Высокая пропускная способность, надёжность (репликация), гибкая интеграция (Connect, Streams), возможность масштабировать консюмеров.

Answer 241

Чтобы обрабатывать большие объёмы сообщений, не упираясь в один сервер, обеспечивать высокую доступность и параллельную консюмацию.

Answer 242

Сообщения распределяются по партициям, каждая партиция хранится на одном брокере и реплицируется на других. Консюмер читает партиции параллельно, пишет файлы. Так данные в итоге распределены.

Answer 243

Да, когда коннектор Debezium падал и offset сбивался, либо при большом backlog консюмер мог «утонуть» в сообщениях. Надо было масштабировать воркеры, чистить топики от старых данных.

Answer 244

Prometheus/Grafana метрики, consumer lag, zookeeper state, логи брокеров. Настраивали алерты, если lag превышал порог.

Answer 245

Acks=all, replication factor=3, надёжный storаge. При сбоях в сети консюмер сдвигал offset только после успешной обработки.

Answer 246

Рабочие репозитории были приватными, публичного портфолио, к сожалению, нет, но могу показать учебные pet-проекты.

Answer 247

Да, часто для локальных тестов (Kafka, Debezium, Postgres), также для Airflow dev-стенда.

Answer 248

Да, поднимал всё в одном docker-compose.yaml, где каждая служба имела свой container. Удобно для тестовой среды.

Answer 249

Иногда, но чаще Dockerfile + docker-compose для orchestration. CI/CD может собирать образы, а compose — запускать их вместе.

Answer 250

Да, есть готовые docker-compose примеры, но в продакшене Spark был на кластерных узлах, а не в Compose.

Answer 251

docker ps.

Answer 252

Аналогично, docker ps или docker-compose ps.

Answer 253

docker pull , либо docker-compose pull, если прописано в yaml.

Answer 254

Из Docker Hub или внутреннего registry, при запуске docker-compose подтягиваются автоматически.

Answer 255

docker images или смотрю в Docker Desktop, если GUI.

Answer 256

Попытается собрать через Dockerfile (если build указан) или выдаст ошибку, если нет build+image.

Answer 257

Либо собирается при docker-compose build, либо не запустится, если не задано.

Answer 258

docker images, docker-compose images, либо Docker Desktop.

Answer 259

На локальной машине да, удобно смотреть размер, версии.

Answer 260

Теги, слои, размер, чтобы понять, не слишком ли раздут образ, и проверить наличие нужной версии.

Answer 261

Код в Git, CI собирает образ/артефакт, раскатываем на pre-prod, запускаем тесты. При успешном прохождении идём в prod.

Answer 262

Ручное или автоматическое утверждение релиза, CI/CD pipeline деплоит на prod-кластер, обновляет нужные контейнеры/скрипты.

Answer 263

Деплой прерывается, делаем откат (rollback) на предыдущую версию, анализируем логи, правим ошибки.

Answer 264

Очередь может «забиться», сборки тормозят, возможны таймауты, конфликты зависимостей.

Answer 265

Может сильно замедлиться, если нет достаточного числа агентов или оптимизации сборок.

Answer 266

Да, если не хватает ресурсов. Надо масштабировать runners/agents, кешировать зависимости.

Answer 267

Да, когда параллельно много веток, сборки могли ждать. Решали увеличением агентов, оптимизацией пайплайна.

Answer 268

Да, частично решали через распределённые runners и кеширование docker-слоёв, npm-packages и т.д.

Answer 269

Добавлял параллельные executors, настраивал кэш, разбивал монолитный pipeline на несколько, включал триггеры только при реальных изменениях в коде.

Answer 270

Распараллеливание, feature flags, оптимизация тестов (не гонять все тесты при малых изменениях), пайплайн с разделением (build, test, deploy).

Answer 271

Создаю ветку, пишу код, пушу в remote, открываю merge/pull request, CI запускает тесты, после ревью вливаю в dev/main.

Answer 272

Коммит → push feature-branch → CI запускается → code review → merge → автодеплой на dev/pre-prod → при проверке ок — прод.

Answer 273

Линтеры (flake8, eslint), юнит-тесты, сборка образов, интеграционные тесты, возможно security scan, затем merge, деплой.

Answer 274

Да, брал чужой DAG с API-загрузкой, разбирался, документировал, оптимизировал логику в PythonOperator.

Answer 275

Да, в ЮMoney я отвечал за DAG, который выгружает рекламные метрики в Greenplum, а также за некоторые CDC-интеграции.

Answer 276

Да, сделал скрипт, который прогоняет flake8 и airflow lint перед коммитом, автоматизировал проверку синтаксиса.

Answer 277

Да, когда нужна была специальная Python-библиотека, договаривался с DevOps обновить Docker-образ Airflow, либо монтировать нужные файлы.

Answer 278

Да, ограничивал max_active_runs, concurrency, создавал pool, чтобы тяжёлые задачи не забивали весь worker.

Answer 279

Было, например, в Greenplum перевод float -> numeric, писал дополнительный шаг, который конвертировал поля, обновлял структуру.

Answer 280

Регулярно рефакторил SQL, смотрел планы, добавлял партиционирование. Если DAG начинал работать дольше обычного, разбирался, где «просадка».

Answer 281

Да, в Confluence описывали логику, входные/выходные данные, расписание. Были инициативы повысить покрытие docstring, чтобы новички быстрее понимали пайплайн.

Answer 282

Однажды неправильно оценил время миграции (вместо 2 часов заняло 12). Вывод: всегда делать пилотную выгрузку на части, проверять производительность заранее.

Answer 283

Внимательный, ответственный, командный.

Answer 284

Улучшаю публичные выступления и презентацию сложных технических идей, стараюсь говорить короче и яснее.

Answer 285

Иногда могу «зарыться» в детали и потратить много времени на совершенствование кода, что не всегда критично.

Answer 286

Говорили, что хорошо документирую сложные процессы, но иногда долго отвечаю на мелкие запросы. Согласен, улучшаю тайм-менеджмент.

Answer 287

Умение глубоко вникать в задачу и доводить её до конца, не бросая недоработанным.

Answer 288

Планирование задач утром, разбивка больших целей на мелкие, Pomodoro-техники, когда нужно сфокусироваться на коде.

Answer 289

Участием в двух масштабных миграциях (Informatica → Airflow и ClickHouse → Greenplum), которые значительно улучшили инфраструктуру данных.

Answer 290

Пересматриваю приоритеты, пытаюсь выделить MVP, предупреждаю коллег о рисках, прошу помощи, если нужно.

Answer 291

Запрашиваю уточняющие детали у заказчиков, провожу короткие интервью, если срочно — делаю прототип/гипотезу, показываю, согласую.

Answer 292

Да, при перегрузке задач просил помощи коллег, декомпозировал работу. Руководству обосновывал, что потребуется дополнительное время/ресурсы.

Answer 293

Составил чёткий список задач, расставил приоритеты (must-have, nice-to-have), часть делегировал, часть перенёс, чтобы не «сгореть».

Answer 294

Стараюсь не поддаваться негативу, выяснять конкретные причины, перевести в конструктив, если не выходит — эскалирую руководству.

Answer 295

Давал чёткие вводные, помогал разбираться в коде DAG-ов, проводил code review, объяснял, как пользоваться Airflow hooks и писать тесты.

Answer 296

Делать не только свою узкую задачу, но и помогать коллегам, делиться опытом, стремиться к общему успеху, а не только к личным достижениям.

Answer 297

Да, при выборе ETL-инструмента. Обсудили аргументы, провели пилот, выбрали лучший вариант. Я не перешёл на личности, искал компромисс.

Answer 298

Сначала уточню, что мешает (непонятно ТЗ, нет навыков?), помогу. Если человек не меняется, подключаю руководителя.

Answer 299

Озвучиваю аргументы, стараюсь проанализировать плюсы/минусы. Если общее решение принято не в мою пользу, уважаю командный выбор.

Answer 300

Миграция с ClickHouse на Greenplum в ЮMoney: много разных таблиц, большой объём данных, Data Vault архитектура, короткие сроки.

Answer 301

Не весь функционал переносили сразу, оставили часть процессов в старом виде, чтобы уложиться в сроки, доделывали потом.

Answer 302

Начал выгружать данные одним потоком, всё затянулось. Оперативно переписал скрипт с параллельными батчами, время сократилось в 2 раза.

Answer 303

Недооценивал время тестирования больших объёмов. Теперь всегда делаю пилотный прогон на части данных, замеряю, прогнозирую масштабирование.

Answer 304

Да, немного переживал, стараясь не нарушать авторскую логику, но понимал, что нужно упорядочить и улучшить читаемость.

Answer 305

Читаю статьи, блоги, документацию, иногда курсы. Практикуюсь на pet-проектах, обсуждаю с коллегами, анализирую best practices.

Answer 306

Смотрю, что востребовано (бигдата, стриминг, облака), где у меня пробелы, какие задачи могут появиться в будущем проекте.

Answer 307

Недавно читал статьи о Data Vault 2.0, оптимизации Greenplum, плюс технические заметки по Spark Structured Streaming.

Answer 308

Углубиться в Kubernetes (K8s) для бигдата-развёртываний, изучить Flink для стриминга, улучшить навыки DataOps.

Answer 309

Брать ответственность за архитектурные решения, уметь наставлять коллег, видеть системную картину, а не только кодовую.

Answer 310

В ЮMoney увидел, что CSV-пайплайны можно ускорить, написал скрипт в Python, который проверял соответствие заголовков автоматически, уменьшил количество ручных проверок.

Answer 311

Предложил параллелить выгрузку таблиц при миграции, это уменьшило время с 12 до 5 часов, все оценили.

Answer 312

Да, помогал джунам освоить Airflow, показывал, как правильно писать ETL-скрипты, документировать задачи.

Answer 313

Больше единой документации, кодстайла, упорядочение naming таблиц, чтобы новички быстрее погружались.

Answer 314

Стараюсь понять суть, если конструктив — учусь. Если просто негатив, пытаюсь разобраться, в чём реальная проблема.

Answer 315

Да, коллега нашёл более оптимальный способ дистрибуции в Greenplum, признал его правоту, принял вариант.

Answer 316

Сначала пробую соблюдать, затем даю фидбек, предлагаю улучшения. Если без вариантов — приходится следовать, чтобы не мешать команде.

Answer 317

Спрашиваю дополнительные детали, делаю прототип, согласовываю. Если всё равно нелогично, подаю аргументы и варианты.

Answer 318

Смотрю на бизнес-приоритет, дедлайны, риск, согласовываю с руководителем или product owner.

Answer 319

Иду к руководителю, просим расставить приоритет, показываю реальные оценки, чтобы не было иллюзий, что всё можно сделать одновременно.

Answer 320

Команда работала по Scrum, я иногда пользуюсь Pomodoro для фокус-сессий, Kanban-доски в Jira.

Answer 321

Веду список в Jira, выставляю время «фокусной» работы, делаю короткие заметки, чтобы быстро вернуться к задаче после переключения.

Answer 322

Да, рассказывал руководству про Airflow/Greenplum, старался упрощать термины, приводить аналогии.

Answer 323

Использую метафоры (склады, полки для данных), упрощённые схемы, показываю примеры, избегая сугубо технического сленга.

Answer 324

Структурирую: цель, входные/выходные данные, шаги, формат. Добавляю скриншоты/схемы, чтобы коллеги могли понять без лишних вопросов.

Answer 325

Чётко формулирую вопросы, фиксирую итоги в письмах, если возникает двусмысленность — уточняю созвоном, пишу summary.

Answer 326

Если это не нарушает закон и этику, могу аргументировать, но если принципиально не согласен — эскалирую/выражаю позицию.

Answer 327

Сообщаю руководству/службе безопасности, не покрываю. Это корпоративные правила, их важно соблюдать.

Answer 328

Обычно баланс. Если это критично и разово, может быть «быстро». Но лучше не жертвовать архитектурой без крайней нужды, чтобы не создавать огромный техдолг.

Answer 329

Сразу предупреждаю команду/лида, предлагаю MVP или дополнительные ресурсы, пересматриваем объёмы, чтобы минимизировать ущерб.

Answer 330

Миграцией Informatica → Airflow и ClickHouse → Greenplum, дали огромный прирост гибкости, снизили лицензионные затраты и ускорили разработку.

Answer 331

Формально нет должности тимлида, но координировал джунов, брал на себя лидерство в технических решениях.

Answer 332

Когда некорректно спланировал время огромной выгрузки, заняло в 6 раз дольше. Решил, разбив процесс на параллельные части, извлёк уроки о необходимости пилотов.

Answer 333

Иногда могу тратить слишком много времени на «дотачивание», и бываю излишне въедлив в мелочи.

Answer 334

Конфликт по выбору ETL-инструмента, я топил за Airflow, коллега за SSIS. Провели пилот, продемонстрировал гибкость Python, решили остановиться на Airflow.

Answer 335

Сообщу о задержке как можно раньше, уточню, что действительно критично, возможно сокращу фичи до MVP, попрошу подмогу.

Answer 336

Нравится проектировать DWH, писать оптимизации, улучшать процесс. Не люблю чрезмерную бюрократию и однообразную рутину (например, ручные проверки).

Answer 337

Если уволились – активно, есть ещё несколько процессов, пара офферов.

Answer 338

Определи для себя конкретное число и скажи “рассматриваю от Х тыс рублей в месяц на руки”. Одинаковое число для “минимальной и комфортной”. Если смущаешься, напиши на стикере и читай первое время с него. Не поддерживаю игры и желание оттянуть до последнего. На ру рынке полезнее сходить на 10 собесов за неделю, чем перекидывать мячик все эти дни. Если будут сопротивляться, скажи “готов(а) рассмотреть варианты и обсудить условия, но ожидания такие”. Ты знаешь себе цену. Если неадекватно отреагируют – супер, рано выявили, можно смело прощаться. Если все компании согласны идти дальше и/или очень много входящих заявок – поздравляю, резюме отлично написано, проси на 50 тыс больше. Знакомый так поднял за один выход на рынок с 200 до 420.

Answer 339

В ЮMoney ввели обязательные офисные дни (3 раза в неделю), что мне неудобно, а хочу удалёнку или гибкий график.

Answer 340

Интересные задачи, крутой проект давно хотелось углубить свои знания в технологии Y, у вас как раз есть такая хочу изучить новую для себя доменную область/посмотреть как работают другие бизнесы в моей сфере хочу попробовать себя в работе над продуктом/проектной деятельностью

Answer 341

Мне нравится упоминать персональную привязанность, например “три года жил(а) рядом с магазином магнит и задумывался, а как там принимаются решения; буду рад(а) разобраться и помочь развить платформу данных” Нравится продукт Классные технологии Суперский hr-brand Понравилось описание резюме Знаю, что у вас работает классный спец Вася Пупкин, хочу поближе к нему Друзья посоветовали, работали раньше Пока нет особых причин, но надеюсь что наладим контакт на собеседованиях и захочу попасть именно к вам

Answer 342

Смотрю записи конференций, читаю статьи на хабре, общаюсь с профессиональным сообществом в тг чатах и с коллегами из прошлых работ.