Другое Flashcards
В чём преимущества и недостатки Trino? #wildberries
Trino is an open-source distributed SQL query engine designed to query large data sets distributed over one or more heterogeneous data sources.
o Преимущества: распределённые запросы к разным источникам данных, высокая скорость, масштабируемость, поддержка большого количества коннекторов.
o Недостатки: не подходит для транзакционной нагрузки, требует тонкой настройки (особенно памяти), зависим от сети между источниками данных.
В чем преимущество Apache Iceberg? #wildberries
o Поддержка ACID-транзакций в «озере данных».
o Атомарные изменения и ведение истории снапшотов (versioning).
o Прозрачное чтение/запись из разных движков (Spark, Trino, Flink и т.д.).
o Ускоренный поиск и инкрементальные сканирования благодаря мощным метаданным.
Что такое UDF и можно ли обойтись без них? #мир
o UDF (User Defined Function) — это пользовательская функция, которая расширяет функциональность.
o Можно ли без них? Да, если хватает встроенных функций, но для специфической бизнес-логики UDF часто упрощают разработку.
Iceberg vs Hudi #wildberries
o Apache Iceberg: гибкое форматирование таблиц, ACID, удобный менеджмент метаданных, общий стандарт для разных движков.
o Apache Hudi: акцент на near real-time ingestion, есть режим Copy-on-write и Merge-on-read, обеспечивает инкрементальные чтения
Git расскажи с какими командами знаком и как глубоко знаешь #Астон
o Основные команды: init, clone, status, add, commit, pull, push, branch, checkout, merge, rebase, cherry-pick, log, stash.
o Уровень: от базовых операций до разрешения конфликтов, работы с ветками, ребейза, написания хуков.
Опыт работы с DBT? #wildberries
o DBT (Data Build Tool): трансформации в DWH на SQL + Jinja.
o Настройка проекта, написание моделей, конфигураций, запуск задач (run, test), работа с версиями в Git.
Очереди сообщений: Поговорили о применении очередей сообщений в архитектуре приложений, их преимуществах и недостатках. #🐺
o Преимущества: асинхронная обработка, отвязка сервисов, масштабируемость и отказоустойчивость.
o Недостатки: дополнительная инфраструктура, сложнее отлаживать, возможны проблемы с дублированием сообщений и порядком доставки.
Какой командой можно посмотреть что-то про память и процессор в Linux? #Rubbles
o Память: free -h, cat /proc/meminfo.
o CPU/процессы: top, htop, cat /proc/cpuinfo, vmstat, mpstat.
В чём основная фишка докера, зачем он нужен? #Rubbles
o Контейнеризация: создаёт изолированное окружение для приложения.
o Упрощает деплой: один и тот же образ работает одинаково в любых средах.
o Лёгкие контейнеры по сравнению с полноценными виртуальными машинами.
Есть Vertica, ClickHouse, а есть Postgres. В чем отличие SELECT’ов к первым двум и к последней? #РСХБ
- Vertica/ClickHouse: колоночные СУБД, оптимизированы под аналитику, быстрые агрегации, специфические функции для больших объёмов данных.
- Postgres: реляционная (строчная) СУБД для транзакционных нагрузок, «общий» SQL, менее оптимальна для тяжёлых аналитических запросов.
Нужно подключиться к БД, тебе понакидали хостов, что можешь сказать про них и к каким будешь подключаться? #РСХБ
- Проверить доступность хоста (ping, telnet, nc).
- Сверить нужный порт, credentials, тип БД.
- Подключиться к тому, где сервис реально доступен по правильным параметрам (хост, порт, пользователь, пароль).
Как проверить доступность хоста? А порта? #РСХБ
- Хост: ping <host>.</host>
- Порт: telnet <host> <port>, nc -vz <host> <port>, либо nmap.</port></host></port></host>
Что делают команды в Linux - ls, grep, touch, ps, top? #РСХБ
- ls: вывод списка файлов/папок.
- grep: поиск текстовых совпадений по шаблону.
- touch: создание пустого файла или обновление даты файла.
- ps: отображение процессов.
- top: интерактивный мониторинг процессов и ресурсов.
Запустили файл python3 file.py, а он не запускается и ошибку не выдает. #РСХБ
- Возможно, скрипт «висит» в ожидании ввода или цикл без вывода.
- Проверить права, содержимое скрипта, логи, добавить отладочные print.
- Убедиться, что нужная версия Python, и нет конфликтов путей.
Типы интерфейсов информационных систем #РСХБ
- Графический (GUI).
- Командная строка (CLI).
- Web-интерфейс (браузер).
- API (REST/SOAP).
- Batch (пакетные задания).
Какие писал документы? #РСХБ
- Техническое задание (ТЗ).
- Архитектурные схемы/описания.
- Руководства пользователя.
- Бизнес-требования/описания процессов.
Предположим, хотим сделать отчетность по остаткам на счетах клиентов. Счета хранятся в одной системе, люди в другой. Опишите по шагам, как будете реализовывать задачу. #РСХБ
- Определить, какие данные и из каких систем нужны (счета, клиенты).
- Настроить процесс извлечения (ETL/ELT): подключиться к обеим системам, взять нужные поля, сопоставить ключи.
- Загрузить в хранилище данных или промежуточную таблицу (ODS/DWH).
- Создать витрину (модель) с остатками и связями «клиент-счёт».
- Построить отчёт (BI-инструмент, dashboard) на этой витрине.
Способы забора инкремента #РСХБ
- По дате обновления (timestamp, updated_at).
- По версии или счётчику (versioning/sequence).
- CDC (change data capture) из транзакционных логов.
- С помощью триггеров (при изменении записываем в отдельную таблицу).
Для каких сущностей подходит инкрементальный вид забора? #РСХБ
- Таблицы, где есть поле для отметки о последнем обновлении.
- СУБД, поддерживающие транзакционные логи (для CDC).
- Системы, где можно настроить триггеры на изменение данных.
Перечислите варианты обработки пропущенных значений # тг
Варианты заполнения пропущенных значений:
- по среднему значению
- по моде
- повторение значения последнего наблюдения
- убираем вовсе все пропуски
- константное значение
- метод линейной регрессии
Как работают схемы работы agile, scrum, kanbam, waterfall