Другое Flashcards

1
Q

В чём преимущества и недостатки Trino? #wildberries

A

Trino is an open-source distributed SQL query engine designed to query large data sets distributed over one or more heterogeneous data sources.

o Преимущества: распределённые запросы к разным источникам данных, высокая скорость, масштабируемость, поддержка большого количества коннекторов.
o Недостатки: не подходит для транзакционной нагрузки, требует тонкой настройки (особенно памяти), зависим от сети между источниками данных.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

В чем преимущество Apache Iceberg? #wildberries

A

o Поддержка ACID-транзакций в «озере данных».
o Атомарные изменения и ведение истории снапшотов (versioning).
o Прозрачное чтение/запись из разных движков (Spark, Trino, Flink и т.д.).
o Ускоренный поиск и инкрементальные сканирования благодаря мощным метаданным.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Что такое UDF и можно ли обойтись без них? #мир

A

o UDF (User Defined Function) — это пользовательская функция, которая расширяет функциональность.
o Можно ли без них? Да, если хватает встроенных функций, но для специфической бизнес-логики UDF часто упрощают разработку.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Iceberg vs Hudi #wildberries

A

o Apache Iceberg: гибкое форматирование таблиц, ACID, удобный менеджмент метаданных, общий стандарт для разных движков.
o Apache Hudi: акцент на near real-time ingestion, есть режим Copy-on-write и Merge-on-read, обеспечивает инкрементальные чтения

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Git расскажи с какими командами знаком и как глубоко знаешь #Астон

A

o Основные команды: init, clone, status, add, commit, pull, push, branch, checkout, merge, rebase, cherry-pick, log, stash.
o Уровень: от базовых операций до разрешения конфликтов, работы с ветками, ребейза, написания хуков.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Опыт работы с DBT? #wildberries

A

o DBT (Data Build Tool): трансформации в DWH на SQL + Jinja.
o Настройка проекта, написание моделей, конфигураций, запуск задач (run, test), работа с версиями в Git.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Очереди сообщений: Поговорили о применении очередей сообщений в архитектуре приложений, их преимуществах и недостатках. #🐺

A

o Преимущества: асинхронная обработка, отвязка сервисов, масштабируемость и отказоустойчивость.
o Недостатки: дополнительная инфраструктура, сложнее отлаживать, возможны проблемы с дублированием сообщений и порядком доставки.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Какой командой можно посмотреть что-то про память и процессор в Linux? #Rubbles

A

o Память: free -h, cat /proc/meminfo.
o CPU/процессы: top, htop, cat /proc/cpuinfo, vmstat, mpstat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

В чём основная фишка докера, зачем он нужен? #Rubbles

A

o Контейнеризация: создаёт изолированное окружение для приложения.
o Упрощает деплой: один и тот же образ работает одинаково в любых средах.
o Лёгкие контейнеры по сравнению с полноценными виртуальными машинами.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Есть Vertica, ClickHouse, а есть Postgres. В чем отличие SELECT’ов к первым двум и к последней? #РСХБ

A
  • Vertica/ClickHouse: колоночные СУБД, оптимизированы под аналитику, быстрые агрегации, специфические функции для больших объёмов данных.
  • Postgres: реляционная (строчная) СУБД для транзакционных нагрузок, «общий» SQL, менее оптимальна для тяжёлых аналитических запросов.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Нужно подключиться к БД, тебе понакидали хостов, что можешь сказать про них и к каким будешь подключаться? #РСХБ

A
  • Проверить доступность хоста (ping, telnet, nc).
  • Сверить нужный порт, credentials, тип БД.
  • Подключиться к тому, где сервис реально доступен по правильным параметрам (хост, порт, пользователь, пароль).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Как проверить доступность хоста? А порта? #РСХБ

A
  • Хост: ping <host>.</host>
  • Порт: telnet <host> <port>, nc -vz <host> <port>, либо nmap.</port></host></port></host>
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Что делают команды в Linux - ls, grep, touch, ps, top? #РСХБ

A
  • ls: вывод списка файлов/папок.
  • grep: поиск текстовых совпадений по шаблону.
  • touch: создание пустого файла или обновление даты файла.
  • ps: отображение процессов.
  • top: интерактивный мониторинг процессов и ресурсов.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Запустили файл python3 file.py, а он не запускается и ошибку не выдает. #РСХБ

A
  • Возможно, скрипт «висит» в ожидании ввода или цикл без вывода.
  • Проверить права, содержимое скрипта, логи, добавить отладочные print.
  • Убедиться, что нужная версия Python, и нет конфликтов путей.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Типы интерфейсов информационных систем #РСХБ

A
  • Графический (GUI).
  • Командная строка (CLI).
  • Web-интерфейс (браузер).
  • API (REST/SOAP).
  • Batch (пакетные задания).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Какие писал документы? #РСХБ

A
  • Техническое задание (ТЗ).
  • Архитектурные схемы/описания.
  • Руководства пользователя.
  • Бизнес-требования/описания процессов.
17
Q

Предположим, хотим сделать отчетность по остаткам на счетах клиентов. Счета хранятся в одной системе, люди в другой. Опишите по шагам, как будете реализовывать задачу. #РСХБ

A
  • Определить, какие данные и из каких систем нужны (счета, клиенты).
  • Настроить процесс извлечения (ETL/ELT): подключиться к обеим системам, взять нужные поля, сопоставить ключи.
  • Загрузить в хранилище данных или промежуточную таблицу (ODS/DWH).
  • Создать витрину (модель) с остатками и связями «клиент-счёт».
  • Построить отчёт (BI-инструмент, dashboard) на этой витрине.
18
Q

Способы забора инкремента #РСХБ

A
  • По дате обновления (timestamp, updated_at).
  • По версии или счётчику (versioning/sequence).
  • CDC (change data capture) из транзакционных логов.
  • С помощью триггеров (при изменении записываем в отдельную таблицу).
19
Q

Для каких сущностей подходит инкрементальный вид забора? #РСХБ

A
  • Таблицы, где есть поле для отметки о последнем обновлении.
  • СУБД, поддерживающие транзакционные логи (для CDC).
  • Системы, где можно настроить триггеры на изменение данных.
20
Q

Перечислите варианты обработки пропущенных значений # тг

A

Варианты заполнения пропущенных значений:
- по среднему значению
- по моде
- повторение значения последнего наблюдения
- убираем вовсе все пропуски
- константное значение
- метод линейной регрессии

21
Q

Как работают схемы работы agile, scrum, kanbam, waterfall