SQL Flashcards

Question

26. На каком слое хранилища данных (DWH) обычно хранятся суррогатные ключи? Теги: #t1

Answer 1

* Staging: ❌ Не создаются. * Integration/Core DWH: ✅ Создаются и управляются. * Data Marts: ✅ Используются для связей, могут быть скрыты от пользователей.

Answer 2

* FRAME определяет набор строк (окно) относительно текущей строки (например, «от начала группы до текущей строки»). * Основные типы: * ROWS (по количеству строк), * RANGE (по логическому диапазону значений) С указанием `order by` окно по умолчанию – `range between unbounded preceding and current row` Без указания `order by` окно по умолчанию – `rows between unbounded preceding and unbounded following` Rows – фиксированное количество строк, range – заданный через условие диапазон.

Answer 3

* Метод соединения (Nested Loop, Hash, Merge). * Используемые индексы. * Оценку количества строк. * Прогноз затрат (cost). * Последовательность операций (таблицы, подзапросы).

Answer 4

При FULL JOIN с использованием Hash Join строится две хеш-таблицы – по одной для каждой входной таблицы. Процесс работы: Строятся хеш-таблицы по обеим таблицам на основе ключевого поля. Выполняется сопоставление (probe) по хеш-значениям для поиска совпадений. Возвращаются: Совпадающие строки из обеих таблиц. Левые строки без совпадений (NULL справа). Правые строки без совпадений (NULL слева). Таким образом, требуется больше памяти, чем при LEFT или INNER JOIN, так как хранятся обе таблицы

Answer 5

Идемпотентность в контексте SQL — это свойство операции, при котором многократное выполнение запроса приводит к тому же результату, что и однократное. Идемпотентные операции: 1. SELECT — всегда идемпотентен (чтение данных без изменения). 2. DELETE FROM table WHERE id = 5 — идемпотентен, так как повторное выполнение не изменит результат (если запись уже удалена). 3. UPDATE table SET status = 'active' WHERE id = 1 — идемпотентен, если значение остаётся неизменным при повторном выполнении. Неидемпотентные операции: 4. INSERT INTO table (id, name) VALUES (1, 'John') — неидемпотентен, если нет проверки дубликатов (может вызвать ошибку или создать дубли). 5. UPDATE table SET counter = counter + 1 — неидемпотентен, так как каждое выполнение изменяет состояние.

Answer 6

* INNER JOIN: возвращаются только совпадающие строки. * LEFT JOIN: все строки из левой таблицы + совпадения из правой. * RIGHT JOIN: все строки из правой таблицы + совпадения из левой. * FULL JOIN: все строки из обеих таблиц (совпавшие и несовпавшие). * CROSS JOIN: декартово произведение (каждая строка левой ко всем строкам правой).

Answer 7

* Каждый дубль при совпадении условием JOIN даёт дополнительную строку в результате (дубли на входе → дубли в выходе).

Answer 8

* Агрегатные (SUM, COUNT, AVG, MIN, MAX): сводят группу строк в одну строку результата, используются с GROUP BY. * Оконные (RANK, ROW_NUMBER, LAG и др.): работают «поверх» набора строк без схлопывания (каждая строка сохраняется, а функция вычисляется с учётом фрейма).

Answer 9

* RANK / DENSE_RANK / ROW_NUMBER — для нумерации строк и определения положения в наборе. * LAG / LEAD — дают доступ к «предыдущей» или «следующей» строке. * FIRST_VALUE / LAST_VALUE — значения из первой/последней строки фрейма. * SUM, AVG, MIN, MAX, COUNT (в оконном контексте) — агрегаты внутри окна.

Answer 10

* Минимум: 100 (если все 10 строк из первой включены в эти 100, и нет «уникальных» строк, кроме этих десяти). * Максимум: 1000 (все одинаковое)

Answer 11

* В INNER JOIN (не влияeт, так как строки без совпадений всё равно отбрасываются).

Answer 12

* Нет, ORDER BY лишь меняет порядок, но не уменьшает/увеличивает число строк.

Answer 13

* SUM/AVG: Игнорируют NULL (не учитывают в сумме или количестве для среднего). * COUNT(col): Считает только ненулевые значения. * COUNT(*): Считает все строки, независимо от NULL.

Answer 14

VIEW (представление) в SQL — это виртуальная таблица, созданная на основе результата выполнения запроса SELECT. Она не хранит данные физически, а отображает данные из одной или нескольких таблиц в удобной форме. Особенности: * Обновляется автоматически при изменении исходных таблиц. * Используется для упрощения сложных запросов, повышения безопасности (ограничение доступа к данным) и улучшения читаемости.

Answer 15

Oracle Database * Хранение: Индексы хранятся в сегментах данных в таблицных пространствах (tablespaces) отдельно от таблиц. * Формат: Обычно используется структура B-tree*. Также поддерживаются Bitmap-индексы и другие типы PostgreSQL * Хранение: Индексы хранятся как отдельные файлы в файловой системе внутри директории данных PostgreSQL. * Расположение: o В каталоге $PGDATA/base//. o Каждый индекс — это отдельный файл с уникальным OID (объектным идентификатором). * Формат: По умолчанию используется B-tree, но поддерживаются и другие типы (GIN, GiST, BRIN, Hash). Microsoft SQL Server * Хранение: Индексы хранятся в файлах данных (.mdf, .ndf) в структурированной форме внутри filegroup. * Формат: o B-tree для кластерных и некластерных индексов. o Кластерные индексы физически определяют порядок хранения строк в таблице.

Answer 16

PostgreSQL: unnest() Oracle: TABLE() MS SQL Server: OPENJSON(), STRING_SPLIT()

Answer 17

* PostgreSQL: pg_column_size(), octet_length() * Oracle: VSIZE(), LENGTHB() * MS SQL Server: DATALENGTH()

Answer 18

* PostgreSQL: INSERT INTO ... VALUES (...), (...), (...), COPY, UNNEST * Oracle: INSERT ALL, INSERT INTO ... SELECT ..., SQL*Loader * MS SQL Server: INSERT INTO ... VALUES (...), (...), (...), BULK INSERT

Answer 19

переработать. Теоретически O(1) при равномерном распределении. На практике возможны коллизии, переполнение, цепочки, поэтому может деградировать до O(n) Коллизии – когда разные ключи хешируются в одно и то же место. Если применяется метод цепочек (separate chaining) – поиск может занять O(k), где k — длина списка в данной ячейке. В худшем случае, когда все элементы попадают в один бакет, сложность становится O(n). При методе открытой адресации (open addressing) поиск может занять до O(n) в худшем случае из-за линейного пробинга или квадратичного пробинга. Переполнение таблицы – если коэффициент загрузки (load factor) становится слишком высоким, увеличивается число коллизий. Это приводит к увеличению длины цепочек в методе цепочек или к более длинному поиску свободного места в открытой адресации. Неравномерная хеш-функция – плохая хеш-функция может сгруппировать ключи в небольшом количестве бакетов, приводя к увеличению количества сравнений.

Answer 20

B-Tree (B-дерево) Hash (Хеш-таблицы) GiST (Generalized Search Tree) GIN (Generalized Inverted Index) BRIN (Block Range Index) Bitmap индексы R-Tree (для пространственных данных) Columnstore XML

Answer 21

* В некоторых СУБД (Oracle, MS SQL) — с помощью Hints (например, HASH JOIN, MERGE JOIN). * В PostgreSQL — выключая/включая соответствующие параметры (enable_hashjoin, enable_mergejoin и т.п.) или используя планировочные настройки.

Answer 22

1. Клиент (способы взаимодействия пользователя с БД) Первый уровень архитектуры PostgreSQL – это клиент, посредством которого человек или приложение взаимодействует с базой данных. Существует множество клиентских инструментов и библиотек, среди которых: psql – консольная утилита, позволяющая напрямую отправлять SQL-запросы на сервер PostgreSQL. pgAdmin – графический интерфейс для управления и администрирования серверов и баз данных PostgreSQL. Приложения на разных языках программирования (Java, Python, C#, Go и т.д.), которые используют драйверы (JDBC, psycopg2, Npgsql, pgx, и т.д.). Когда пользователь или приложение устанавливают соединение с сервером PostgreSQL (обычно по протоколу TCP на порту 5432), начинается создание «сессии». 2. Сессия (установление соединения) После того как клиент обращается к PostgreSQL, Postmaster (главный управляющий процесс, часто называемый просто postgres) принимает запрос на новое соединение. Если аутентификация (пароль, сертификаты и т. п.) проходит успешно, Postmaster создаёт backend-процесс. Этот бекэнд (backend) будет «представителем» конкретного клиента на серверной стороне, обрабатывая запросы и возвращая результаты. Таким образом, для каждого активного подключения к серверу существует отдельный серверный процесс (backend). Этот подход – ключевая особенность архитектуры PostgreSQL (многопроцессная модель). 3. Серверная часть (основная логика PostgreSQL) Когда соединение установлено, все SQL-команды клиента передаются в его backend-процесс, который: Принимает запрос. Анализирует/разбирает (parse) и планирует (plan) запрос (если план не закэширован). Выполняет (execute) запрос, обращаясь к памяти и к файлам на диске. Возвращает результаты клиенту. Backend-процесс (сессия) Каждый backend ведёт транзакции, обрабатывает операторы SELECT, INSERT, UPDATE и пр., а при необходимости взаимодействует с общей и локальной памятью, а также с фоновыми процессами. Фоновые процессы (Background processes) Помимо backend-процессов, PostgreSQL запускает ряд фоновых (background) процессов, которые обслуживают систему в целом. Основные из них: WAL Writer: записывает данные из буфера WAL (Write-Ahead Logging) на диск (в файлы WAL) для обеспечения надёжности транзакций. Background Writer: помогает сбрасывать «грязные» (изменённые) страницы из памяти на диск проактивно, разгружая моменты интенсивной записи. Checkpointer: периодически устанавливает «точку сохранения» (checkpoint) в журнале, сбрасывая изменённые страницы на диск и гарантируя, что в случае сбоя система начнёт восстановление с этой точки. Autovacuum: автоматически запускает процесс VACUUM и ANALYZE для удаления устаревших версий строк (из-за MVCC) и сбора статистики оптимизатора. Logger (syslogger): записывает сообщения журнала (логов) в файлы. И другие (stats collector, logical replication launcher и т. д.), в зависимости от конфигурации. 4. Память: Shared Memory и Local Memory Shared Memory (общая память) Это выделенная при запуске сервера область памяти, к которой могут обращаться все процессы PostgreSQL (включая backend’ы и фоновые процессы). В ней хранятся: Shared Buffers: кэш для страниц таблиц и индексов, загружаемых с диска. Позволяет ускорять повторные чтения и записи. WAL Buffers: буфер для журнала транзакций (WAL), куда сначала складываются все изменения данных, прежде чем будут зафиксированы на диске. Lock Table / Semaфор: структуры для организации межпроцессной синхронизации (блокировки, семафоры и т.д.). Объём shared_buffers обычно один из важнейших параметров настройки производительности PostgreSQL. Local Memory (локальная память) Помимо общей памяти, у каждого backend-процесса есть своя локальная память, где хранятся: work_mem: память под сортировки, хеш-операции (если не хватает, идёт на диск) maintenance_work_mem: VACUUM, CREATE INDEX и т. п. temp_buffers: для временных таблиц в конкретной сессии 5. Хранилище данных Понятие кластера В PostgreSQL «кластером» называют совокупность всех баз данных, обслуживаемых одним серверным инстансом (то есть одним запущенным экземпляром postgres). При инициализации (командой initdb) в файловой системе создаётся каталог, часто именуемый «Data Directory» или PGDATA, в котором и хранится всё необходимое для работы кластера: Файлы конфигурации. Подкаталоги с данными. Файлы журналов (WAL) и т. д. Важно: Один кластер PostgreSQL может содержать в себе несколько баз данных. Структура каталога PGDATA и что в нём хранится Чаще всего в каталоге PGDATA мы увидим: postgresql.conf – основной конфигурационный файл, где задаются параметры (shared_buffers, wal_level, listen_addresses и т. д.). pg_hba.conf – файл настроек аутентификации и сетевого доступа (Host-Based Authentication). pg_ident.conf – сопоставления системных и PostgreSQL-ролей (при необходимости). base/ – подкаталог со служебными поддиректориями, где находятся файлы «по умолчанию» используемого табличного пространства. global/ – информация о самом кластере, файлах контрольной информации, системных каталогах. pg_wal/ (ранее pg_xlog) – журнал транзакций (WAL файлы). pg_stat/, pg_stat_tmp/, pg_subtrans/ и др. – служебные подкаталоги для статистики, субтранзакций и прочего. pg_tblspc/ – символические ссылки на другие табличные пространства (если они используются). Табличные пространства (Tablespaces) В PostgreSQL табличное пространство – это логический объект, указывающий на конкретную директорию в файловой системе, где хранятся файлы базы/таблиц/индексов. По умолчанию все объекты размещаются в пространстве pg_default (физически это поддиректория внутри PGDATA), однако администратор может создавать собственные табличные пространства на разных дисках/разделах для распределения нагрузки или оптимизации. 6. Понятие базы данных и схемы в PostgreSQL База данных Логическая единица В PostgreSQL одна база данных — это независимый набор схем (schemas) и объектов (таблицы, индексы и т. д.), обособленный от других баз в том же кластере. Размещение Физически каждая база данных хранится в подкаталоге base/ внутри каталога данных (PGDATA). Несколько баз в одном кластере В каждом кластере PostgreSQL по дефолту есть postgres, template1, template0. Внутри одного кластера может быть несколько баз данных (databases). Каждая БД хранится в отдельных физических файлах, но все они управляются единым постмастером и общими конфигурациями. Схема (Schema) В каждой базе данных есть набор схем (по умолчанию создаётся схема public). Схема – это логическая область имён для объектов: таблиц, представлений, функций, индексов, последовательностей и т. д. Иными словами, внутри одной базы может существовать много схем, чтобы группировать объекты по логическим частям. Основные объекты внутри схемы Таблицы и Индексы Представления (Views) Функции (Functions) / Хранимые процедуры Синонимы, последовательности (Sequences) Триггеры, Ограничения и т. п. 7. Каталог PostgreSQL (System Catalog) PostgreSQL хранит информацию о самих объектах базы данных (таблицах, столбцах, индексах и т. д.) в системном каталоге. Это набор служебных таблиц и представлений (например, pg_class, pg_attribute, pg_type, pg_index и многие другие). Любая DDL-операция (CREATE, DROP, ALTER) меняет записи в системном каталоге, а также создаёт/удаляет соответствующие файлы или структуры. Работа с системным каталогом обычно скрыта от пользователя – для получения метаданных можно использовать служебные команды (например, \d в psql) или вьюхи-обёртки (information_schema, pg_catalog.*). 8. Ключевые файлы конфигурации В каталоге PGDATA находится несколько основных конфигурационных файлов: postgresql.conf – глобальные настройки сервера (порты, пути, лимиты памяти и т. д.). pg_hba.conf – настройки клиентской аутентификации и доступа по сети (определяет, кто и откуда может подключаться). pg_ident.conf – сопоставление системных пользователей и ролей PostgreSQL (используется реже). Изменения в postgresql.conf могут потребовать перезапуска или посыла сигнала конфигурации (SIGHUP). Некоторые параметры (например, размеры памяти) меняются только при перезапуске. 9. Архитектурная схема (как всё работает вместе) Подведём итог, описывая общий «поток» работы: Клиент (psql, pgAdmin или приложение) подключается к серверу по TCP (порт 5432). Postmaster (главный управляющий процесс) аутентифицирует соединение и порождает backend-процесс. Backend обслуживает запросы данного клиента: анализирует SQL, получает или модифицирует данные. Для выполнения операций, backend пользуется: Shared Memory (где кэшируются данные и хранятся блоки WAL), Local Memory (локальные структуры для плана запроса, временных данных). Записи о всех изменениях сначала попадают в WAL (pg_wal). Параллельно фоновые процессы (WAL Writer, Checkpointer, Background Writer) обеспечивают надёжную и эффективную запись на диск. Данные хранятся внутри каталога PGDATA, который представляет собой кластер PostgreSQL. В нём есть поддиректории для баз, служебных файлов и сам журнал WAL. При желании администратор может использовать табличные пространства, ссылаясь на внешние каталоги. Внутри кластера находятся несколько баз данных, каждая из которых может содержать несколько схем, а внутри схем – таблицы, индексы, функции и прочие объекты. Все метаданные об этих объектах хранятся в системном каталоге (pg_catalog). Autovacuum периодически «убирает» (убивает устаревшие версии строк) и собирает статистику, что важно для многоверсионной природы PostgreSQL (MVCC). Таким образом, архитектура PostgreSQL состоит из чёткого разделения: Клиентский уровень (где пользователь/приложение отправляет запросы). Серверный уровень (postmaster, процессы-бекэнды и фоновые процессы). Область общей памяти (Shared Memory) и локальной памяти (Local Memory). Физическое хранилище (директория PGDATA, табличные пространства). Всё это вместе образует надёжную и расширяемую систему управления базами данных, обеспечивая транзакционность (ACID), многоверсионность (MVCC) и достаточно гибкие возможности администрирования. Коротко о главном Клиент устанавливает соединение → запускается backend-процесс. Backend обрабатывает запросы, используя Shared Memory (кэши, WAL) и свою Local Memory. Фоновые процессы (Background Writer, WAL Writer, Autovacuum и др.) поддерживают систему «в форме». Все данные кластера PostgreSQL физически размещаются в PGDATA, состоящей из конфигурационных файлов, подкаталогов с базами, журналом транзакций (pg_wal) и системных служебных структур. Внутри одного кластера – несколько баз данных, каждая из них может иметь множество схем. Системный каталог (pg_catalog) хранит информацию обо всех объектах. Эта многоуровневая архитектура и есть «основа» PostgreSQL.

Answer 23

1. Клиент (способы взаимодействия пользователя с БД) Пользователи и приложения могут взаимодействовать с Oracle Database через различные инструменты и библиотеки: SQL*Plus – консольная утилита для отправки SQL и PL/SQL команд. SQL Developer, Toad, PL/SQL Developer и др. – графические клиенты для администрирования и разработки. Приложения (Java, .NET, Python и т.п.) используют соответствующие драйверы (JDBC, ODP.NET, cx_Oracle и др.). Для установления связи используется сетевой протокол Oracle Net (ранее назывался SQL*Net), который обычно работает через «листенер» (Listener) – отдельную службу, принимающую подключения. 2. Сессия (установление соединения) Когда клиентское приложение или утилита пытается подключиться к базе данных: Listener (процесс tnslsnr) на стороне сервера принимает запрос на подключение. Если аутентификация (логин/пароль/сертификаты и т. п.) проходит успешно, Listener либо: Создаёт или перенаправляет к dedicated server process (в режиме «один серверный процесс на одно подключение»), Или подключает клиента к shared server process через диспетчеры (Dispatcher) — если настроен режим Shared Server. Таким образом, формируется сессия. С этого момента приложение может отправлять SQL/PLSQL-запросы, а серверный процесс будет их обрабатывать. 3. Серверная часть (основная логика Oracle) Server Process (Dedicated или Shared) Server Process (или server-side process) – это процесс на стороне сервера, который фактически выполняет от имени клиента: парсинг SQL-запросов, выполнение команд (SELECT, INSERT, UPDATE и т. п.), взаимодействие с памятью (SGA/PGA) и с файлами данных. В режиме Dedicated для каждой пользовательской сессии обычно создаётся свой процесс. В режиме Shared (Shared Server Architecture) несколько пользовательских сеансов обслуживаются пулом общих серверных процессов, а «Dispatcher»-процессы распределяют запросы клиентов между этими серверами. Фоновые процессы (Background Processes) Помимо основных серверных процессов, Oracle запускает целый ряд фоновых (background) процессов. Ключевые из них: DBWn (Database Writer) – записывает изменённые (dirty) блоки из буфера данных (Buffer Cache) на диск (в datafiles). LGWR (Log Writer) – записывает записи изменений (redo entries) из Redo Log Buffer в файлы Redo Log. CKPT (Checkpoint) – фиксирует контрольные точки (checkpoint) в контрольных файлах (Control Files) и инициирует запись метаданных о прогрессе. SMON (System Monitor) – восстанавливает базу (instance recovery) после сбоев, очищает временные сегменты. PMON (Process Monitor) – следит за состоянием пользовательских процессов, освобождает «зависшие» ресурсы и транзакции, если сессия внезапно оборвалась. ARCn (Archiver) – копирует заполненные Redo Log-файлы в архивные логи (archive logs) при использовании режима ARCHIVELOG. RECO, MMAN, MMNL, MMON и другие – служебные процессы, отвечающие за распределение памяти, мониторинг, управление кластером (RAC) и т. д. 4. Память: SGA и PGA SGA (System Global Area) SGA – это общая область памяти, доступная всем фоновым и серверным процессам, запущенным в рамках одного экземпляра (instance) Oracle. Включает несколько ключевых подпулов: Database Buffer Cache: кэширует блоки данных, считанные с диска (таблицы, индексы и т.д.). Shared Pool: хранит кэш скомпилированных запросов (кэш SQL/PLSQL), библиотечные кэши и метаданные. Redo Log Buffer: буферизирует записи изменений (redo entries) перед их записью в файлы Redo Log. Large Pool, Java Pool, Streams Pool (опционально): используются для определённых операций (бэкапы RMAN, параллельные запросы, Java-объекты, репликация). Размеры SGA задаются параметрами конфигурации Oracle (как вручную, так и с помощью Automatic Memory Management). PGA (Program Global Area) PGA – индивидуальная область памяти для каждого серверного или фонового процесса, в которой хранятся: Данныe для сортировки, хеш-соединений, буферизации курсоров. Локальные стеки вызовов PL/SQL-функций и т. д. При включённом Automatic PGA Management сервер Oracle динамически выделяет/освобождает память в PGA в зависимости от нагрузки. 5. Хранилище данных Instance (экземпляр) – совокупность всех процессов Oracle + SGA (общая память). Database (база данных) – физические файлы на диске (datafiles, control files, redo log files). Когда мы «поднимаем» Oracle, мы монтируем (mount) и открываем (open) базу данных, тем самым запуская instance и подключая её к набору физических файлов. В случае RAC (Real Application Clusters) несколько инстансов (каждый со своей SGA и процессами) могут обслуживать одну физическую базу данных. База данных В Oracle Database понятие «база данных» (Database) отличается от некоторых других СУБД (например, PostgreSQL или MS SQL Server). В Oracle база данных — это физическое хранилище данных, включающее файлы на диске, а также связанные с ними контрольные и журнальные файлы. В классическом Oracle Database (до версии 12c) внутри одного инстанса может быть только одна база данных (Database). В отличие от PostgreSQL, где один сервер (PostgreSQL Instance) может содержать много баз данных, в Oracle всё хранится в единой базе, но организовано с помощью схем (Schemas). Instance и Database: два ключевых понятия Что изменилось в Oracle 12c+? (Контейнерная архитектура CDB/PDB) Начиная с Oracle 12c, в Oracle появилась многобазовая архитектура (Multitenant Architecture), где один инстанс может содержать несколько баз данных (PDBs — Pluggable Databases). Теперь у нас есть Container Database (CDB) – основная база, которая содержит Pluggable Databases (PDB). PDB – это отдельная логическая база данных, похожая на базу в PostgreSQL. Внутри PDB могут быть свои схемы, и они полностью изолированы. Ранее схожая функциональность достигалась через Schemas, но теперь PDB позволяет более гибко разделять данные, например, для SaaS-систем. Основные файлы Datafiles (файлы данных) – хранят собственно таблицы, индексы, другие объекты. Redo Log Files – журналы изменений (redo logs), куда LGWR пишет все операции, необходимые для восстановления. Control Files – содержат метаданные о структуре базы данных: список datafiles, логи, текущее состояние SCN (System Change Number) и т. д. Tempfiles – для временных сегментов (операции сортировки, хеш-соединения). Archived Redo Logs – архивированные логи изменений, используемые для восстановления в режиме ARCHIVELOG. Табличные пространства (Tablespaces) Логический уровень хранения в Oracle – это табличное пространство (tablespace). Каждое табличное пространство ссылается на один или несколько datafiles. Основные из них: SYSTEM и SYSAUX – системные табличные пространства, где лежат служебные объекты (каталоги, метаданные). UNDOTBS – табличное пространство для UNDO-сегментов (хранит старые версии данных для реализации транзакционной целостности и MVCC). TEMP – для временных данных (сортировки). USERS, DATA, INDEX (или любые другие пользовательские) – рабочие схемы для таблиц и индексов. 6. Организация схемы, пользователей и объектов В Oracle принципиально каждый пользователь (User) является и схемой. То есть создание пользователя USER_A означает появление схемы USER_A, в которой могут находиться таблицы, индексы, процедуры и другие объекты. Основные системные пользователи: SYS – «суперадмин», владелец базовых системных объектов. SYSTEM – тоже админ, но с чуть более ограниченными правами, чем SYS. Объекты внутри схемы Таблицы и Индексы, Представления (Views), Синонимы (Synonyms), Пакеты (Packages), Хранимые процедуры (Stored Procedures), Функции, Последовательности (Sequences), Триггеры и т.д. 7. Системный каталог (Data Dictionary) В Oracle информация обо всех объектах базы данных (таблицах, индексах, правах доступа и т. д.) хранится в системных таблицах (Data Dictionary). Для пользователей предусмотрены представления (views) над этим Data Dictionary: USER_* – объекты, принадлежащие текущему пользователю. ALL_* – объекты, доступные текущему пользователю (в его схеме и в чужих). DBA_* – объекты, видимые администратору (вся база данных целиком). Например, DBA_TABLES, ALL_TABLES, USER_TABLES и т. п. – представления, позволяющие увидеть списки таблиц. 8. Ключевые файлы конфигурации Основные конфигурационные файлы Oracle находятся вне самих datafiles и располагаются в «Oracle Home» (директории установки). Некоторые из ключевых: Initialization Parameter File: init.ora (текстовый вариант) или spfile.ora (серверная бинарная версия). Здесь задаются параметры SGA, PGA, имена баз, пути к файлам и пр. listener.ora – определяет, как работает Listener (порт, протокол, база и прочее). tnsnames.ora – позволяет клиентам (и иногда самому серверу) находить нужные сервера БД по «tns-именам». sqlnet.ora – общие настройки Oracle Net, шифрования, параметров сети. 9. Общая архитектурная схема (как всё работает вместе) Клиент (SQL*Plus, SQL Developer или приложение) запрашивает соединение, используя Oracle Net и «tnsnames.ora». Listener на стороне сервера принимает подключение. Если аутентификация успешна, создаётся Session, которую обслуживает Dedicated Server Process либо Shared Server через Dispatcher. Server Process взаимодействует с SGA, где хранится буфер кэш данных (Buffer Cache), кэш SQL запросов (Shared Pool), а записи изменений попадают в Redo Log Buffer. При выполнении SQL-операций, серверный процесс читает/записывает нужные блоки данных. Изменённые блоки сначала лежат в Buffer Cache, а записи redo «ждут» в Redo Log Buffer. LGWR (Log Writer) периодически (или при коммите) сбрасывает redo в Redo Log Files. DBWn (Database Writer) в нужный момент записывает сами блоки в Datafiles. SMON и PMON поддерживают целостность, очищают временные объекты, восстанавливают после сбоев. CKPT (Checkpoint) отмечает контрольные точки в Control Files, фиксируя метаданные о прогрессе записи. ARCn (Archiver) при включённом ARCHIVELOG-моде копирует устаревшие Redo Logs в архив. Все физические файлы (datafiles, control files, redo logs, tempfiles) вместе образуют Database, а совокупность процессов и памяти (SGA/PGA) – это Instance. Внутри базы мы имеем Табличные пространства (SYSTEM, SYSAUX, USERS и др.), а в них — схемы (каждая схему владельца-пользователя). Data Dictionary (системные таблицы) содержит информацию обо всех объектах, правах и состояниях внутри базы. Короткое резюме Клиент → запрашивает соединение у Listener. Listener → формирует сеанс (Session) и «привязывает» его к Dedicated или Shared серверному процессу. Server Process → выполняет SQL-запросы, используя SGA (общий кэш, журнал, метаданные) и свою собственную PGA (локальные структуры, сортировки). Фоновые процессы (DBWn, LGWR, CKPT, SMON, PMON, ARCn и пр.) обеспечивают надёжность, поддержку транзакций, восстановление, ведение журнала и архивирование. Instance (процессы + память) и Database (файлы) вместе образуют работающую систему. Табличные пространства содержат Datafiles, где фактически лежат данные. У каждого пользователя (User) есть собственная схема, которая может содержать таблицы, индексы, представления и другие объекты. Системный каталог (Data Dictionary) аккумулирует метаданные о всех объектах, лежащих в базе. Эта многоуровневая архитектура Oracle даёт высокую производительность, гибкость (RAC, Data Guard) и богатый функционал для корпоративных сценариев.

Answer 24

1. Клиент (способы взаимодействия) Пользователи и приложения работают с SQL Server через разные инструменты и драйверы: SQL Server Management Studio (SSMS) – основная консольная/графическая среда администрирования от Microsoft. sqlcmd – консольная утилита, позволяющая запускать запросы T-SQL и скрипты. Различные GUI-клиенты и средства разработки (Visual Studio, Azure Data Studio, сторонние утилиты). Драйверы для языков .NET, Java (JDBC), Python (pyodbc, pymssql), PHP (SQLSRV) и т. д. По умолчанию соединения идут по TCP-порту 1433, хотя это может быть перенастроено. 2. Сессия (установление соединения) Когда клиентская программа (например, SSMS) пытается подключиться к SQL Server: SQL Server (работающий как служба sqlservr.exe на Windows или процесс/служба в Linux) слушает соответствующий порт (обычно 1433) или именованный канал (pipes). Если аутентификация (Windows Authentication или SQL Server Authentication) проходит успешно, создаётся сессия (Session). Далее в рамках этой сессии клиент получает «логический канал» для отправки запросов T-SQL и получения результатов. 3. Серверная часть (ядро SQL Server и планировщик) В отличие от PostgreSQL и Oracle, где создаются отдельные процессы (или выделяются отдельные процессы для сеансов), в Microsoft SQL Server вся логика выполняется внутри одного основного процесса/службы – sqlservr.exe. Этот процесс многопоточен и включает: SQL OS (внутренний планировщик и диспетчер ресурсов) Отвечает за управление потоками, планирование задач, синхронизацию, распределение памяти и операции ввода-вывода (I/O). Это упрощённая «микро-ОС», оптимизированная под нагрузку СУБД. Query Processor (процессор запросов) Принимает T-SQL запросы, выполняет разбор (парсинг) и оптимизацию (построение плана), а затем отдаёт на выполнение операторам (physical operators). Storage Engine (движок хранения) Управляет чтением и записью данных на диск, доступом к журналу транзакций, поддержкой индексов и страниц данных. Фактически, когда клиент инициирует SQL-запрос, внутри sqlservr.exe поднимается (или берётся из пула) один из рабочих потоков, который от имени этой сессии выполняет запрос, обращается к памяти, кэшам, журналам и файлам базы данных. 4. Память в SQL Server Buffer Pool (основной кэш) Основная часть памяти называется Buffer Pool. Он хранит закэшированные страницы данных (по 8 КБ), а также некоторые другие структуры. При чтении таблицы или индекса нужные страницы подгружаются в Buffer Pool, при обновлениях изменённые («грязные») страницы вначале остаются в кэше, а на диск сбрасываются фоновым процессом. Plan Cache (процедурный кэш) Процессор запросов кэширует скомпилированные планы (Execution Plans) в отдельном сегменте памяти, который тоже логически находится в Buffer Pool (но часто называют Plan Cache). При повторном выполнении того же запроса SQL Server может повторно использовать уже готовый план. Рабочие области (Work/Temp areas) Для временных операций (сортировки, хеш-соединения, создание индексов) SQL Server использует как оперативную память (выделяемую внутри общего пула), так и tempdb – специальную базу данных для временных объектов. 5. Хранилище данных SQL Server физически хранит данные и журналы транзакций в разных файлах: Основные файлы данных (MDF) – основной файл, в котором содержатся объекты базы данных (таблицы, индексы и пр.). Вторичные файлы данных (NDF) – могут использоваться для распределения хранения (например, на другие диски) и для больших баз. Файлы журнала транзакций (LDF) – тут хранятся все операции (WAL), позволяющие в случае сбоя восстановить целостное состояние данных. tempdb Отдельная специальная база, которая автоматически пересоздаётся при каждом перезапуске SQL Server. Используется для хранения временных таблиц, объектов, сортировок (spills), версий строк при Snapshot Isolation и т.д. 6. Понятие базы данных и схемы в Microsoft SQL Server SQL Server Instance – это один запущенный экземпляр (служба sqlservr.exe), который может содержать множество баз данных (Databases). Каждая база данных физически представлена набором файлов (mdf/ndf/ldf). База данных В Microsoft SQL Server база данных (Database) – это изолированная единица хранения данных, содержащая схемы, таблицы, индексы, процедуры и другие объекты. В отличие от PostgreSQL, где база данных – это часть кластера, в SQL Server каждая база данных существует независимо и управляется сервером. В рамках одной инсталляции SQL Server есть системные базы (master, model, msdb, tempdb) и пользовательские (созданные администратором или приложениями). master хранит важную информацию о конфигурации сервера, списке баз, логинах. msdb используется SQL Server Agent для расписания задач (jobs), хранения историй бэкапов и т. д. model – «шаблон» для вновь создаваемых баз. tempdb – временные объекты. Как устроены табличные пространства в SQL Server? (И почему их нет как в Oracle и PostgreSQL) В Microsoft SQL Server нет явного понятия "табличного пространства", как в Oracle и PostgreSQL. Вместо этого SQL Server использует файловые группы (Filegroups), которые выполняют схожую функцию. 💡 Главное отличие: В PostgreSQL и Oracle табличные пространства (Tablespaces) используются для хранения данных в определённых местах файловой системы. В SQL Server вместо этого есть файлы данных (MDF/NDF), организованные в файловые группы (Filegroups). Схема (Schema) Внутри базы данных объекты (таблицы, представления, процедуры) организованы по схемам. По умолчанию многие объекты создаются в схеме dbo (database owner). Схемы позволяют логически группировать объекты и управлять правами доступа. 7. Системный каталог (System Catalog) SQL Server хранит метаданные обо всех объектах (таблицах, столбцах, индексах, связях, правах) в системных таблицах. Однако для удобства администратора и разработчиков предоставляются служебные базы и представления: master – хранит «глобальные» сведения о базах и логинах. Resource database (скрыта) – содержит «встроенные» системные объекты. Системные представления в каждой базе – sys.tables, sys.columns, sys.indexes и т. д. INFORMATION_SCHEMA – стандартные представления для получения метаданных о таблицах, столбцах, ограничениях. 8. Ключевые файлы конфигурации В SQL Server основные настройки обычно хранятся внутри самого сервера (в системных таблицах master), а не в текстовых конфигурационных файлах. Часть параметров задаются при установке или через SQL Server Configuration Manager. Тем не менее в среде Windows/Linux могут быть: SQL Server Configuration Manager (Windows) – управляет службами, протоколами, портами, наладками сети. Registry (Windows) или конфигурационные файлы (Linux) – где могут храниться пути к папкам, некоторые параметры. Error Logs – логи при запуске/работе SQL Server, можно найти в директории, заданной настройками (по умолчанию LOG папка в каталоге установки). 9. Общая архитектурная схема (как всё работает вместе) Клиент (SSMS, sqlcmd или приложение) открывает соединение (TCP 1433 или Named Pipes). SQL Server (процесс sqlservr.exe) аутентифицирует пользователя (через Windows Auth или SQL Auth) и создаёт сессию. Все запросы T-SQL в рамках сессии попадают к Query Processor, который парсит и оптимизирует запрос, используя метаданные в системном каталоге (sys.* или INFORMATION_SCHEMA) и кэш планов (Plan Cache). Запросы к данным обрабатываются Storage Engine, который обращается к страницам (8 КБ) в Buffer Pool. При изменении данных: Все операции логируются в Transaction Log (LDF). «Грязные» страницы (dirty pages) в Buffer Pool будут позже сброшены на диск процессом Lazy Writer или контрольной точкой (Checkpoint). Для временных объектов (темп-таблицы, сортировки, версии строк при Snapshot Isolation) используется база tempdb. Системные базы (master, model, msdb, tempdb) обеспечивают инфраструктуру для хранения конфигурации, заданий (jobs), историй бэкапов, временных таблиц и т. д. Пользовательские базы данных (каждая со своими *.mdf, *.ndf, *.ldf файлами) содержат объекты, распределённые по схемам. SQL OS внутри процесса sqlservr.exe управляет потоками, взаимными блокировками (latches, locks), очередями заданий, распределением CPU, планированием контекстных переключений (cooperative scheduling). Таким образом, вся логика – от сетевого приёма соединения до операций чтения/записи – происходит внутри одного многопоточного процесса (службы). Это даёт тесную интеграцию с Windows (а теперь и с Linux) и позволяет SQL Server оптимизировать работу с системными ресурсами (память, процессоры, диски) под типичные нагрузки СУБД. Короткое резюме Клиент подключается → создаётся сессия в рамках единого процесса sqlservr.exe. Query Processor анализирует запрос, использует Plan Cache и метаданные (системный каталог) для генерации/выбора плана выполнения. Storage Engine оперирует данными, используя Buffer Pool и журнал транзакций (LDF). Фоновые и внутренние механизмы (Lazy Writer, Checkpoints, Log Writer) работают в отдельных потоках внутри того же процесса. Данные хранятся в файлах MDF/NDF (основные/вторичные) и LDF (журнал), отдельно есть база tempdb для временных операций. База данных внутри SQL Server содержит схемы (dbo, произвольные) и различные объекты (таблицы, индексы, функции, представления). Системные базы (master, msdb, model, tempdb) обеспечивают жизнедеятельность всего сервера. Так устроена многопоточная архитектура Microsoft SQL Server, которая традиционно работает на Windows, но начиная с SQL Server 2017 официально поддерживает Linux и контейнеры Docker.

Answer 25

Архитектура PostgreSQL Многопроцессная модель: для каждого подключения создаётся отдельный процесс (backend). Есть главный процесс (Postmaster) и фоновые процессы (WAL Writer, Checkpointer, Autovacuum и др.). Общая память (Shared Memory) + локальная память каждого backend’а. Как это работает в PostgreSQL (многопроцессная модель)? 📌 Главное правило PostgreSQL: Каждый новый клиент создаёт отдельный процесс (а процесс занимает целое ядро или часть его времени). Процесс не делится на потоки – он полностью использует ресурсы ядра. Oracle Многопоточная архитектура: один «инстанс» (SGA + фоновые процессы: DBWn, LGWR, SMON и др.). Dedicated или Shared Server-процессы для клиентских сессий. Поддержка RAC (Real Application Clusters) для распределённой работы нескольких инстансов с одной БД. Как это работает в Oracle (многопоточная модель)? 📌 Главное правило Oracle: Oracle использует один общий процесс, внутри которого клиенты запускают потоки. Потоки делят ресурсы процессора эффективнее, чем процессы PostgreSQL. Microsoft SQL Server Монолитный многопоточный процесс (служба sqlservr.exe): внутри – «SQL OS», Query Processor, Storage Engine. Нет отдельных процессов для каждого подключения; для каждой сессии задействуются потоки из общего пула. Глубокая интеграция с Windows, теперь доступен и на Linux/в Docker. Как это работает в SQL Server (монолитный многопоточный процесс)? 📌 Главное правило SQL Server: В SQL Server всё работает внутри одного процесса sqlservr.exe. Клиенты не создают новые процессы, а просто получают потоки из общей очереди. SQL Server сам управляет потоками и перераспределяет задачи по загруженности. Хранение и транзакции PostgreSQL Табличные файлы в каталоге кластера, журнал WAL в pg_wal. MVCC с сохранением старых версий строк до VACUUM. Конфигурационные файлы (postgresql.conf, pg_hba.conf) в каталоге PGDATA. Oracle Datafiles, Redo Log Files, Control Files, Undo-сегменты для старых версий строк. Мощный механизм Flashback (восстановление данных поUndo). Параметры инстанса в init.ora/spfile.ora; Listener управляет входящими подключениями. MS SQL Server MDF/NDF (данные) + LDF (лог транзакций). По умолчанию блокировки (READ COMMITTED), возможно включить Snapshot Isolation (старые версии в tempdb). Конфигурация чаще в системных таблицах master, настройки сети – через SQL Server Configuration Manager. Сценарии применения (краткий вывод) PostgreSQL Оптимален для проектов, где важны открытость, гибкость, отсутствие лицензионных затрат. Хорош для разнообразных сценариев (OLTP, аналитика, JSON, GIS через PostGIS). Простая в освоении архитектура, активное сообщество. Oracle Корпоративная БД для крупных систем с высокими требованиями к масштабированию, отказоустойчивости и производительности. Расширенные возможности (RAC, Data Guard, Flashback, Partitioning), но высокая стоимость и сложность. Принята во многих крупных организациях как стандарт. MS SQL Server Удобен в экосистеме Microsoft (Windows AD, .NET, Azure). Сильные инструменты администрирования (SSMS, BI-пакет), богатые возможности по аналитике и отчетам. Коммерческий продукт; сейчас есть кроссплатформенность (Linux, Docker), что расширяет области применения.

Answer 26

DELETE – удаляет строки из таблицы с возможностью фильтрации (WHERE), но оставляет структуру и автоинкремент. TRUNCATE – полностью очищает таблицу, удаляя все строки, но оставляет структуру. Быстрее, чем DELETE, так как не фиксирует удаление построчно. DROP – удаляет таблицу (или базу данных) полностью, включая структуру и данные. Truncate это DDL операция (нужны соотв. права), выполняется мгновенно, т.к. не оставляет записей в журнале операций БД. В большинстве баз данных не откатывается в случае неуспешной транзакции. Delete это DML операция, выполняется медленнее, т.к. для каждой удалённой строки оставляет по записи в журнале БД. В случае удаления построчно в big data системах может быть очень дорогой и медленной, поэтому её заменяют insert-only строчкой с флагом is_deleted или перезаписывают партицию целиком.

Answer 27

Классические категории типов данных (пример на PostgreSQL, но в других СУБД будет похоже): Числовые Целые: SMALLINT, INT (или INTEGER), BIGINT С плавающей точкой: FLOAT, REAL, DOUBLE PRECISION, DECIMAL(p, s) / NUMERIC(p, s) Строковые CHAR(n) (фиксированная длина) VARCHAR(n) (переменная длина, с ограничением) TEXT (переменная длина, без явного ограничения) Дата и время DATE TIME [WITHOUT TIME ZONE / WITH TIME ZONE] TIMESTAMP [WITHOUT TIME ZONE / WITH TIME ZONE] INTERVAL (в PostgreSQL) Логический тип BOOLEAN (в некоторых СУБД может отсутствовать, тогда используют BIT или TINYINT(1) в MySQL) Бинарные / двоичные (varbinary) – например, BYTEA в PostgreSQL, BLOB в Oracle/MySQL и т.д. В зависимости от СУБД могут быть ещё и дополнительные специализированные типы (JSON, GIS-тип, XML и пр.).

Answer 28

«Нестандартные» или специфичные для конкретных движков (или для SQL-стандарта, но редко используемые) могут включать: JSON / JSONB (PostgreSQL поддерживает JSON и JSONB, MySQL – JSON, Oracle – JSON CLOB/BLOB и др.) Массивы (PostgreSQL позволяет integer[], text[] и т.д.) HSTORE (специфический тип ключ-значение в PostgreSQL) GEOMETRY / GEOGRAPHY (пространственные данные: PostGIS расширение для PostgreSQL, Spatial Extensions для MySQL, Oracle Spatial и т.д.) XML (некоторые СУБД имеют нативную поддержку XML-типов) UUID (PostgreSQL, MySQL 8.0+ – тоже поддержка uuid или binary(16) под uuid)

Answer 29

CHAR(n): Фиксированная длина в n символов. Если фактическая длина строки меньше n, она будет дополняться пробелами до n. Используется редко (например, для кодов определённой длины), так как зачастую это менее эффективно по памяти и может приводить к неожиданностям с пробелами. VARCHAR(n): Переменная длина, ограниченная максимумом n. Хранит ровно столько символов, сколько занимает строка, плюс небольшой overhead на хранение длины. Это наиболее распространённый способ хранить «обычные» строки, где есть верхний лимит. TEXT (или CLOB/LONGTEXT в разных СУБД): Переменная длина без (или с очень большим) явным ограничением. Удобен для хранения длинных текстовых полей (описания, статьи, логи и пр.), когда жёсткий лимит не нужен. С точки зрения производительности в современных СУБД (например, PostgreSQL) разница между VARCHAR(n) и TEXT обычно минимальна, но формально VARCHAR(n) даёт возможность валидировать длину. В Oracle и некоторых других движках для больших текстовых полей обычно используют тип CLOB.

Answer 30

В разных контекстах термин “spill” может использоваться по-разному. Чаще всего в разговоре о СУБД (особенно при анализе планов выполнения запросов) “spill” означает, что при выполнении определённой операции (например, сортировки или хэш-джойна) объём данных не помещается в памяти, и поэтому промежуточные результаты выгружаются («spilled») во временные файлы на диск. Это может сильно замедлять запросы, поскольку чтение/запись на диск на порядок медленнее операций в памяти. «Spill таблицы» (или «spill to temp tables») – временные структуры/файлы, которые возникают автоматически, когда движку не хватает памяти. В Oracle и PostgreSQL вы можете увидеть упоминания «temp spill» или «disk spill» в плане выполнения (в PostgreSQL – через EXPLAIN (ANALYZE, BUFFERS) и т.п.), в Oracle – в плане может указываться «TEMP TABLESPACE» использование и т.д. Почему это важно? Если запросы часто «спиллятся» на диск, значит надо либо оптимизировать запрос/план, либо увеличить соответствующие буферы памяти (например, work_mem в PostgreSQL, pga_aggregate_target в Oracle) или оптимизировать структуру данных.

Answer 31

Статистика в СУБД – это совокупность данных о распределении значений в таблицах и индексах (количество строк, селективность, гистограммы, наиболее частые значения и т.д.). Оптимизатор запросов использует её, чтобы определить самый эффективный план (какой тип соединения выбрать, какой индекс, и т.п.). В Oracle посмотреть и обновить статистику можно с помощью: DBMS_STATS пакет (например, DBMS_STATS.GATHER_TABLE_STATS, GATHER_SCHEMA_STATS). Просмотреть можно в словарях (например, USER_TAB_STATISTICS, ALL_TAB_STATISTICS) и через DBA_* представления, или в AUTOTRACE EXPLAIN STATISTICS. В PostgreSQL статистика собирается демоном autovacuum. Можно вручную запустить ANALYZE или VACUUM ANALYZE. Посмотреть статистику – в системном каталоге (например, pg_stat_all_tables, pg_stats, pg_stat_user_tables) и через EXPLAIN. Зачем нужна статистика? Правильная статистика – ключ к оптимизации. Если СУБД имеет неточные данные о количестве строк/распределении, план запросов может строиться неоптимально (может выбрать неверный индекс, сделать неправильный тип соединения и т.д.).

Answer 32

Блокировка — это метод ограничения доступа к данным для обеспечения корректной обработки транзакций. Серверы баз данных используют блокировки, чтобы управлять одновременным доступом к данным, чтобы пока одна транзакция работает с данными, другие транзакции не могли их изменять. Когда данные в базе блокируются, другие пользователи, которые хотят изменить или прочитать эти же данные, должны подождать, пока блокировка не будет снята. Общее: в реляционных СУБД есть несколько уровней блокировок: Блокировки на уровне строк (row-level locks) Блокировки на уровне страниц (page-level) – чаще встречается в SQL Server, PostgreSQL может использовать page-level в отдельных случаях Блокировки на уровне таблиц (table-level) Различные режимы блокировок (share, exclusive и промежуточные варианты) Oracle Базовый принцип – MVCC (многоверсионность). Основная рабочая блокировка DML – это row-level exclusive lock (при обновлении/вставке/удалении). Есть также TM locks (table locks) – share или exclusive, возникают для операций, изменяющих структуру таблицы (DDL) или при некоторых специфических случаях (например, FK constraints). “Select for update” ставит exclusive-блокировку на выбранные строки. PostgreSQL Также MVCC. При обычном SELECT блокировок «на чтение» строк нет (каждый видит свою версию). При UPDATE/DELETE СУБД ставит row-exclusive lock (запись «версия»), и все параллельные транзакции, пытающиеся изменить те же строки, вынуждены ждать. При ALTER TABLE / DDL – блокировка уровня таблицы (Access Exclusive Lock). Есть и другие режимы (ShareRowExclusive, Exclusive, AccessShare и т.д.), которые возникают в зависимости от типа операции.

Answer 33

Что такое шардирование в SQL и какие есть похожие механизмы в разных СУБД? Шардирование (sharding) – это распределение одной большой логической таблицы/базы на несколько физических узлов или сегментов (шардов). Каждый шард хранит часть данных (например, по диапазонам ключей, по хэшу и т.п.). Цель – масштабировать горизонтально и обрабатывать большие объёмы данных. PostgreSQL: нативно масштабирование раньше делалось через шардинг на уровне приложения или расширения (Citus, Postgres-XL). В PostgreSQL 14+ есть встроенные Partition и FDW, но полноценное шардирование «из коробки» всё ещё требует доп. инструментов. MySQL: популярный вариант – MySQL Sharding (обычно Shard-Proxy / MySQL Fabric / Vitess). Oracle: чаще используют механизмы Partitioning (разделы в одной базе) + Real Application Clusters (RAC), хотя это чуть другой подход (общая СУБД на нескольких узлах). Есть и Sharding (Oracle Sharding) как отдельная фича. Альтернативы шардированию: Партиционирование (partitioning) внутри одной базы – логическое разделение таблицы, но всё ещё в рамках одного инстанса или кластера. Репликация – копии всей базы на нескольких узлах. Не совсем «шардирование», т.к. все узлы содержат полный набор данных, а не фрагменты.

Answer 34

В большинстве СУБД (Oracle, PostgreSQL, MySQL) арифметические операции с NULL возвращают NULL. Исключение – если СУБД или режим SQL настроены по-другому (например, в некоторых старых диалектах могли быть «конвертированные» значения, но это нетипично). NULL + 5 => NULL 5 - NULL => NULL 10 * NULL => NULL 10 / NULL => либо NULL, либо ошибка деления на NULL (зависит от СУБД, но чаще просто NULL) NULL / 10 => NULL А вот конкатенация строк (||) с NULL в большинстве случаев даёт: В Oracle и PostgreSQL NULL при конкатенации превращается в '' (пустую строку). Итоговый результат: Столбцы с арифметическими операциями = NULL В Oracle и PostgreSQL NULL при конкатенации превращается в '' (пустую строку).

Answer 35

Обычный DELETE 90 млн строк может быть: Очень долгим (операция построчная, каждая удаляемая запись идёт в транзакционный лог, требуются блокировки, обновление индексов и т.д.). Потребует много ресурсов и может вызывать «блокировки» или «долгое удержание транзакции». Оптимальные варианты (зависят от СУБД и структуры данных): Использовать CTAS (Create Table As Select) + переименование: Создать новую таблицу: CREATE TABLE new_table AS SELECT * FROM old_table WHERE <условие для 10 млн, которые надо оставить>; Удалить/переименовать старую таблицу, затем переименовать новую в старое имя (и при необходимости пересоздать индексы). Преимущество: вместо массового DELETE мы просто выбираем нужные строки. Это может быть быстрее и «чище» для больших объёмов. Партиционирование: Если таблица заранее партиционирована по дате или по какому-то ключу, и 90 млн строк находится в конкретных партициях, можно просто DROP PARTITION или TRUNCATE PARTITION. Это очень быстро и не генерирует огромного объёма в журнале транзакций. Batch Delete (пакетами) или обнуление + вставка обратно (менее элегантно, но иногда используется, если нельзя пересоздавать таблицу). Почему так? Основная причина – производительность и блокировки. Массовое DELETE на 90% строк – крайне тяжёлая операция, может «забить» лог транзакций, занять много времени и привести к проблемам с конкурирующими запросами. Гораздо эффективнее либо пересоздать таблицу с нужными данными, либо обрезать нужные партиции.

Answer 36

С точки зрения SQL-стандарта «транзакцией» называют последовательность инструкций (в том числе SELECT, INSERT, UPDATE, DELETE, DDL и т.д.), заключённых между BEGIN (или START TRANSACTION) и COMMIT/ROLLBACK. Один SELECT не модифицирует данные, и если СУБД работает в автокоммит-режиме, формально каждый запрос идёт в своей «мини-транзакции», но это не та «транзакция», которая что-то меняет. На большинстве собеседований правильный ответ – “Нет, это не является транзакцией, это просто SELECT”. Но уточнить, что «формально любая команда может выполняться в рамках транзакции (явной или автокоммит), но данная команда не изменяет состояние данных».

Answer 37

Возможные причины: Изменение объёма данных или данных в таблицах За прошедшую ночь объём данных внезапно вырос (например, из‑за большого загрузочного джоба или технического сбоя), и запросу не хватает памяти/ресурсов. Появились «нестандартные» данные, которые ломают план запроса (из-за изменения распределения). Неправильная/устаревшая статистика в СУБД Если статистика (ANALYZE) давно не обновлялась, оптимизатор мог выбрать неправильный план (например, перепутать низко- и высокоселективные индексы). Изменение индексов или структуры таблицы Индекс был случайно удалён, повреждён или стал неактуальным. Запрос вдруг начал делать полные сканы вместо индексных. Блокировки (lock contention) Другой долгий процесс (например, массовый update/delete) держит блокировку, и ваш запрос «висит» в очереди. Нужно проверить, нет ли конкурентной транзакции, которая не завершилась. Проблемы в инфраструктуре Может быть «проседание» производительности диска (I/O), проблемы с сетью (если данные подгружаются из внешнего источника), падение производительности кластера (например, Spark, если используется). Переполнен временный tablespace и идут «spills» на диск, что резко замедляет работу. Как искать причину: Посмотреть план выполнения (EXPLAIN (ANALYZE)) или лог активности сервера, проверить наличие блокировок (pg_locks, information_schema.innodb_locks и т.д. в зависимости от СУБД). Проверить свежесть статистики (ANALYZE, DBMS_STATS в Oracle). Посмотреть системные метрики (CPU, RAM, I/O). Уточнить, не вносились ли изменения в схему (добавляли ли индексы, колонки).

Answer 38

Если нужна точность – SELECT COUNT(*) (с возможным параллелизмом, если поддерживается), но это может быть медленно на очень больших объёмах. Если нужна просто примерная оценка – можно взять данные из статистики (pg_class, ALL_TABLES и т.д.). JSONB/много колонок обычно не сильно влияет на простое COUNT(*), так как движок может делать индекс только по месту хранения метаданных (или «heap»), не выбирая все поля таблицы (зависит от реализации)

Answer 39

Что такое подзапрос? Что такое коррелируемый (correlated) и некоррелируемый (non-correlated) подзапрос? В чём отличие CTE от подзапроса? Подзапрос (subquery) Это запрос (SELECT), который встраивается внутрь другого запроса (например, в секции WHERE, FROM, SELECT, HAVING). Подзапрос может вернуть одно значение, набор значений, или целую таблицу. Коррелируемый подзапрос (correlated subquery) Это подзапрос, который зависит от внешнего запроса: SELECT a.col1 FROM table_a a WHERE a.col2 > (SELECT AVG(b.col2) FROM table_b b WHERE b.id = a.id); Здесь подзапрос ссылается на a.id из внешнего запроса. На каждую строку из table_a будет выполняться свой подзапрос. В отличие от обычного подзапроса, CTE улучшает читаемость, позволяет использовать одну и ту же промежуточную выборку несколько раз в основном запросе. В некоторых СУБД (например, PostgreSQL) CTE по умолчанию всегда материализуется (хранится во временном буфере), но начиная с версии 12+ при определённых условиях CTE может «inline»-иться, то есть вести себя как подзапрос. Подзапрос более «локален» и чаще имеет смысл, когда используется один раз или необходим «на месте». CTE удобен для шаг за шагом построения логики, упрощает сложные запросы.

Answer 40

Для чего нужна временная таблица, если есть CTE? Несмотря на схожесть (и то, и другое создаёт «промежуточный набор данных»), временные таблицы и CTE имеют разные цели: Объём и повторное использование Временная таблица создаётся физически (или логически, в зависимых tablespace) и может быть использована в нескольких разных запросах в рамках одной сессии или транзакции. CTE виден только в рамках одного запроса (хотя сам запрос может быть многошаговым). Материализация и индексы Во временной таблице можно создавать индексы, что ускоряет повторные операции. CTE обычно «материализуется» (в PostgreSQL до версии 12 – всегда, в более новых версиях – зависит от оптимизатора), но не поддерживает собственных индексов. Разделение логики Иногда удобно создать временную таблицу, наполнить её данными (например, результатом сложной выборки), а затем в несколько шагов анализировать, модифицировать, фильтровать и т.д. CTE не позволяет делать «UPDATE/DELETE» внутри него. Жизненный цикл Временная таблица существует в сессии (или транзакции), и вы можете к ней обращаться многократно. CTE «живет» только в момент выполнения одного запроса. Таким образом, иногда временная таблица нужна, если вам: Нужны индексы, сортировки, дополнительная обработка данных «по шагам». Планируется использовать временные данные в нескольких отдельных запросах. Нужен более «длительный» объект, чем скоуп одного SELECT (например, для ETL-процедур).

Answer 41

Какими конструкциями дополняется ORDER BY, чтобы значения NULL стояли в начале или в конце таблицы? Стандарт SQL поддерживает фразу NULLS FIRST / NULLS LAST: Не во всех диалектах эта конструкция одинаково выглядит, но в PostgreSQL, Oracle, SQLite она есть. В MySQL (до версии 8) нет нативной конструкции NULLS FIRST/NULLS LAST, но можно обойтись костылём, например:

Answer 42

In a database, a view is the result set of a stored query that presents a limited perspective of the database to a user.

Answer 43

В SQL первичный ключ – это поле или комбинация полей, которые однозначно идентифицируют определенную строку в таблице. Первичный ключ гарантирует отсутствие дубликатов строк в таблице, а также позволяет эффективно выполнять запросы и индексировать таблицу.

Answer 44

Временная таблица – это тип таблицы, которая создается и существует только на время сеанса или транзакции. Она не хранится в базе данных постоянно и удаляется автоматически. Временные таблицы можно использовать для хранения промежуточных результатов или для разбиения сложных запросов на более простые шаги. Они особенно полезны, когда запрос требует нескольких шагов или сложных вычислений, так как помогают повысить производительность запроса и упростить его синтаксис. Временные таблицы можно создать с помощью оператора CREATE TEMPORARY TABLE. Они могут быть созданы в памяти или на диске, в зависимости от системы базы данных и конфигурации. ременные таблицы можно использовать как обычные таблицы в SQL-запросах и заполнять данными с помощью операторов INSERT. Их также можно объединять с другими таблицами или использовать в подзапросах. Одним из распространенных вариантов использования временных таблиц является хранение и обработка промежуточных результатов в сложных запросах, особенно в тех, которые включают соединения или агрегирование. Например, временная таблица может использоваться для хранения результатов операции соединения, которые затем могут быть использованы для дальнейших манипуляций или соединения с другими таблицами на последующих этапах запроса.

Answer 45

Внешний ключ – это столбец или набор столбцов, которые ссылаются на первичный ключ другой таблицы. Он используется для установления связи между двумя таблицами. Добавление внешнего ключа в таблицу создает связь между данными в этой таблице и данными в другой таблице. Эта связь гарантирует, что данные в двух таблицах всегда будут соответствовать друг другу.

Answer 46

PRIMARY KEY – первичный ключ, уникальный идентификатор строки в таблице. FOREIGN KEY – внешний ключ, обеспечивает ссылочную целостность между таблицами. UNIQUE – гарантирует, что значения в указанном столбце (или нескольких столбцах) уникальны. NOT NULL – запрещает хранение NULL в данном столбце. CHECK – проверяет соблюдение заданного условия. DEFAULT – устанавливает значение по умолчанию, если не указано иное. INDEX – создаёт индекс для ускорения поиска (не является ограничением целостности, но используется для оптимизации). AUTO_INCREMENT / SERIAL – автоматически увеличивает значение при вставке новой строки (актуально для MySQL, PostgreSQL, SQL Server). EXCLUDE (только PostgreSQL) – запрещает пересечение значений в указанном диапазоне. DEFERRABLE (только PostgreSQL) – позволяет отложить проверку ограничения до конца транзакции.

Answer 47

Кластерный индекс (Clustered Index) Определяет физический порядок хранения строк в таблице. В таблице может быть только один кластерный индекс. Быстрее при диапазонных запросах и поиске по ключу. Некластерный индекс (Non-clustered Index) Хранит только ссылки на данные, сами строки остаются в произвольном порядке. В одной таблице может быть много некластерных индексов. Оптимален для выборок небольших подмножеств данных. СУБД Кластерный индекс Некластерный индекс PostgreSQL Реализуется через CLUSTER, но не обновляется автоматически Обычные CREATE INDEX, содержат ссылки на строки (TID) SQL Server Создаётся автоматически на PRIMARY KEY, если не указано иначе CREATE NONCLUSTERED INDEX, отдельно от данных MySQL (InnoDB) PRIMARY KEY автоматически кластеризует данные CREATE INDEX, хранит указатели на кластерный индекс

Answer 48

Триггеры используются для автоматического запуска серии операторов в ответ на определенные события. Эти события могут включать такие действия, как вставка, обновление или удаление таблицы. По сути это тип хранимой процедуры, которая выполняется автоматически в ответ на определенные события или изменения в базе данных. События, вызывающие триггер, могут включать операции вставки, обновления или удаления таблицы. Триггеры обычно используются для соблюдения бизнес-правил, поддержания ссылочной целостности или регистрации изменений в БД. CREATE TRIGGER trigger_name {BEFORE | AFTER} {INSERT | UPDATE | DELETE} ON table_name [REFERENCING NEW AS new OLD AS old] [FOR EACH ROW] WHEN (condition) DECLARE {Variable declarations} BEGIN {SQL statements} END;

Answer 49

нет. нельзя по неравенству сравнивать