Spark Flashcards

Question

Как удалить дубликаты из таблицы? Теги: #Иннотех

Answer 1

* В Spark SQL/DF: df.dropDuplicates(["cols"]), где cols – список колонок, по которым ищем дубликаты. * Можно использовать Window-функции и фильтр по row_number(), если нужна более гибкая логика.

Answer 2

* Распределённая обработка * Использовать кластер Spark (несколько узлов) с достаточным количеством памяти. * Spark автоматически разбивает большие данные на партиции и распределяет их между executors. * Spill на диск * Spark конфигурируется так, чтобы при нехватке памяти данные (shuffle-файлы, временные структуры) выгружались на диск. * Настройки: spark.local.dir, spark.shuffle.spill, т. п. * Управление партициями * Использовать repartition (для увеличения числа партиций) или coalesce (для уменьшения). * Слишком мало партиций → перегрузка отдельных executors. * Слишком много → большие накладные расходы на управление задачами. * Оптимизация кода * Читать только нужные колонки (select) и фильтровать данные как можно раньше, чтобы объём обрабатываемых данных был меньше.

Answer 3

* Настройка партиций * spark.sql.shuffle.partitions – ключевой параметр для join и группировок. * Balancing партиций, чтобы избежать перекоса (data skew). * Broadcast Join (для маленьких таблиц) * Избегает shuffle, так как небольшая таблица «рассылается» на все узлы. * Кэширование / persist * Сохраняет промежуточные результаты в память/на диск, если данные используются многократно. * Фильтры pushdown, выбор только нужных колонок * Экономит память и CPU, уменьшая объём данных, передаваемых из источника и обрабатываемых в Spark. * Настройка памяти * Увеличение executor-memory, driver-memory при необходимости. * Правильное число ядер (executor-cores) в сочетании с достаточной памятью, чтобы избежать OOM. * Catalyst Optimizer и AQE (Adaptive Query Execution) * Включение AQE (spark.sql.adaptive.enabled) может динамически менять план выполнения (например, переключиться на broadcast join, если таблица оказалась меньше ожидаемого).

Answer 4

Спарк выполняет вычисления на кластере – группе серверов, соединённых сетью. Передача данных по сети (shuffle) это дополнительный шаг, который нужен не для всех трансформаций. Но для того, чтобы вернуть правильный результат, иногда это необходимо. Перетасовка (shuffle) — это ещё и дорогостоящая операция, ведь требуется копировать данные по исполнителям, а также перетасовка включает: операции ввода-вывода, сериализацию и десериализацию данных, перемещение по сети. Например, прежде чем вычислять средний чек по магазинам за месяц, нужно все данные за этот один месяц переместить на один узел, а уже потом агрегировать. И так по каждому месяцу данные физически перераскладываются по разным серверам. Контролировать распределение данных можно через partitionBy. Широкие трансформации могут требовать передать данные по сети, узкие выполняются на одном узле над одной партицией. Зачастую оптимизация заключается в уменьшении числа широких операций до теоретического минимума. Широкие: . Intersection . Distinct . GroupByKey . ReduceByKey . Join . Repartition Узкие: . Map . Filter . Union . Sample . Coalesce (в случае уменьшения числа партиций, например до 1 партиции на ноду)

Answer 5

* Логический план: анализ синтаксиса, формирование дерева операций * Optimized logical plan: Catalyst применяет правила оптимизации (pushdown, переупорядочение join и др.) * Физический план: выбор конкретного алгоритма (SortMergeJoin, BroadcastHashJoin и т.п.) * Catalyst выбирает план с наименьшей стоимостью согласно эвристикам и статистике.

Answer 6

* Pushdown-фильтр – это механизм, когда Spark передаёт условия фильтрации на уровень источника данных (например, СУБД или файл-формат Parquet), чтобы: * Ограничить объём данных, которые нужно прочитать * Уменьшить сетевой и I/O трафик * Проверить: 1. Посмотреть физический план через df.explain(true) или spark.sql.explain(). o Если pushdown применяется, там будет указано, что фильтр был «протолкнут» (pushed down) к источнику. 2. Логи Spark/источника данных: можно увидеть, что выбираются уже отфильтрованные данные (не полный скан). 3. В некоторых коннекторах (например, JDBC) Spark строит SQL-запрос с условиями WHERE, если pushdown активирован.

Answer 7

Для исправления ошибки OOM (Out of Memory) в Spark нужно оптимизировать использование памяти и вычислительных ресурсов. Основные подходы: 1. Настройка памяти Увеличьте память исполнителя с помощью spark.executor.memory (например, spark.executor.memory=4g). Это даст больше памяти для обработки данных. Настройте память драйвера: spark.driver.memory (например, spark.driver.memory=2g), если OOM возникает на уровне драйвера. Управляйте памятью для шаффлинга: spark.memory.fraction определяет долю памяти для хранения данных и вычислений. Увеличьте spark.memory.storageFraction, чтобы больше памяти выделить для промежуточных данных. 2. Оптимизация разделов (partitions) Увеличьте количество разделов при загрузке больших данных или выполнении тяжелых операций, например, data.repartition(200), чтобы уменьшить объем данных в каждом разделе и снизить нагрузку на память. Используйте coalesce для уменьшения числа разделов после фильтрации данных, что помогает избежать лишнего шаффлинга. 3. Уменьшение объема данных Фильтрация на ранних этапах: фильтруйте ненужные данные, чтобы уменьшить объем входных данных. Проекционные операции: используйте только нужные колонки, избегая работы с большими и ненужными полями. Настройка форматов хранения: выбирайте колоночные форматы данных (например, Parquet), которые потребляют меньше памяти. 4. Оптимизация шаффлинга Увеличьте число разделов для шаффлинга с помощью spark.sql.shuffle.partitions. Если возможно, используйте broadcast join для небольших таблиц в джоинах, чтобы избежать тяжелого шаффлинга. 5. Управление ресурсами кластера Увеличьте количество исполнителей и потоков (spark.executor.instances, spark.executor.cores), чтобы распределить нагрузку между узлами. Сжимайте данные в памяти с помощью spark.memory.compress=true и spark.rdd.compress=true.

Answer 8

persist() позволяет дополнительно сообщить параметр storage level (MEMORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, MEMORY_AND_DISK_SER, DISK_ONLY)

Answer 9

Задача

Answer 10

За создание набора RDD и объединение его разделов

Answer 11

Разница между cache() и persist() в том, что последний может принимать необязательный аргумент storageLevel, с помощью можно указать, где именно данные будут сохраняться. По умолчанию значение storageLevel для обеих функций — MEMORY_AND_DISK, т.е. данные будут храниться в памяти, если там есть для них есть место. Иначе данные будут сохранены на диске

Answer 12

SparkContext

Answer 13

Функция map в Spark - это функция преобразования, которая применяет заданную функцию к каждому элементу RDD (Resilient Distributed Dataset) и возвращает новый RDD. Функция принимает входной элемент и возвращает один выходной элемент. Функция flatMap в Spark также является функцией преобразования, которая применяет заданную функцию к каждому элементу RDD и возвращает новый RDD. Однако разница между map и flatMap заключается в том, что функция, применяемая flatMap, возвращает последовательность выходных элементов, а не один выходной элемент.

Answer 14

Наиболее распространенными вариантами использования кэширования являются сценарии, в которых вам потребуется повторно обращаться к большому набору данных для выполнения запросов или преобразований. Некоторые примеры включают в себя: * DataFrame, обычно используемые при итеративном машинном обучении. * DataFrame, к которым обычно обращаются для выполнения частых преобразований во время ETL или построения конвейеров передачи данных. Однако не все варианты использования требуют кэширования. В некоторых сценариях кэширование фреймов данных может не потребоваться.: * DataFrame слишком велики, чтобы поместиться в памяти. * Недорогое преобразование фрейма данных, не требующее частого использования, независимо от его размера. Как правило, вы должны разумно использовать кэширование памяти, поскольку это может привести к затратам ресурсов на сериализацию и десериализацию, в зависимости от используемого уровня хранения.

Answer 15

1) размер датасета 2) условие соединения: =, >, < и тд 3) тип соединения: inner/cross/left

Answer 16

В Spark нет жёстко зашитого фиксированного размера памяти на каждую задачу (task). Вместо этого память конфигурируется на уровне экзекьюторов (executors), а уже внутри одного экзекьютора одновременно могут выполняться несколько задач — каждая задача использует часть общего пула памяти. Как это устроено? Executor Memory Основной параметр — spark.executor.memory: сколько всего памяти (heap) будет доступно одному экзекьютору. Например, 8 GB. Плюс есть Memory Overhead (например, spark.executor.memoryOverhead), которую Spark резервирует под системные нужды (JVM overhead, native buffers для shuffle, PySpark worker и т.д.). Количество CPU (cores) у экзекьютора Параметр spark.executor.cores определяет, сколько задач может выполняться параллельно на одном экзекьюторе. Если указано cores=4, значит на одном экзекьюторе одновременно могут бежать до 4 задач (каждой нужен хотя бы 1 CPU core). Соответственно, если есть 8 GB памяти и 4 cores, условно (но не строго!) можно прикинуть, что в среднем на каждую задачу придётся ~2 GB (не учитывая overhead). Пулы памяти внутри JVM В Spark 1.x / 2.x была модель Execution / Storage Memory (т.е. часть памяти для shuffle, часть для кэша и т.д.). В Spark 2.x+ есть параметры вроде spark.memory.fraction, spark.memory.storageFraction и т.д., которые управляют тем, какая доля от всей памяти экзекьютора может пойти под вычисления (execution) и под кэш (storage). На практике это значит, что все задачи экзекьютора делят общий Memory pool. Если одна задача на shuffle, sort или операцию join начнёт съедать слишком много памяти, другие могут получить меньше.

Answer 17

Adaptive Query Execution (AQE) — это механизм, появившийся (по умолчанию) начиная с Spark 3.0 (частично был доступен экспериментально и в Spark 2.4), который позволяет динамически оптимизировать физический план выполнения во время работы job. Зачем это нужно? Не всегда точны планы, построенные на основе статистики до старта job: Данные могут быть распределены неравномерно (data skew). Статистика таблиц может быть устаревшей или неполной. При shuffle могут возникать очень «тяжёлые» партиции. AQE даёт Spark возможность «подглядывать» в реальные данные и корректировать план на лету, например: Combine shuffle partitions: если Spark видит, что после shuffle многие партиции мелкие, он может объединить их в меньшее количество более крупных партиций (уменьшая overhead). Split skewed partitions: если обнаружились одна-две «перегруженные» партиции (skew), Spark может автоматически разбить их на несколько более мелких, чтобы параллелить обработку. Динамически менять тип join’а (например, заменять sort-merge join на broadcast join, если одна таблица оказалась достаточно маленькой). Пример включения AQE spark.conf.set("spark.sql.adaptive.enabled", "true") spark.conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true") spark.conf.set("spark.sql.adaptive.skewJoin.enabled", "true") ... Основная выгода Стабильность выполнения больших job, которые сталкиваются с непредсказуемым распределением данных. Улучшение производительности за счёт сокращения shuffle и более «умных» join’ов. Итого, AQE — это механизм «Adaptive Execution», который после начального планирования Spark’ом может «переигрывать» стратегии (shuffle, join, разбиение партиций) на основании фактических метаданных, полученных во время выполнения, что помогает лучше бороться с «skew» и неравномерными нагрузками.

Answer 18

По дефолту 200, но зависит от shuffle.partitions