Question 1

単一のプールを用いて、キューのように扱う。プールに登録されたタスクセットを順にスケジューリングする

Accepted Answer

FIFO

Question 2

複数のプールを用いて、各プールから公平にアスクセットを取り出しスケジューリングする

Accepted Answer

FAIR

Question 3

クライアントジョブのキックを担当

Accepted Answer

クライアント, マスタ

Question 4

計算資源の提供・管理を担当

Accepted Answer

ワーカ

Question 5

ユーザがRDDの変換を記述したプログラム

Accepted Answer

ドライバ

Question 6

ワーカー上で動作し、実際の計算を担当

Accepted Answer

エグゼキューター

Question 7

Sparkの処理内でアクション系のメソッドを実行するとジョブが作成される。SparkではRDDと呼ばれる抽象データセットの変換を繰り返して目的の結果を得る。この一連の処理をジョブという

Accepted Answer

ジョブ

Question 8

ジョブはデータのシャッフルが必要な場合に複数のステージに分割される

Accepted Answer

ステージ

Question 9

ジョブをエグゼキューターが実行可能な粒度に分割した処理単位。ステージは複数のタスクを持ち、ワーカーに対して送られる並列実行可能な処理をタスクという

Accepted Answer

タスク

Question 10

ジョブをタスクに分割したり、タスクのエグゼキュータへの割り当てを担当

Accepted Answer

スケジューラ

Question 11

耐障害性分散データセットで、繰り返し利用するデータについてはメモリ上に保持することが可能

Accepted Answer

RDD(Resilient Distributed Datasets)

Question 12

1) イミュータブルで分割されたオブジェクトのコレクション(フォールトトレラント性を実現するためRDDでは「得たいデータが失われていたら前のデータから再生成する」というアプローチを取っているため、それぞれイミュータブルである必要がある)

2) 読み取り専用

3) 並列処理(map,filter,groupBy,join)をストレージ上のデータに適応した結果を生成

4) 再利用するためにメモリ上にキャッシュされる

5) 遅延評価される(アクション系のメソッド(*2)が呼ばれるまで」実際の処理は行われない)

Accepted Answer

RDDの性質(5)

Question 13

それぞれのRDDの和集合の重複を許したすべての要素からなるRDDを生成

Accepted Answer

union()

Question 14

重複を許さずそれぞれのRDDの積集合の要素からなるRDDを生成

Accepted Answer

intersection()

Question 15

subtract()

Accepted Answer

片方の要素からもう一方の要素を除いた要素からなるRDDを生成

Spark: Definitions: Terms Flashcards

https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc (32 cards)