Spark: Definitions: Terms Flashcards

https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc

1
Q

単一のプールを用いて、キューのように扱う。プールに登録されたタスクセットを順にスケジューリングする

A

FIFO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

複数のプールを用いて、各プールから公平にアスクセットを取り出しスケジューリングする

A

FAIR

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

クライアントジョブのキックを担当

A

クライアント, マスタ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

計算資源の提供・管理を担当

A

ワーカ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

ユーザがRDDの変換を記述したプログラム

A

ドライバ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

ワーカー上で動作し、実際の計算を担当

A

エグゼキューター

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Sparkの処理内でアクション系のメソッドを実行するとジョブが作成される。SparkではRDDと呼ばれる抽象データセットの変換を繰り返して目的の結果を得る。この一連の処理をジョブという

A

ジョブ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

ジョブはデータのシャッフルが必要な場合に複数のステージに分割される

A

ステージ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

ジョブをエグゼキューターが実行可能な粒度に分割した処理単位。ステージは複数のタスクを持ち、ワーカーに対して送られる並列実行可能な処理をタスクという

A

タスク

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

ジョブをタスクに分割したり、タスクのエグゼキュータへの割り当てを担当

A

スケジューラ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

耐障害性分散データセットで、繰り返し利用するデータについてはメモリ上に保持することが可能

A

RDD(Resilient Distributed Datasets)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

1) イミュータブルで分割されたオブジェクトのコレクション(フォールトトレラント性を実現するためRDDでは「得たいデータが失われていたら前のデータから再生成する」というアプローチを取っているため、それぞれイミュータブルである必要がある)

2) 読み取り専用

3) 並列処理(map,filter,groupBy,join)をストレージ上のデータに適応した結果を生成

4) 再利用するためにメモリ上にキャッシュされる

5) 遅延評価される(アクション系のメソッド(*2)が呼ばれるまで」実際の処理は行われない)

A

RDDの性質(5)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

それぞれのRDDの和集合の重複を許したすべての要素からなるRDDを生成

A

union()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

重複を許さずそれぞれのRDDの積集合の要素からなるRDDを生成

A

intersection()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

subtract()

A

片方の要素からもう一方の要素を除いた要素からなるRDDを生成

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

一つのRDD内部での重複要素を一つにまとめた要素からなるRDDを生成

A

distinct()

17
Q

要素の個数を返す

A

count()

18
Q

複数の要素を引数の数だけ集めてくる

A

take(int num)

19
Q

RDD全体を取り出す(小さいサイズ場合のみ)

A

collect()

20
Q

分散ストレージシステムに書き出す

A

saveAsTestFile()

21
Q

分散ストレージシステムに書き出す

A

saveAsSequenceFile()

22
Q

結合処理を並列に行う

A

reduce(func)

23
Q

reduce()と見た目は同じ、中身は若干違うっぽく、単位元的な値(その操作を適応しても変わらない)を受け取る

A

fold(zero)(func)

24
Q

reduce()と同じだが、返す型が扱うRDDの要素と違う場合に使う

A

aggregate(func)

25
Q

RDDからn個の要素を返す

A

take(n)

26
Q

RDDの先頭からn個までの要素を返す

A

top(n)

27
Q

指定された順序でRDDからn個要素を返す

A

takeOrdered(n)(ordering)

28
Q

RDDからランダムにn個要素を返す

A

takeSample(withReplacement,n,seed)

29
Q

RDDすべての要素を返す

A

collect()

30
Q

RDDの要素数を返す

A

count()

31
Q

RDDの各要素の出現回数を返す

A

countByValue()

32
Q

RDD中の各要素に指定した関数を適用

A

foreach(func)