Spark: Freshers Flashcards

Question 1

Q

Apache Spark とは何ですか?

Answer

A

巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。

https://atmarkit.itmedia.co.jp/ait/articles/1608/24/news014.html

Question 2

Q

Apache Spark の機能は何ですか? (12)

Answer

A

1) 高い処理速度: Apache Spark は、ディスクへの読み取り/書き込み操作を減らすことにより、非常に高いデータ処理速度の達成に役立ちます。速度は、メモリ内計算の実行時にはほぼ 100 倍、ディスク計算の実行時には 10 倍高速になります。

2) Dynamic Nature : Spark は、並列アプリケーションの簡単な開発に役立つ 80 の高レベルオペレーターを提供します。

3) インメモリ計算: DAG 実行エンジンによる Spark のインメモリ計算機能により、データ処理の速度が向上します。これはデータキャッシュもサポートし、ディスクからデータをフェッチするのに必要な時間を短縮します。

4) 再利用性: Spark コードは、バッチ処理、データストリーミング、アドホッククエリの実行などに再利用できます。

5) フォールトトレランス: Spark は、RDD を使用したフォールトトレランスをサポートします。Spark RDD は、データ損失ゼロを保証するワーカーノードの障害を処理するように設計された抽象化です。

6) ストリーム処理: Spark は、リアルタイムでのストリーム処理をサポートします。以前の MapReduce フレームワークの問題は、既存のデータしか処理できないことでした。

7) 遅延評価: Spark RDD を使用して実行される Spark 変換は遅延します。つまり、すぐには結果は生成されませんが、既存の RDD から新しい RDD が作成されます。この遅延評価により、システム効率が向上します。

8) 複数言語のサポート

9) Hadoop 統合: Spark は Hadoop YARN クラスターマネージャーもサポートしているため、柔軟性が高くなります。

10) グラフ並列実行用のSpark GraphX、Spark SQL、機械学習用ライブラリなどをサポートします。

11) コスト効率: Hadoop ではデータの処理とレプリケーションに大規模なストレージとデータセンターが必要であったため、Apache Spark は Hadoop と比較した場合、コスト効率に優れたソリューションであると考えられています。

12) 活発な開発者コミュニティ

Question 3

Q

RDD(Resilient Distribution Datasets )とは何ですか?

データセットのタイプ(2)

Answer

A

RDD は、クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり、変換その他の操作のための基礎的な API と並行して使用することが可能です。

1) 並列化されたコレクション: 並列実行を目的としています。

2) Hadoop データセット: これらは、HDFS またはその他のストレージシステム上のファイルレコードシステムに対して操作を実行します。

https://www.databricks.com/jp/glossary/what-is-rdd

Question 4

Q

Spark のデプロイモードのタイプを列挙して下さい。(2)

Answer

A

1) クライアントモード: Spark ジョブが送信先のマシンノード上で Spark ドライバーコンポーネントが実行される場合: 低速で開発用

2) クラスターモード: Spark ジョブの送信元のマシン上で Spark ジョブドライバーコンポーネントが実行されない場合

Question 5

Q

DAG(Directed Acyclic Graph) は Apache Spark で何を指しますか?

要素(4)

Answer

A

一方向に流れるグラフであり、どの要素もそれ自体の子になることはできません。

1) ノード: データを保存する場所。

2) 有向エッジ: 一方向を指す矢印 (このデータ構造が異なる点)

3) 親のいない偉大な祖先ノード。(興味深い事実: ほとんどの祖先ツリーは実際には DAG であり、実際にはツリーではありません。ある時点でいとこ同士が結婚するためです。)

4) 葉: 子のないノード

Question 6

Q

Apache Spark Streaming のレシーバーとは何ですか?
タイプを列挙して下さい。(2)

Answer

A

さまざまなデータソースからデータを消費し、処理のために Spark にデータを移動するエンティティです。これらは、ラウンドロビン方式で動作するようにスケジュールされた長時間実行タスクの形式でストリーミングコンテキストを使用して作成されます。

1) 信頼できる受信者: ここで、受信者は、データの受信と Spark ストレージスペースでのそのレプリケーションの成功後に、データソースに確認応答を送信します。

2) 信頼できない受信者: ここでは、データソースに送信される確認応答はありません。

Question 7

Q

repartition(再分割)とcoalesce(結合)の違いは何ですか?

次の3点について説明しなさい
1) データパーティションの数の増減
2) データパーティションを新規作成か再利用か
3) 速度

Answer

A

1) データパーティションの数の増減
- repartition(再分割): 増減可能
- coalesce(結合): 減少のみ

2) データパーティションを新規作成か再利用か
repartition(再分割): 再パーティション化では、新しいデータパーティションが作成され、均等に分散されたデータの完全なシャッフルが実行されます。
coalesce(結合): Coalesce は、既存のパーティションを利用して、シャッフルされたデータの量を不均一に削減します。

3) 速度
repartition(再分割): 低速
coalesce(結合): 高速

Question 8

Q

Spark がサポートするデータ形式は何ですか?

Answer

A

paraquet、JSON、XML、CSV、RC、Avro、TSV など

Question 9

Q

Spark のShuffleとは何ですか?

Answer

A

あるRDDに対して操作を行う際にデータの再分散を行うことといえます。

https://attsun-1031.hatenablog.com/entry/2016/04/02/224148

Question 10

Q

Spark の YARN とは何ですか? (2)

Answer

A

1) クラスタ・マネージャ

2) 中央リソース管理プラットフォーム: クラスター全体でスケーラブルな操作のため

https://qiita.com/imaifactory/items/f35ef03bfa4f268b1b83

Spark: Freshers Flashcards

https://www.interviewbit.com/spark-interview-questions/ (10 cards)