【入門】ApacheSpark/Sparkシェルで分散処理する方法!

Apache Sparkを分散処理する方法を知っていますか。本記事では、Apache Sparkの分散処理する方法・入門方法・特徴・インストール・ログファイル・Webインタフェース・バージョン表示に関して紹介していきます。


目次

  1. 1Apache Spark 分散処理とは
  2. Sparkの得意/不得意
  3. Apache Sparkの構成
  4. 2Apache Sparkの環境構築
  5. インストール
  6. 3Apache Spark 分散処理の流れ
  7. 系譜ステージへの分割
  8. ステージの実行要否を判定する
  9. タスクを生成する
  10. タスクを実行する場所を決める
  11. タスクの実行順序をスケジューリングする
  12. キーワード
  13. 4Apache Spark 分散処理を手軽に行う方法
  14. メモリ処理による高速化
  15. データのinput/output形式がいろいろと選択できる
  16. プログラミング形式
  17. Apache Sparkのインストール
  18. 5Apache Spark 分散処理とHadoop 分散処理との違い
  19. Hadoop の場合
  20. Sparkでは
  21. 6Apache Spark 分散処理のデータのI/O
  22. ファイルのロードとセーブ
  23. Scala/Java/R/Pythonなどに対応(APIが用意されてる)
  24. 多彩なライブラリ
  25. 複数の導入シナリオ(スタンドアロン/YARN/Mesos/組み込み/クラウド)
  26. 幅広い処理モデル(バッチ/インタラクティブ/ストリーミング)
  27. 7Apache Spark 分散処理の導入にメリットのあるケース
  28. プロジェクトで扱うデータが大量である場合
  29. データの高速処理(リアルタイム性)を求められている場合
  30. Hadoopを既に使っている場合
  31. 大規模データを扱う機械学習を行う場合
  32. まとめ
  33. 合わせて読みたい!方法に関する記事一覧

Apache Spark 分散処理とは

Apache Spark 分散処理とは何か知っていますか。Apache Sparkとは、オープンソースの分散処理フレームワークのことです。

分散処理でよく知られているのはhadoopですが、hadoopがhdfsと呼ばれる独自のファイルシステムを通し、処理を実行していきます。

Apache Sparkとは「RDD(Resilient Distributed Dataset)」と呼ばれる耐障害耐性分散可能なデータもしくはセットをオンメモリで実行できるために、 高速な分散処理が実現できるのです。

Apache Sparkの分散処理する方法・入門方法・特徴・インストール・ログファイル・Webインタフェース・バージョン表示に関して紹介していきます。

Sparkの得意/不得意

以下ではSparkの得意もしくは不得意なことを紹介していきます。

得意

Apache Sparkの得意なことは以下の4つです。

  • Hadoopで加工したのちのドリルダウン分析
  • TB級までのデータを扱うシステム
  • サンプリングが有効でないロングテールのデータ分析
  • 数秒~数分程度のHadoopよりも短いレスポンスが必要な処理

不得意

Apache Sparkの不得意なことは以下の3つです。

  • クラスタ全体のメモリに乗りきらない巨大なデータ処理(TB以上)
  • 大きなデータセットを少しずつ更新する処理
  • 秒以下の時に短いレスポンスが必要な処理

Apache Sparkの構成

Apache Sparkの構成は以下のとおりです。またApache Sparkの分散処理する方法・入門方法・特徴・インストール・ログファイル・Webインタフェース・バージョン表示を紹介します。

  • Spark Core Sparkの基本機能を提供して、RDDと呼ばれている耐障害耐性分散可能なデータもしくはセットを提供する
  • Spark Streaming データストリームの処理を提供して、ツイッターからリアルタイムデータの取得などに使用できる。
  • Spark SQL 構造化データに対するアクセス機能を提供して、hiveSQLやクエリを使ってJSONなども扱える。
  • Mlib 汎用的な機械学習ライブラリを取得し、word2vecを使った類似後分類などができる
  • Graph X グラフ理論に基づく計算を提供して、ソーシャルグラフを扱う場合に役立つ

「brew Cask」でMacにアプリをインストールする方法!
brew Caskを使うことにより、Macにアプリを簡単にインストールすることできます。その...

Apache Sparkの環境構築

続いてApache Sparkの環境構築について紹介していきます。インストールに関して解説します。そしてApache Sparkの分散処理する方法・入門方法・特徴・インストール・ログファイル・Webインタフェース・バージョン表示に関しても紹介します。

インストール

上の画像のインストールにより以下の3種類の対話型実行環境も同時にインストールされるため、デバックの際は非常に良心的ですね。

  • spark-shell (Scala)
  • pyspark (python)
  • sparkR (R言語)

Macでのインストール

Apache Sparkの環境構築では、Macでのインストールする必要があります。

Java SE Downloads

Windowsでのインストール

Macでのインストール以外にも、WindowsでインストールしてもApache Sparkの環境構築をできます。

また、Apache Sparkの分散処理する方法・入門方法・特徴・インストール・ログファイル・Webインタフェース・バージョン表示についてもみていきましょう。

Lightning-fast unified analytics engine Toggle navigation
チャットゲームアプリ無料おすすめを紹介!【スマホ】
さまざまなゲームアプリと、さまざまなチャットアプリが登場していますが、最近チャットゲームアプ...

Apache Spark 分散処理の流れ

関連するまとめ

関連するキーワード

この記事のライター
あらこう
フリーランスでwebライターをしています。筋トレと散歩が日課です。

人気の記事

新着まとめ