Apache Drill を使ってみよう!!

みなさんは、Apache Drill をご存知でしょうか?Apache Drill は Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えばHadoop のファイルシステムに対して SQL を用いてアクセスしクエリを実行できます。

Apache Drill とは?

みなさんは、Apache Drill をご存知でしょうか?Apache Drill は、Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えば Hadoop のファイルシステムに対して SQL を用いてアクセスし、クエリを実行 することができます。

Apache Drill の特徴は2つあります。
1つ目の特徴は、MapReduceを使わないで Hadoop のファイルシステム ( HDFSMapR-FS ) 上にあるデータに直接アクセスできます。もちろん、Apache HBase などの NoSQL にもアクセスできます。
2つ目の特徴は、構造化データ から 非構造化データ まで、どのような構造のデータでも検索できる ことです。JSON 形式CSV 形式 のデータにもアクセスできるということになります。

Hadoop 黎明期には、Java で MapReduce 処理を書いて、バッチ処理アプリケーションを開発していました。その後に Hive が登場しましたが、MapReduce を SQL を介して利用できるようにするものなので、従来通りバッチ処理に適したものでした。MapReduce を使わずに検索できる Impala なども登場しましたが、標準のANSI SQLを使えるわけではなかったのです。その中、Apache DrillANSI SQL 準拠 のため、慣れ親しんでいる SQL の知識や、BI ツールをそのまま使用することができます。

MapR 社から、Apache Drill をお手軽に触れるように sandbox と呼ばれる 仮想アプライアンス が提供されています。今回は、sandbox を使って、Apache Drill の簡単な操作を紹介します。

 

用意するもの

 1. VMware Workstation Player
https://my.vmware.com/jp/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/12_0

 2. MapR-Sandbox-For-Apache-Drill-1.4.0-5.0.0-vmware.ova
https://www.mapr.com/products/mapr-sandbox-hadoop/download-sandbox-drill

 

準備

 1. VMware Workstation Player をインストール

 2. MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova の展開

  2-1.「仮想マシンを開く」をクリックします。

jtp_apache_001
  2-2.ダウンロードした「MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova」を選択し、「開く」をクリックします。

jtp_apache_002

  2-3. 展開が完了後、「仮想マシンの再生」をクリックします。

  2-4. sandbox に ssh 接続します。
    ※ユーザ:root、パスワード:mapr

jtp_apache_003

 

Apache Drill Shell の操作

 

続きはこちらから・・・

本記事は、日本サード・パーティ株式会社(JTP)にて、執筆しています。

JTPは約30年に渡り、様々なベンダーのサポートを行う企業です。 設計、構築、開発、運用、ヘルプデスク、トレーニングなど、ITのライフサイクルを通して技術サービスを提供しています。

中でも、JTP の IT教育サービスでは、クラウド、Hadoop関連技術など、OSS の最新技術 トレーニングを数多く実施しています。

JTPでは、経験豊富なエンジニア、講師陣により、多くの技術記事を公開しております。

 

▼JTPの情報メディア「JTP Technology Port」はこちらから!

https://www.jtp.co.jp/techport/

ご覧いただきありがとうございます! この投稿はお役に立ちましたか?

役に立った 役に立たなかった

0人がこの投稿は役に立ったと言っています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です