みなさんは、Apache Drill をご存知でしょうか?Apache Drill は Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えばHadoop のファイルシステムに対して SQL を用いてアクセスしクエリを実行できます。
Apache Drill とは?
みなさんは、Apache Drill をご存知でしょうか?Apache Drill は、Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えば Hadoop のファイルシステムに対して SQL を用いてアクセスし、クエリを実行 することができます。
Apache Drill の特徴は2つあります。
1つ目の特徴は、MapReduceを使わないで Hadoop のファイルシステム ( HDFS や MapR-FS ) 上にあるデータに直接アクセスできます。もちろん、Apache HBase などの NoSQL にもアクセスできます。
2つ目の特徴は、構造化データ から 非構造化データ まで、どのような構造のデータでも検索できる ことです。JSON 形式 や CSV 形式 のデータにもアクセスできるということになります。
Hadoop 黎明期には、Java で MapReduce 処理を書いて、バッチ処理アプリケーションを開発していました。その後に Hive が登場しましたが、MapReduce を SQL を介して利用できるようにするものなので、従来通りバッチ処理に適したものでした。MapReduce を使わずに検索できる Impala なども登場しましたが、標準のANSI SQLを使えるわけではなかったのです。その中、Apache Drill は ANSI SQL 準拠 のため、慣れ親しんでいる SQL の知識や、BI ツールをそのまま使用することができます。
MapR 社から、Apache Drill をお手軽に触れるように sandbox と呼ばれる 仮想アプライアンス が提供されています。今回は、sandbox を使って、Apache Drill の簡単な操作を紹介します。
用意するもの
1. VMware Workstation Player
https://my.vmware.com/jp/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/12_0
2. MapR-Sandbox-For-Apache-Drill-1.4.0-5.0.0-vmware.ova
https://www.mapr.com/products/mapr-sandbox-hadoop/download-sandbox-drill
準備
1. VMware Workstation Player をインストール
2. MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova の展開
2-1.「仮想マシンを開く」をクリックします。
2-2.ダウンロードした「MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova」を選択し、「開く」をクリックします。
2-3. 展開が完了後、「仮想マシンの再生」をクリックします。
2-4. sandbox に ssh 接続します。
※ユーザ:root、パスワード:mapr
Apache Drill Shell の操作
本記事は、日本サード・パーティ株式会社(JTP)にて、執筆しています。
JTPは約30年に渡り、様々なベンダーのサポートを行う企業です。 設計、構築、開発、運用、ヘルプデスク、トレーニングなど、ITのライフサイクルを通して技術サービスを提供しています。
中でも、JTP の IT教育サービスでは、クラウド、Hadoop関連技術など、OSS の最新技術 トレーニングを数多く実施しています。
JTPでは、経験豊富なエンジニア、講師陣により、多くの技術記事を公開しております。
▼JTPの情報メディア「JTP Technology Port」はこちらから!