こんにちは、SSTDの大村です。今回はGoogle社が提供しているビッグデータ分析サービスのBigQueryを紹介します。
Google BigQueryは今年6月に値下げと分析関数の強化などの機能追加が発表されたり、ベースとして利用しているDremelをオープンソース化しようという動きもあり、今注目すべきビッグデータ技術です。早速使ってみましょう。利用前にGoogleアカウントを作成しておく必要があります。
サービスの選択
まずはGoogle APIs Consoleをブラウザで表示し、利用サービスを選択します。

左側のサイドメニューの「Services」を選択し、表示された画面の「Big Query API」をマウスでクリックし「ON」にします。これでBigQueryを利用できるようになりました。web interfaceに移動しましょう。
はじめてのクエリ

あらかじめ用意されているサンプルデータを検索してみましょう。左側のサイドメニューの「publicdata:samples」をクリックするといくつかのテーブル一覧が表示されますので、その中の「github_nested」をクリックします。右側に「Query Table」というボタンが出ますので、クリックします。上のほうにNew Queryという領域が出現しますので、テキストボックスに下記のクエリを記述します。
SELECT actor,count(1) as cnt FROM [publicdata:samples.github_nested] group by actor
入力したら「RUN QUERY」を押しましょう。

結果が表示されました。actor別のレコード数が表示されています。
もともと用意されているデータですが、今回は250万件ほどのデータが2秒でグループ化できました。早いですね。
今回は無料でアクセスできるサンプルでクエリを試してみましたが、次回はクレジットカードを登録し独自のデータセット、テーブルの作成する方法を紹介します。