お久しぶりです、髙橋@SSTDです。
最近、イベントの参加報告まとめばかりを投稿しているので、そろそろプログラミングベースのお話をしたいなと思っている今日この頃です。
といいつつも、先日Japan.R 2013に参加してきましたので、その内容を簡単に報告させて頂きます。
- Yahoo!ビッグデータからの景気動向指数の推測について
- 実ビジネスデータへのRの活用とその限界
- オンライン広告における大規模データの活用事例
- 2013年のTokyo.R
- LT大会
1. Yahoo!ビッグデータからの景気動向指数の推測について
Yahoo!JAPAN研究所 坪内さん
ビッグデータレポート
- 目的
- ネットとリアルの融合で世の中の課題解決
- ビッグデータレポートのワークフロー
- 企画->解析検証->議論->レポート作成(約5名/レポート)、業務の合間に分析されているそうです。
- 現在のラインナップ
- インフルエンザ、震災振り返り、選挙、景気指数
- 分析データ
- Yahoo!での検索数やPVなど
景気動向指数の予測
景気動向指数は、生産、雇用など様々な経済活動での重要かつ景気に敏感に反応する指標の動きを統合することによって、 景気の現状把握及び将来予測に資するために作成された指標である。(引用:https://www.esri.cao.go.jp/jp/stat/di/di3.html)
- 景気動向指数(その中の一致指数)の政府の算出方法
- 11個の指数の前月比伸び率の総和として算出
- 利用の注意点
- 3ヶ月に一度過去に遡って指数のベースラインを改訂。そのため、個々の値ではなく、過去との相対的な比較が重要
- 現在の問題点
- 内閣府の発表までには、2か月程度のラグ有り
- Yahoo!Japanの目的
- 一か月後には予測の発表を可能とすることで、現時点の景気を知りたい人の役に立つため。
- 分析対象データ
- 2012年に一度でも検索された言葉約75億語 のうち、毎日一定数以上(この基準は秘密)検索された約60万語の月間検索数を対象
- 分析方法
- 重回帰分析を使って景気動向一致指数モデルを構築
Y(景気指数) = a1X1(言葉A1の検索数) + a2X2(言葉A2の検索数) + ・・・ anXn + b
60万語のうち重要な単語を選ぶ、→たったの15ワード - ワード選択方法
- Step Wise法
- モデル構築の注意点
- オーバーフィッティングモデルを作らないように注意、最大15か月間先までを安定して推測できるモデルを抽出
- 予測結果
- 実績として4回実施し、誤差+-2の範囲に収まっているので、おおむね良い
- まとめ
- 手法自体は単純な重回帰分析であり、最小単位は検索行動のログであったが、このログを大量に集めることで国の経済活動を示すことも可能になる
2. 実ビジネスデータへのRの活用とその限界
ALBERT データ分析部 伊藤さん
分析力をコアとするマーケティングソリューションカンパニーALBERTのソリューションにどのようにRを活用しているのか。多種多様なデータを分析した結果見えてきたRの有用性とその限界についてのお話。
- Rの利用場面
- 分析・コンサルティングでのアドホック分析がある。システムに組み込まれての利用はしていないとのこと。
- 実務でよく使う分析手法
- 決定木や地図のマッピング。地図のマッピングは、実店舗を持っているお客様も多いため。
オンライン広告における大規模データの活用事例
- レコメンド広告の問題
- レコメンドシステムも人気の商品ばかりが推薦されてしまうという問題がある
- ALBERT DMPの動作環境
- AWS上で構築され、RedShiftも利用している
- 分析方法
- 回帰だとデータに欠損や異常値があるのでロバスト回帰
- アトリビューション分析例
- ベイジアンネットワークを利用して全データのパターンを可視化することでCVが最も起きやすいパターンを算出
- ビジネスにおけるデータ分析
- 前処理->分析->レポート。この中で前処理が大半を占めてしまっている。
- ビジネスデータ
- アンケートデータは、情報が密なのでRでの利用が容易。
- ECサイトの購買データは、情報がスパースであり、大規模なメトリクスであるため、Rだと速度面で不安が残る。
- apacheや広告配信の生ログ->非正規化データ、大量なため、Rでは難しい
- ビジネスにおけるデータ分析
- 前処理->分析->レポート。この中で前処理が大半を占めてしまっている。
- ビジネスデータ
- アンケートデータは、情報が密なのでRでの利用が容易。
- ECサイトの購買データは、情報がスパースであり、大規模なメトリクスであるため、Rだと速度面で不安が残る。
- apacheや広告配信の生ログ->非正規化データ、大量なため、Rでは難しい
- データ分析でやってはいけないあるある
- とりあえずパッケージに放り込む、SVMとか使ってみる、ランダムフォレストを使ってみる
- データ分析の必須
- 分析対象について理解する
- 分析手法について理解する
- 分析結果に対して適切なアクションを行う
- 分析手法を適切に理解するとは?
- データの前処理を適切に実施
- 問題を解決するのに適切な手法を選択
- パラメータチューニングを適切に実施
- アウトプットを理解できるようにする
- 正しく可視化する
- 適切なアクションとは?
- 仮説を正しく検証する
- 適切なPDCAサイクルを構築する
- データドリブンな意思決定は行う
- 組織やビジネスを変える
3. オンライン広告における大規模データの活用事例
Yahoo!JAPAN マーケティングソリューションカンパニー開発本部広告サイエンス部 田頭さん、堀田さん
ヤフーの広告配信の現場では、ユーザー・広告主・掲載パートナーの満足度を向上させるため、大規模データを用いて課題解決に努めており、この発表では予測モデルの構築を中心に、これらの取り組みの紹介。
- オンライン広告の課題
- 異なる目的を持つプレイヤのニーズに答える必要がある
- パブリッシャ(webページのオーナー)
- 儲かりたい
- 広告主
- 購買を促して低コストで多くの広告を出したい
- ユーザ
- 役立つ情報を知りたい、興味の持つ情報を知りたい
- 分析目的
- 事前に広告表示回数を予測したい
- 分析方法
- Rのglmnetライブラリを用いてリッジ回帰。数十万件のサンプルで学習・予測
- その他のトピック
- クリック率(CTR)予測の問題
- 同じ広告でも、対象のページやユーザが異なるとクリック率は異なる。
- CTR予測モデル
- 一般的にCTR予測モデルには線形モデルが用いられる。説明変数の種類が多い(100万~オーダー)疎なベクトルである。このCTRの予測が上手くいくと、収益を最大化できる。
- Yahoo!では
- 広告自体のスコアはリアルタイムで検索エンジンで計算している
4. 2013年のTokyo.R
ドリコム 里さん
- 発表概要
- 2013年のTokyoRでの発表紹介と振り返り
- Tokyo.Rではどんなことをしているのか?
- 初心者セッションでは、書籍「Rによる統計学」の内容を発表。上級者セッションでは、Tokyo.RのSlideShareをチェック
皆さんが同様に仰られることとして、データ分析は前処理やデータ自体を知ることが大事であるということです。 そのため、まずデータをどんどん貯めて、そしてそれをダッシュボードで可視化し、気付きを得ることによってRなどを使った分析に初めて取り組むのだろうと思います。 そういうわけで、fluentdで非正規化データまで含めてデータ収集し、TreasureDataにさくっと格納して、TableauとOSS Dashboardで可視化をするという流れは重要だと思います。
以上、勉強会の報告でした。