本日、開催されたData Platform Meetup vol.2に参加してきました。発表の内容や関連するリンクをまとめました。
data-platform-meetup.connpass.com
- 開催日時: 2019年12月2日
- 会場: Pixivさんオフィス
Data Platform Meetupとは
connpassページからの引用です。
データプラットフォームを設計/開発/利用している方(データエンジニア/データアナリスト/データサイエンティスト/機械学習エンジニア等)がノウハウを発表したりカジュアルに情報交換できるイベントです。
第一回は9月に開催され、定員の120名を大きく超える応募があったように大盛況でした。
【増枠】Data Platform Meetup - connpass
個人的にはeurekaの鉄本さんの発表資料が自分の状況に当てはまることが多く、大変勉強になりました。他の方にも強くオススメしています。
またMercariさんの発表で「『誰でも中間テーブル』という仕組みをAirflowで作っている」という話がありました。とても感銘を受け、翌日早速、Serverless Frameworkで『Serverlessな誰でも中間テーブル』という仕組みを作ってみました。なかなか便利に使えているのでこれについては何らかの形で社外に発表したいと思っています。
第二回の今回も第一回と同様に定員の100名を上回る応募があり、皆さんのDPに対する関心の高さが伺えます。
発表のまとめ
個人的に三行でまとめると↓のような感想でした。
- 社内コミュニティやドキュメントなどの啓蒙活動でスキルやナレッジの伝達を各社努力している
- Redshiftはマジで大変そう(自分はBig Queryにかなり救われている)
- 縦持ち、横持ちはコンテキストによって必要性が変わるので使い分ける(snowflake schema)
それではそれぞれの発表についてのまとめです。
プロダクト中心のデータ駆動を推進していくために大事なこと
- 発表者: 長部 和仁さん / pixiv
- 発表資料: プロダクト中心のデータ駆動を推進していくために必要なこと - Speaker Deck
聴講メモ↓
なぜDPが盛り上がっているのか
- クラウドDWHの普及: DPの利用が簡単になりデータ利用の総量が増えた
- 機械学習: ユースケースが増えた
データ活用のための組織構造
- 2パターンある: 中央集権型、民主化型
- 中央集権的: 「データアナリスト」が分析を行う
- 民主化型: 「当事者」が分析を行う
- pixivでは「民主化」を選んだ
民主化に向けて
- 壁
- 分析スキルの担保
- ナレッジの共有
- ガバナンス
- データ駆動推進室がやったこと
- 「分析・加工の代行は受けない」ようにした
- 簡単にBQにデータをLoadできるツールを作成
- Lookerの導入
- 「データエンジニアリング互助会」の作成などナレッジの共有できる場の設定
- 学習教材の作成を行った
- 結果
- 「スペシャリストに仕事が偏る」ことが減った
参考記事
- データ好きに捧ぐ。pixivのデータ活用事例と無限の可能性 - pixiv inside
- データ民主化を加速させる「分析ワクワクタイム」 - pixiv inside
- Visualize GCP Billing using BigQuery and Data Studio
- BigQueryのクエリ課金額をslack通知する - Gunosyデータ分析ブログ
- データ集計基盤の改善でLooker導入に至ったワケ - ZOZO Technologies TECH BLOG
- 最近ZOZOさんもLookeを導入していました
感想
「民主化に向けた壁」は自分の会社に照らし合わせても共感できることが多かったです。「ガバナンス」の問題はシステム的に解決できるかもと思いました。
データを用意しただけだと使われないので、使ってもらえるようにした努力
- 発表者: Hashimoto Yukiさん
- 発表資料: 現状未公開?(Data Platform Meetup - 資料一覧 - connpass で更新を要チェック)
聴講メモ↓
LivesenseのDWH概要
- AWS Redshiftで運用
- アクセスログ、イベントログ
頑張ったこと
- 「入門ドキュメント」の作成
- Cookpadが開発しているdmemoを使っている
- LA Night: 実際に利用している現場の方に発表してもらう
参考記事
感想
データ部署が「ホスピタリティ」を持ってDWHの利用を普及されているのが素晴らしいな、と思いました。
DWHを活用したクックパッドの機械学習プロジェクト
- 発表者: Inuzuka Shintaroさん(@stu3dio_graph) / Cookpad
- 発表資料: DWHを活用した機械学習プロジェクト/ml-with-dwh - Speaker Deck
聴講メモ↓
- データ取得時にRedshiftを直接叩かなくてよいように内製ツールを使っている
- 機械学習の結果をDWHに保存して様々な部署に使ってもらっている
- dmemoを使っている
- Redshiftへのデータ投入にも内製ツールを作成している
参考記事
- データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
- クックパッドのデータ活用基盤 - クックパッド開発者ブログ bricolages/queuery_client: Queuery Redshift HTTP API Client
感想
Redshift大変そうだなと思いつつ、内製で様々なツールを作って解決されているなと思いました。
アプリデータの分析を楽に効果的に!FirebaseAnalyticsとお友達になると良い3つの理由。
- 発表者: Kurimuraさん(@t_kurimura) / Eureka
- 発表資料: アプリデータの分析を楽に効果的に! FirebaseAnalytics とお友達になると良い3つの理由_DPM_vol2.pdf - Google ドライブ
聴講メモ↓
- Firebase Analyticsの長所
- ログ送信が楽、bulkで送ってくれたり行き届いていて良い
- 自動でセッション関連など基本データは送ってくれる
- EurekaではFirebase AnalyticsをETLでBQに入れ、RedashやTableauでデータ分析している
感想
FirestoreからExportする場合も少しクセがあり、自分も困った体験しました。Firebase→BQのETLはどの会社さんもやってそうですね…。
DWH デザインパターン 〜 テーブル設計編 〜
- 発表者: Takeno Shunsukeさん
- 発表資料: つかわれるプラットフォーム 〜デザイン編〜@DPM#2 - Speaker Deck
聴講メモ↓
- Snowflake schemaを使う
- Snowflake schema - Wikipedia
- 正規化テーブルと非正規化テーブルを分解する(ディメンションテーブル、ファクトテーブル)
- 縦持ちと横持ちのトレードオフを考える
- Rettyでは概ね横持ち
感想
コンテキストによってデータ形式を変えていくというのは参考にしたいと思いました。
その他、最近のDP界隈の話題
今日の発表では直接触れられていたわけではないですが、自分がDP関係で追っているニュースの中で話題になっていたもの興味があるものを貼っておきます。
- 3社の事例から学ぶ!現場で使われるダッシュボードの作り方 #前向きデータ整備人 / 20191127 - Speaker Deck
- データ集計基盤の改善でLooker導入に至ったワケ - ZOZO Technologies TECH BLOG
あと「Data Engineering Podcast」で紹介されていた元Facebookのエンジニアが作っているETLフレームワークの「Dagster」が気になっています。これから流行る予感がします。
www.dataengineeringpodcast.com
またData Bricks社が中心に開発しているML Opsフレームワーク「ML flow」をいくつかのプロジェクトで使っていまして、なかなか便利に使えています。
今後のData Platform Meetupに参加したい方は
connpassにグループページがあるのでこちらに参加すれば開催のアナウンスを受け取ることができます。自分は運営者ではありませんが、ぜひみんなで勉強会を盛り上げて行きましょう。
data-platform-meetup.connpass.com
さいごに
第一回に引き続き第二回も、すべての発表が実際のプラクティスに基づいていて、非常に参考になりました。運営の皆さん、開催ありがとうございました。
データプラットフォームも、マイクロサービスと同様に、組織やドキュメンテーション、コミュニケーションで解決しなければいけない領域が結構あり、このように知識を共有していくことは非常に重要ですね。
次回以降自分も発表のタイミングがあればしていきたいと思います。