フリーランチ食べたい

No Free Lunch in ML and Life. Pythonや機械学習のことを書きます。

【参加レポート】Data Platform Meetup vol.2の発表内容まとめ&最近のDP界隈の話題

本日、開催されたData Platform Meetup vol.2に参加してきました。発表の内容や関連するリンクをまとめました。

f:id:mergyi:20191202200949p:plain

data-platform-meetup.connpass.com

  • 開催日時: 2019年12月2日
  • 会場: Pixivさんオフィス

Data Platform Meetupとは

connpassページからの引用です。

データプラットフォームを設計/開発/利用している方(データエンジニア/データアナリスト/データサイエンティスト/機械学習エンジニア等)がノウハウを発表したりカジュアルに情報交換できるイベントです。

第一回は9月に開催され、定員の120名を大きく超える応募があったように大盛況でした。

【増枠】Data Platform Meetup - connpass

個人的にはeurekaの鉄本さんの発表資料が自分の状況に当てはまることが多く、大変勉強になりました。他の方にも強くオススメしています。

speakerdeck.com

またMercariさんの発表で「『誰でも中間テーブル』という仕組みをAirflowで作っている」という話がありました。とても感銘を受け、翌日早速、Serverless Frameworkで『Serverlessな誰でも中間テーブル』という仕組みを作ってみました。なかなか便利に使えているのでこれについては何らかの形で社外に発表したいと思っています。

speakerdeck.com

第二回の今回も第一回と同様に定員の100名を上回る応募があり、皆さんのDPに対する関心の高さが伺えます。

発表のまとめ

個人的に三行でまとめると↓のような感想でした。

  • 社内コミュニティやドキュメントなどの啓蒙活動でスキルやナレッジの伝達を各社努力している
  • Redshiftはマジで大変そう(自分はBig Queryにかなり救われている)
  • 縦持ち、横持ちはコンテキストによって必要性が変わるので使い分ける(snowflake schema)

それではそれぞれの発表についてのまとめです。

プロダクト中心のデータ駆動を推進していくために大事なこと

speakerdeck.com

聴講メモ↓

なぜDPが盛り上がっているのか

  • クラウドDWHの普及: DPの利用が簡単になりデータ利用の総量が増えた
  • 機械学習: ユースケースが増えた

データ活用のための組織構造

民主化に向けて

    • 分析スキルの担保
    • ナレッジの共有
    • ガバナンス
  • データ駆動推進室がやったこと
    • 「分析・加工の代行は受けない」ようにした
    • 簡単にBQにデータをLoadできるツールを作成
    • Lookerの導入
    • 「データエンジニアリング互助会」の作成などナレッジの共有できる場の設定
    • 学習教材の作成を行った
  • 結果
    • 「スペシャリストに仕事が偏る」ことが減った

参考記事

感想

「民主化に向けた壁」は自分の会社に照らし合わせても共感できることが多かったです。「ガバナンス」の問題はシステム的に解決できるかもと思いました。

データを用意しただけだと使われないので、使ってもらえるようにした努力

聴講メモ↓

LivesenseのDWH概要

  • AWS Redshiftで運用
  • アクセスログ、イベントログ

頑張ったこと

参考記事

感想

データ部署が「ホスピタリティ」を持ってDWHの利用を普及されているのが素晴らしいな、と思いました。

DWHを活用したクックパッドの機械学習プロジェクト

speakerdeck.com

  • 発表者: Inuzuka Shintaroさん(@stu3dio_graph) / Cookpad
  • 発表資料: DWHを活用した機械学習プロジェクト/ml-with-dwh - Speaker Deck

聴講メモ↓

参考記事

感想

Redshift大変そうだなと思いつつ、内製で様々なツールを作って解決されているなと思いました。

アプリデータの分析を楽に効果的に!FirebaseAnalyticsとお友達になると良い3つの理由。

聴講メモ↓

  • Firebase Analyticsの長所
    • ログ送信が楽、bulkで送ってくれたり行き届いていて良い
    • 自動でセッション関連など基本データは送ってくれる
  • EurekaではFirebase AnalyticsをETLでBQに入れ、RedashやTableauでデータ分析している

感想

FirestoreからExportする場合も少しクセがあり、自分も困った体験しました。Firebase→BQのETLはどの会社さんもやってそうですね…。

DWH デザインパターン 〜 テーブル設計編 〜

speakerdeck.com

聴講メモ↓

  • Snowflake schemaを使う
    • Snowflake schema - Wikipedia
    • 正規化テーブルと非正規化テーブルを分解する(ディメンションテーブル、ファクトテーブル)
  • 縦持ちと横持ちのトレードオフを考える
    • Rettyでは概ね横持ち

感想

コンテキストによってデータ形式を変えていくというのは参考にしたいと思いました。

その他、最近のDP界隈の話題

今日の発表では直接触れられていたわけではないですが、自分がDP関係で追っているニュースの中で話題になっていたもの興味があるものを貼っておきます。

あと「Data Engineering Podcast」で紹介されていた元Facebookのエンジニアが作っているETLフレームワークの「Dagster」が気になっています。これから流行る予感がします。

www.dataengineeringpodcast.com

dagster-io/dagster: A Python library for building data applications: ETL, ML, Data Pipelines, and more.

またData Bricks社が中心に開発しているML Opsフレームワーク「ML flow」をいくつかのプロジェクトで使っていまして、なかなか便利に使えています。

github.com

今後のData Platform Meetupに参加したい方は

connpassにグループページがあるのでこちらに参加すれば開催のアナウンスを受け取ることができます。自分は運営者ではありませんが、ぜひみんなで勉強会を盛り上げて行きましょう。

data-platform-meetup.connpass.com

さいごに

第一回に引き続き第二回も、すべての発表が実際のプラクティスに基づいていて、非常に参考になりました。運営の皆さん、開催ありがとうございました。

データプラットフォームも、マイクロサービスと同様に、組織やドキュメンテーション、コミュニケーションで解決しなければいけない領域が結構あり、このように知識を共有していくことは非常に重要ですね。

次回以降自分も発表のタイミングがあればしていきたいと思います。