「DataOps Night #5 セキュリティとアジリティを両立するためのプラクティス」に参加してきました - ozaki25’s diary

「DataOps Night #5 セキュリティとアジリティを両立するためのプラクティス」に参加してきました

Snowflake x dbtで作るセキュアでアジャイルなデータ基

ナウキャストのデータ共通基盤

  • Snowflakedtbでプライベートネットワーク内で完結させている
  • データパイプラインの事例
    • データホルダーは個人情報はセキュアな環境でのみ扱ってほしい
    • セキュアな環境を担保しながら開発効率は落としたくない
    • 個人情報出ないデータは社内で幅広く使いたい
  • Snowflakeのセキュアな環境と通常の環境でアカウントを分ける
    • セキュア側へのアクセスはPrivateLinkで絞る
    • 個人情報出ないデータはセキュアから通常へはSecureDataSharingで連携
      • データの実体は1つだけで参照ができるようになるのでコピーが不要
  • データを共有するチームと共有されるチームで責任がきれいに分かれる
    • セキュアでありながらスピードを落とさないように動ける
  • 一部のCIがGitHubActionsでSnowflakeにアクセスできないから動かせない
    • EC2上で動かしてる

最速最小からはじめるデータプロダクト

データプロダクト

  • データがあるとデータが使えるは違う
    • 手軽に取り出せるか
    • データがきれいに整っているか
  • データが使えるようになってもプロダクト化するにはさらにハードルがある
  • データが使えるとデータが使われるの違い
    • ユーザが扱いやすいアウトプットか
    • 本来取りに行くべきデータにたどり着けるか
  • 最速最小から始めるといい
    • MVPを定めてそこから進める
    • 通常のプロダクトと同じようにアジャイルに小さくサイクルを回す
    • とはいえ眼の前の今あるデータから始めるとなってしまっていいのか
  • プロダクトのユーザのニーズから
    • 分析できれば課題を解決できるのか
    • 新しいデータを集める必要があるのか
  • プロトタイピング
    • まずは紙に書いたりFigmaで書いたりするところから
      • プロトタイプでユーザテストしたり
    • エクセルに手動でデータ入れたものを用意
      • データ基盤と切り離せる
      • ユーザが加工したことを確認できる
    • BIツールを使う
      • レポート機能が便利

小規模に始めるデータメッシュとデータガバナンスの実践

データメッシュとデータガバナンス

  • データメッシュ
    • 組織内のデータ管理するを分散型アプローチ
    • データのオーナーシップを各ドメインに分散する
    • 中央集権的な管理がないのでアジリティ高く動ける
  • なぜデータメッシュ
    • 事業の拡大とともにドメインが増えた
      • ドメインが1から複数に増えていったので移行コストがなかった
    • ドメインが独立して開発をしている
  • データガバナンス
    • Dataplexで分散データを統合
    • 発見可能性/品質/セキュリティ/相互運用性
    • Dataplexの機能で実現