Secret Ninja Blog

Support Engineering Director してます

Embulk & Digdag Online Meetup 2020 振り返り

f:id:toru-takahashi:20200709213357p:plain

techplay.jp

コロナの影響で延期したEmbulk & Digdag Online Meetup 2020をオンライン開催しました。 今回は、Zoom Webniarモードとyoutube連携でのライブ配信+sli.doによるQAを初めて試みました。そのため、慣れないことも多々ありましたが、 Youtube経由の方が配信の映像や音質などのクオリティも高く、よかったのではないかと思います。 イベントには124名の方に申し込みがありました!

また、youtubeでの最大同時接続数は143になったので、まずまず多くの方に参加いただけたのではないかなと思います。

アンケート結果

イベントの参加登録時に下記アンケートをとりました。それぞれの結果について共有します。

EmbulkとDigdagのどちらに主に興味があって参加されますか?

f:id:toru-takahashi:20200709210754p:plain

EmbulkとDigdagを本番環境にて運用していますか?

f:id:toru-takahashi:20200709210900p:plain

EmbulkやDigdagがどんな場面で役に立っているか教えてください

ざっくりみなさんのコメントをサマリーしてみました。

  • データ分析基盤のETL
    • データの洗い替え
    • RDB / BigQuery / Treasure Data / その他SaaSなどでのマスタデータやログデータのデータ移動
    • データ可視化
    • 前処理・データマート作成用
  • ワークフローやyamlの可視化や可読性
  • ワークフローの管理共有のコード化
  • cronとかよりも高機能なジョブスケジューラ・並列実行機能など

コメントを見ているとトレジャーデータのユーザさんが、Treasure workflow / Data Connectorなどのサービスを介してご利用いただいている方もいたようです。 (ありがとうございますmm)

EmbulkまたはDigdagに対して何か要望はありますか?

  • BigQuery のwaitオペレーター
  • 実行中のtaskを終了させる機能/オペレータ
  • ループ系の処理での同時実行数を実行ワークフロー毎にコントロールするパラメータ
  • GUIでのファイルのディレクトリ管理
  • ドキュメント・ユースケースの充実化
    • 自社での設計・運用のベストプラクティス
    • 開発ロードマップの解説
  • プラグイン開発の簡易化
  • ワークフローの可視化機能
  • 特定taskの保留 / 再開
  • ジョブごとの変数のロードをサポートして欲しい(環境ごとに変数を変更できるように)
  • Web UIの機能充実(非エンジニアでも実行できるようにしたい)・権限管理・ソート機能など
  • ワークフローの優先度
  • 特定ノードを指定したワークフローの実行
  • リソースのクォータ制御
  • ワークフローのpending上限設定を全ジョブじゃなくてワークフロー単位でカウント
  • Server Modeでジョブ間のリソースをキャッシュして渡せるようにしたい、ワークフロー間の依存関係を持てるようにして欲しい(wk_aとwk_bが成功したらwk_cを実行して欲しい)

とかがありました!ここらへんはEmbulk / DigdagのIssueとしてあげたらいいのかなーと思いながらまだ手が付いてません。 ループでの並列数制御はv0_10ではいっているので、今後利用できるようになると思います!

Sli.doでの質疑応答

当日はQAを下記Sli.doで行いました。Achiveから参照できます。(FreeプランのSli.doだとダウンロードができなかったので・・・)

https://app.sli.do/event/rmpbrfsv

まとめ

当日のスライドは、Techplayのイベントレポートページで公開予定です。 スライドが揃い次第公開します。

トレジャーデータは引き続きOSS開発にも注力していきますが、そのためにはより多くのデベロッパーが必要です! トレジャーデータに興味がある方はお気軽にお声がけください!

jobs.lever.co