コロナの影響で延期したEmbulk & Digdag Online Meetup 2020をオンライン開催しました。 今回は、Zoom Webniarモードとyoutube連携でのライブ配信+sli.doによるQAを初めて試みました。そのため、慣れないことも多々ありましたが、 Youtube経由の方が配信の映像や音質などのクオリティも高く、よかったのではないかと思います。 イベントには124名の方に申し込みがありました!
また、youtubeでの最大同時接続数は143になったので、まずまず多くの方に参加いただけたのではないかなと思います。
アンケート結果
イベントの参加登録時に下記アンケートをとりました。それぞれの結果について共有します。
EmbulkとDigdagのどちらに主に興味があって参加されますか?
EmbulkとDigdagを本番環境にて運用していますか?
EmbulkやDigdagがどんな場面で役に立っているか教えてください
ざっくりみなさんのコメントをサマリーしてみました。
- データ分析基盤のETL
- データの洗い替え
- RDB / BigQuery / Treasure Data / その他SaaSなどでのマスタデータやログデータのデータ移動
- データ可視化
- 前処理・データマート作成用
- ワークフローやyamlの可視化や可読性
- ワークフローの管理共有のコード化
- cronとかよりも高機能なジョブスケジューラ・並列実行機能など
コメントを見ているとトレジャーデータのユーザさんが、Treasure workflow / Data Connectorなどのサービスを介してご利用いただいている方もいたようです。 (ありがとうございますmm)
EmbulkまたはDigdagに対して何か要望はありますか?
- BigQuery のwaitオペレーター
- 実行中のtaskを終了させる機能/オペレータ
- ループ系の処理での同時実行数を実行ワークフロー毎にコントロールするパラメータ
- GUIでのファイルのディレクトリ管理
- ドキュメント・ユースケースの充実化
- 自社での設計・運用のベストプラクティス
- 開発ロードマップの解説
- プラグイン開発の簡易化
- ワークフローの可視化機能
- 特定taskの保留 / 再開
- ジョブごとの変数のロードをサポートして欲しい(環境ごとに変数を変更できるように)
- Web UIの機能充実(非エンジニアでも実行できるようにしたい)・権限管理・ソート機能など
- ワークフローの優先度
- 特定ノードを指定したワークフローの実行
- リソースのクォータ制御
- ワークフローのpending上限設定を全ジョブじゃなくてワークフロー単位でカウント
- Server Modeでジョブ間のリソースをキャッシュして渡せるようにしたい、ワークフロー間の依存関係を持てるようにして欲しい(wk_aとwk_bが成功したらwk_cを実行して欲しい)
とかがありました!ここらへんはEmbulk / DigdagのIssueとしてあげたらいいのかなーと思いながらまだ手が付いてません。 ループでの並列数制御はv0_10ではいっているので、今後利用できるようになると思います!
Sli.doでの質疑応答
当日はQAを下記Sli.doで行いました。Achiveから参照できます。(FreeプランのSli.doだとダウンロードができなかったので・・・)
https://app.sli.do/event/rmpbrfsv
まとめ
当日のスライドは、Techplayのイベントレポートページで公開予定です。 スライドが揃い次第公開します。
トレジャーデータは引き続きOSS開発にも注力していきますが、そのためにはより多くのデベロッパーが必要です! トレジャーデータに興味がある方はお気軽にお声がけください!