Making Spark Cloud Native At Data Mechanics - Episode 184聞いた
Podcast | Data Engineering Podcast |
エピソード | Making Spark Cloud Native At Data Mechanics - Episode 184 |
公開 | 2021/05/07 |
トピック | Spark |
ゲスト | Jean-Yves Stephan さん |
ゲストの肩書 | DataMechanicsのCEO・創業者 |
聞き取ったこと
概要
- Data Mechanicsは、SparkをクラウドのKubernetes(EKS、GKE…)で動かすサービス
- ゲストはData Mechanicsの社長・創業者で、元々Databricksの方
DataMechanicsが提供するもの
- 色々な「knob」(設定項目?)があるのでSparkの設定が難しい。DataMechanicsはチューニングしたコンテナイメージを提供
- また、パッケージ間の依存関係を気にする度合いが少なくなる
- オンプレだとクラスタが固定だけど、DataMechanicsではオートスケールを提供しているので、コスト削減につながる
- モニタリング用のダッシュボード
- ちなみにOSS
- AirflowやJupyuterからの操作
気になる
- パブリッククラウドのManaged Spark(EMR、DataProc…)との比較
- 製品ページによると、自動でチューニングしてくれるので安くなるらしい(We've achieved 50 to 75% cost reductions for customers migrating from competing platforms like Databricks or EMR. )
- Databricksとの関係
- (自分がDatabricksよくわかっていないので、的外れな比較かも)