Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing読んだ(1)
数少ない(唯一?)Dataflow/Apache Beam本で、著者はGoogleでDataflowの開発していた人です。
良かった
- 個々の話題は、Streaming 101: The world beyond batch – O’ReillyとかBeam Programming GuideとかGCPブログに載っている情報が多いですが、まとまって読める
- 最後の章(Chapter10)で、ストリーミングの仲間たち(Spark/Storm/Flink/Beam/Dataflow…)の流れをつかめる
- Dataflowの裏側の情報も一部載っている
(watermarkの計算とか)
悪かった
Dataflow・Beamの本ではなくてStreaming Systemsな本です。
具体的には、
- Beamに(今は)無い機能がシレッとあったりする
(Acuumulating modeのRetractingとか) - Beamでよく使う機能(いわゆるCore TransformationsとかCoder)の説明がなかったりする
- Streamingに関係ない説明はバッサリ省略されている(デプロイとか)
ので、この本だけでDataflow/Beamを学習するのは難しくてBeam Katas/Beam Programming Guideあたりも読んだ方いいと思います。