カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing読んだ(1)

 

 

shop.oreilly.com

数少ない(唯一?)Dataflow/Apache Beam本で、著者はGoogleでDataflowの開発していた人です。

 

良かった

  • 個々の話題は、Streaming 101: The world beyond batch – O’ReillyとかBeam Programming GuideとかGCPブログに載っている情報が多いですが、まとまって読める
  • 最後の章(Chapter10)で、ストリーミングの仲間たち(Spark/Storm/Flink/Beam/Dataflow…)の流れをつかめる
  • Dataflowの裏側の情報も一部載っている
    (watermarkの計算とか)

悪かった

Dataflow・Beamの本ではなくてStreaming Systemsな本です。

 具体的には、

  1. Beamに(今は)無い機能がシレッとあったりする
    (Acuumulating modeのRetractingとか)
  2. Beamでよく使う機能(いわゆるCore TransformationsとかCoder)の説明がなかったりする
  3. Streamingに関係ない説明はバッサリ省略されている(デプロイとか)

ので、この本だけでDataflow/Beamを学習するのは難しくてBeam Katas/Beam Programming Guideあたりも読んだ方いいと思います。