The Cloud Data Lake読んだ
The Cloud Data Lakeという本を読みました。
どんな本か
- 2022/12に出版された「Cloud Data Lake 」の本です
- クラウドでのデータ基盤を紹介しています
MicrosoftでAzure StorageとかHDInsightのPMしていた、 Rukmani Gopalan さんが著者です
- (今はMSからMetaに転職している模様)
Fundamentals of Data Engineeringよりも抽象的(アーキテクチャ)な話がメインです
思ったこと
- 想定読者が難しそう。データエンジニア系の人はFundamentals of Data Engineeringの方が、より具体的でわかりやすいと思います
- アーキテクト的な人を想定しているのかしら
- 新しい概念(「Cloud Data Lake」)を提唱してそうな書名ですが、言ってる事はクラウドにData Lake・Data Warehouse作りましょうって話です
- 副題(「A Guide to Building Robust Cloud Data Architecture」)の方が、本の中身にあっている気がします
この本で紹介されていること
- データ基盤の(鳥瞰図的な)説明
- アーキテクチャの選び方
- コストとかデータガバナンスとか、非機能要件的な話
- Delta Lake・Iceberg・Hudiなどの、Table Formatの話
- この本は抽象的な話が多いですが、この話の章(Chapter 6)だけ、謎に具体的です