Data Engineering with Apache Spark, Delta Lake, and Lakehouse読んだ
tl;dr
LakeHouseアーキテクチャの本だよ
全体像を知るのは良いかも。個々の技術(Spark、DeltaLake、Azure)はそこまで詳しい記載はないよ
なんで読んだの
LakeHouseやDeltaLakeという単語聞いたことありますが、よく知らないなーというのがありました。
O'Reillyのサブスク(Safari)でこの本を見つけて、流行り言葉だし知っておこうかという事で読みました。
この本で紹介されていること
- データエンジニアリングの概要
- データの種類とか利用の例とか
- アーキテクチャ
- 従来(DataLake、Lambda、Kappa)の概要
- LakeHouse Architecture
- Azureのデータエンジニアリング関係のサービスの概要
- データパイプライン
- 構成要素(入力、変換、出力、Workflow、監視)
- 作成のフェーズ(Discovery、Design、Development、Deployment)
- LakeHouseのレイヤー(Bronze、Silver、Gold)毎のハンズオン
- SQLServerからData Factory使ってAzure Blob Storageへの書き込み(Brozne)
- Azure Blob StorageからDeltaLake・Databricks使って、データの標準化(Silver)
- 開発後の話
- IaC
- CI/CD
- Monitoring
- データエンジニアリングのチャレンジ(難問のニュアンス?)
- Schema Evolution
- データ共有
- データガバナンス(カタログ)
この本では(あまり)紹介されていないこと
- Azureのデータ関連サービスの記載ありますが、さらっとした記載です。あくまでこの本のハンズオンを行うための記載と割り切った方が良さそうです
- (というかハンズオンを理解するのも怪しいかも)
- データに関係ないAzureサービスの説明は、なおのことありません
- DeltaLakeの説明はありますが、機能(タイムトラベル、トランザクション)の説明のみで、仕組みの話や同じカテゴリーの製品(e.g. Hudi、Iceberg)の比較はほぼありません
- 私はここらへんを知りたかったので残念