カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

Data Engineering with Apache Spark, Delta Lake, and Lakehouse読んだ

learning.oreilly.com

tl;dr

  • LakeHouseアーキテクチャの本だよ

  • 全体像を知るのは良いかも。個々の技術(Spark、DeltaLake、Azure)はそこまで詳しい記載はないよ

なんで読んだの

LakeHouseやDeltaLakeという単語聞いたことありますが、よく知らないなーというのがありました。

O'Reillyのサブスク(Safari)でこの本を見つけて、流行り言葉だし知っておこうかという事で読みました。

この本で紹介されていること

  • データエンジニアリングの概要
    • データの種類とか利用の例とか
  • アーキテクチャ
    • 従来(DataLake、Lambda、Kappa)の概要
    • LakeHouse Architecture
  • Azureのデータエンジニアリング関係のサービスの概要
  • データパイプライン
    • 構成要素(入力、変換、出力、Workflow、監視)
    • 作成のフェーズ(Discovery、Design、Development、Deployment)
  • LakeHouseのレイヤー(Bronze、Silver、Gold)毎のハンズオン
    • SQLServerからData Factory使ってAzure Blob Storageへの書き込み(Brozne)
    • Azure Blob StorageからDeltaLake・Databricks使って、データの標準化(Silver)
  • 開発後の話
    • IaC
    • CI/CD
    • Monitoring
  • データエンジニアリングのチャレンジ(難問のニュアンス?)
    • Schema Evolution
    • データ共有
    • データガバナンス(カタログ)

この本では(あまり)紹介されていないこと

  • Azureのデータ関連サービスの記載ありますが、さらっとした記載です。あくまでこの本のハンズオンを行うための記載と割り切った方が良さそうです
    • (というかハンズオンを理解するのも怪しいかも)
    • データに関係ないAzureサービスの説明は、なおのことありません
  • DeltaLakeの説明はありますが、機能(タイムトラベル、トランザクション)の説明のみで、仕組みの話や同じカテゴリーの製品(e.g. Hudi、Iceberg)の比較はほぼありません
    • 私はここらへんを知りたかったので残念

その他

  • ハンズオンに通貨両替のAPI使いますが、対象APIの無料公開が停止しているようです。ただし、APIなくても大半のハンズオンは実行できます
  • ハンズオンでリソース名を指定する箇所がありますが、Azureのリソースのいくつかはグローバルでユニークである必要があるらしく、そのままでは動きません。何箇所か名前を変えて実行する必要があります
  • DataFactoryのハンズオン辛い…GUIツールはコピペができないのが辛いですね