カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

Data Engineering with AWS読んだ

learning.oreilly.com

Data Engineering with AWSという本を読みました。

 

どんな本か

  • 2021年に出版された、AWSでのデータエンジニアリング本です
  • 著者のGareth EagarさんAWSのソリューションアーキテクトの方です
  • 日本語の本だとAWSではじめるデータレイクが近い本だと思います
    • こちらもAWS(JP)のソリューションアーキテクトの人が著者

この本で紹介されていること

  • 収拾(Ingestion)や変換(Transformation)、利用(Consumer)などのカテゴリごとに、関連するAWSサービスの概要の説明、ハンズオンがあります
  • AWS依存ではないデータエンジアリングの話もあります
    • 概要・ビッグデータの価値の話(Chap1)
    • DWH、Data Lake、Lake Houseなどの概念の話( Chap2)
    • セキュリティー、データガバナンス(Chap4)
    • 要件定義、設計(Chap5)

 

紹介されているAWSサービス

(説明の大、中、小はこの本の中での相対的な量です)

 

紹介されているAWSサービス(Ingestion)

サービス 説明 ハンズオン 備考  
DMS    
MSK   Kinesisとの比較の話が主  
AppFlow      
Transfer Family      
Snow Family      
Data Sync      
Kiensis(Firehose)    
Kiensis(Data Stream)      
S3    

 

紹介されているAWSサービス(Transform)

サービス 説明 ハンズオン 備考  
Lambda    
Glue

ハンズオンは

・Data Catalog

・Crawler

・Studio

 
EMR      

 

 

紹介されているAWSサービス(Orchestration)

サービス 説明 ハンズオン 備考  
Glue Workflow      
Step Functions    
Airflow(MWAA)      
Data Pipeline      

 

 

紹介されているAWSサービス(Consume)

サービス 説明 ハンズオン 備考  
Athena    
Redshift    
QuickSight    

Sagemaker Family

  Family(StudioやData Wrangler)それぞれをさらっと紹介  

Auto AI・ML系

(ComprehendやLex)

(Comprehend)

AI・ML系のサービス(Comprehend、Lex、Textract、Textract、Rekognition、Forecast、Fraud Detector、Personalize)それぞれをさらっと紹介

 

 

この本では(あまり)紹介されていないこと

  •  データエンジニアリングに特有でないAWSの知識は、知っている前提で進みます
    • IAMとかVPC、EC2あたり
  • タイトルにある通りAWSの本です。GCPやAzureとの比較、対応するサービスの話は一切ありません

 

思ったこと

  • この本を取っ掛かりとして、(1)「そんなサービスもあるんだ」を片隅に入れるために使う、(2)公式ドキュメントを読む前の概要把握として使う、のが良い?気がしています
    • 著者も、個別ジャンルのディープな話はしないよと記載しています(「This book was never intended as a deep dive into one specific area of data engineering」)
  • 特にOrchestration(Step Functionsなど)、Ingestion(DMSやKinesisなど)は紹介している本が少ないので、この本で取っ掛かるのも良いかも
  • AWSのデータサイエンス・エンジニアリングの資格(DAS、MLS)の準備としてもよさそう
  • AWSではじめるデータレイク」との住み分けは難しいです。若干紹介サービスが違いますが、どちらか片方読めば十分なかも
  •  

 

Designing Cloud Data Platforms読んだ

www.manning.com

Designing Cloud Data Platformsという本を読みました。

どんな本か

  • 2021年に出版されたデータ基盤の本です
  • 大企業のデータ基盤の設計(コンサル・SIer?)の人が著者です
  • データ基盤を大きく6つのレイヤー(下図)に分割し、それぞれの章で説明しています
    • Data Lake(②)とDatat Warehouse(⑤)を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います(Data Warehouse単体との対比)
  • 書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です
    • (Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか)
  • The Cloud Data Lakeや、 Fundamentals of Data Engineeringあたりと近いジャンルの本です

Designing Cloud Data Platforms 3章より

(Designing Cloud Data Platformsの3章より)

この本で紹介されていること

この本では、

  • データ基盤の概論(歴史、ユースケース
  • データ基盤の6つのレイヤーに関して、必要性、プラクティス、サービス・プロダクトの例

が主に紹介されています。

特に、

  • Schema管理
    • AvroのSchema EvolutionやSchema Registryの話
  • Operational Metadataの話  * パイプラインの成功失敗、処理したデータ量等のメタデータ
    • Business Metadataではないことに注意
  • Realtime IngestionとRealtime Processingの区別
    • Realtime Ingestionはデータ元からDWH・Data Lakeに入れる処理、Realtime Processingはビジネスロジックに対応する変換です
    • この本では、共通化の意味でRealtime Ingestに統一するのはあり、Realtime Processingは難しいし必要で無い場合もあるので要件次第という話でした
  • オブジェクトストレージのバケットの整理

あたりが、他の本であまり触れられていない、ユニークな話題だとお思います。

この本では(あまり)紹介されていないこと

  • いわゆるModern Data Stack的なツール(Reverse ETLとかdbt)
  • Fundamentals of Data Engineeringで触れられていた、チームやプロダクト選びの観点
  • DWH・Data Lakeの先の話(BIとか機械学習

思ったこと

  • 全体的に、大規模企業のデータ基盤を意識した本かと思います
    • 通化を意識した話(Realtime IngestionとかConfigurable Pipelineとか)が多い点からの判断
  • 大規模管理以外に関しても、RDBからのデータ取得のパターン(4章)や、Common Data Processing(5章)など、「なんとなくパターンを思っていたけど、明文化されていない?」話題が参考になりました

The Cloud Data Lake読んだ

The Cloud Data Lakeという本を読みました。

learning.oreilly.com

どんな本か

思ったこと

  • 想定読者が難しそう。データエンジニア系の人はFundamentals of Data Engineeringの方が、より具体的でわかりやすいと思います
    • アーキテクト的な人を想定しているのかしら
  • 新しい概念(「Cloud Data Lake」)を提唱してそうな書名ですが、言ってる事はクラウドにData Lake・Data Warehouse作りましょうって話です
    • 副題(「A Guide to Building Robust Cloud Data Architecture」)の方が、本の中身にあっている気がします

この本で紹介されていること

  • データ基盤の(鳥瞰図的な)説明
  • アーキテクチャの選び方
  • コストとかデータガバナンスとか、非機能要件的な話
  • Delta Lake・Iceberg・Hudiなどの、Table Formatの話
    • この本は抽象的な話が多いですが、この話の章(Chapter 6)だけ、謎に具体的です

この本で(あまり)紹介されていないこと

  • 個々のクラウドサービス・プロダクトの話
  • 組織とかビジネスの話
  • チームや個人の話(スキルセットとかキャリア)
  • データを入れた先の話(e.g. BI・機械学習アーキテクチャ

今月読んだ本(2023/01)

読み終わった

 

booklog.jpほっとくと運用つらぽよになるので、ちゃんと文化形成・技術を使いましょうのお話。

 

 

booklog.jp大規模集団を作るようになった功罪の話。

 

 

booklog.jp

 

booklog.jpボクシング等、殴るスポーツの歴史や文化のお話。タイトル買い。

ボクシング全然知らなかったので、興味深かかったです。

 

booklog.jpアーキテクチャパターン、特性、アーキテクトの素質やスキルのお話。

 

booklog.jpメインはFlaskで機械学習部分は(多分)おまけ。Blueprintとか認証、Formみたいなプラグインの話もある。

FlaskのO'Reillyの本(Flask Web Development, 2nd Edition [Book])は古い・英語なので、この本の方が読みやすいかも。

 

booklog.jp

 

今月読んだ本(2022/12)

読み終わった

booklog.jp

booklog.jp50年くらい前の落語協会分裂騒動の話。師匠の圓生さんへの微妙な感情と、(5代目)圓楽さん嫌いがすごい。

 

booklog.jpTechというよりビジネスの話。Not for me

booklog.jp下戸なので

booklog.jp

booklog.jp

booklog.jp

booklog.jp

 

 

booklog.jp

読んでる

booklog.jp

booklog.jp

 

 

今月読んだ本(2022/11)

読み終わった

booklog.jp

NNや強化学習の性能改善系の話

 

booklog.jp

当たり前だけどめちゃくちゃ重たい話。10年以上前に読んだ「“Give Me Your Children”: Voices from the Lodz Ghetto | Holocaust Encyclopedia」という演説をした、Chaim Rumkowskiの話が出てきて少しビックリ(他の本で名前見たことがないので)。

 

booklog.jp

踏み絵の事務手続きとかの話。飛び地で行くのが面倒とか、人が集まるので出店が出たり、幕府から借りパクして怒られる藩がいたり面白い。

 

booklog.jp

 

booklog.jp

数少ない(唯一?)Apache Arrowの本。Arrowは、in-memoryのフォーマットを基本としつつ、色々な応用(RPCとかファイルとか)があり理解が難しいので助かります。

 

 

booklog.jp

P-Hackingとかの話。ZANGEせよ

 

読んでる

 

booklog.jp

booklog.jp

 

今月読んだ本(2022/10)

読み終わった

booklog.jp貴重なLooker本。概要を知るには良いかも。

 

booklog.jp

booklog.jp

booklog.jp

なんとなくGCP強化月間

booklog.jp

booklog.jp

 

booklog.jp第二版か一版をかなり前に読んだけど、記憶の更新の意味で再読。

 

 

booklog.jp

スヴィドリガイロフ好きなので。ただ、この本の主人公はポルフィーリー?

 

booklog.jp

 

読んでる

booklog.jp

booklog.jp