カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

Data Engineering with AWS読んだ

learning.oreilly.com

Data Engineering with AWSという本を読みました。

 

どんな本か

  • 2021年に出版された、AWSでのデータエンジニアリング本です
  • 著者のGareth EagarさんAWSのソリューションアーキテクトの方です
  • 日本語の本だとAWSではじめるデータレイクが近い本だと思います
    • こちらもAWS(JP)のソリューションアーキテクトの人が著者

この本で紹介されていること

  • 収拾(Ingestion)や変換(Transformation)、利用(Consumer)などのカテゴリごとに、関連するAWSサービスの概要の説明、ハンズオンがあります
  • AWS依存ではないデータエンジアリングの話もあります
    • 概要・ビッグデータの価値の話(Chap1)
    • DWH、Data Lake、Lake Houseなどの概念の話( Chap2)
    • セキュリティー、データガバナンス(Chap4)
    • 要件定義、設計(Chap5)

 

紹介されているAWSサービス

(説明の大、中、小はこの本の中での相対的な量です)

 

紹介されているAWSサービス(Ingestion)

サービス 説明 ハンズオン 備考  
DMS    
MSK   Kinesisとの比較の話が主  
AppFlow      
Transfer Family      
Snow Family      
Data Sync      
Kiensis(Firehose)    
Kiensis(Data Stream)      
S3    

 

紹介されているAWSサービス(Transform)

サービス 説明 ハンズオン 備考  
Lambda    
Glue

ハンズオンは

・Data Catalog

・Crawler

・Studio

 
EMR      

 

 

紹介されているAWSサービス(Orchestration)

サービス 説明 ハンズオン 備考  
Glue Workflow      
Step Functions    
Airflow(MWAA)      
Data Pipeline      

 

 

紹介されているAWSサービス(Consume)

サービス 説明 ハンズオン 備考  
Athena    
Redshift    
QuickSight    

Sagemaker Family

  Family(StudioやData Wrangler)それぞれをさらっと紹介  

Auto AI・ML系

(ComprehendやLex)

(Comprehend)

AI・ML系のサービス(Comprehend、Lex、Textract、Textract、Rekognition、Forecast、Fraud Detector、Personalize)それぞれをさらっと紹介

 

 

この本では(あまり)紹介されていないこと

  •  データエンジニアリングに特有でないAWSの知識は、知っている前提で進みます
    • IAMとかVPC、EC2あたり
  • タイトルにある通りAWSの本です。GCPやAzureとの比較、対応するサービスの話は一切ありません

 

思ったこと

  • この本を取っ掛かりとして、(1)「そんなサービスもあるんだ」を片隅に入れるために使う、(2)公式ドキュメントを読む前の概要把握として使う、のが良い?気がしています
    • 著者も、個別ジャンルのディープな話はしないよと記載しています(「This book was never intended as a deep dive into one specific area of data engineering」)
  • 特にOrchestration(Step Functionsなど)、Ingestion(DMSやKinesisなど)は紹介している本が少ないので、この本で取っ掛かるのも良いかも
  • AWSのデータサイエンス・エンジニアリングの資格(DAS、MLS)の準備としてもよさそう
  • AWSではじめるデータレイク」との住み分けは難しいです。若干紹介サービスが違いますが、どちらか片方読めば十分なかも
  •