Data Engineering with AWS読んだ
Data Engineering with AWSという本を読みました。
どんな本か
- 2021年に出版された、AWSでのデータエンジニアリング本です
- 著者のGareth EagarさんはAWSのソリューションアーキテクトの方です
- 日本語の本だとAWSではじめるデータレイクが近い本だと思います
- こちらもAWS(JP)のソリューションアーキテクトの人が著者
この本で紹介されていること
- 収拾(Ingestion)や変換(Transformation)、利用(Consumer)などのカテゴリごとに、関連するAWSサービスの概要の説明、ハンズオンがあります
- AWS依存ではないデータエンジアリングの話もあります
紹介されているAWSサービス
(説明の大、中、小はこの本の中での相対的な量です)
紹介されているAWSサービス(Ingestion)
サービス | 説明 | ハンズオン | 備考 | |
---|---|---|---|---|
DMS | 中 | 有 | ||
MSK | 中 | Kinesisとの比較の話が主 | ||
AppFlow | 小 | |||
Transfer Family | 小 | |||
Snow Family | 小 | |||
Data Sync | 小 | |||
Kiensis(Firehose) | 中 | 有 | ||
Kiensis(Data Stream) | 中 | |||
S3 | 中 | 有 |
紹介されているAWSサービス(Transform)
サービス | 説明 | ハンズオン | 備考 | |
---|---|---|---|---|
Lambda | 中 | 有 | ||
Glue | 中 | 有 |
ハンズオンは ・Data Catalog ・Crawler ・Studio |
|
EMR | 小 |
紹介されているAWSサービス(Orchestration)
サービス | 説明 | ハンズオン | 備考 | |
---|---|---|---|---|
Glue Workflow | 小 | |||
Step Functions | 中 | 有 | ||
Airflow(MWAA) | 小 | |||
Data Pipeline | 小 |
紹介されているAWSサービス(Consume)
サービス | 説明 | ハンズオン | 備考 | |
---|---|---|---|---|
Athena | 大 | 有 | ||
Redshift | 大 | 有 | ||
QuickSight | 大 | 有 | ||
Sagemaker Family |
中 | Family(StudioやData Wrangler)それぞれをさらっと紹介 | ||
Auto AI・ML系 (ComprehendやLex) |
小 |
有 (Comprehend) |
AI・ML系のサービス(Comprehend、Lex、Textract、Textract、Rekognition、Forecast、Fraud Detector、Personalize)それぞれをさらっと紹介 |
この本では(あまり)紹介されていないこと
- データエンジニアリングに特有でないAWSの知識は、知っている前提で進みます
- IAMとかVPC、EC2あたり
- タイトルにある通りAWSの本です。GCPやAzureとの比較、対応するサービスの話は一切ありません
思ったこと
- この本を取っ掛かりとして、(1)「そんなサービスもあるんだ」を片隅に入れるために使う、(2)公式ドキュメントを読む前の概要把握として使う、のが良い?気がしています
- 著者も、個別ジャンルのディープな話はしないよと記載しています(「This book was never intended as a deep dive into one specific area of data engineering」)
- 特にOrchestration(Step Functionsなど)、Ingestion(DMSやKinesisなど)は紹介している本が少ないので、この本で取っ掛かるのも良いかも
- 逆にGlueやSagemaker、EMRなどはこの本だとサラッとすぎる、かつ、専用の本があるので、そちら(もしくは公式ドキュメント)を読んだ方が良いかと
- AWSのデータサイエンス・エンジニアリングの資格(DAS、MLS)の準備としてもよさそう
- 「AWSではじめるデータレイク」との住み分けは難しいです。若干紹介サービスが違いますが、どちらか片方読めば十分なかも