2022-10-14

hoge

技術記事

zenn.dev

sekibutsu.com

www.tenbooksmaker.com

kotobank.jp

2023-04-02

Data Engineering with AWS読んだ

learning.oreilly.com

Data Engineering with AWSという本を読みました。

どんな本か

2021年に出版された、AWSでのデータエンジニアリング本です
著者のGareth EagarさんはAWSのソリューションアーキテクトの方です
日本語の本だとAWSではじめるデータレイクが近い本だと思います
- こちらもAWS（JP）のソリューションアーキテクトの人が著者

この本で紹介されていること

収拾（Ingestion）や変換（Transformation）、利用（Consumer）などのカテゴリごとに、関連するAWSサービスの概要の説明、ハンズオンがあります
AWS依存ではないデータエンジアリングの話もあります
- 概要・ビッグデータの価値の話（Chap1）
- DWH、Data Lake、Lake Houseなどの概念の話（ Chap2）
- セキュリティー、データガバナンス（Chap4）
- 要件定義、設計（Chap5）

紹介されているAWSサービス

（説明の大、中、小はこの本の中での相対的な量です）

紹介されているAWSサービス（Ingestion）

サービス	説明	ハンズオン	備考
DMS	中	有
MSK	中		Kinesisとの比較の話が主
AppFlow	小
Transfer Family	小
Snow Family	小
Data Sync	小
Kiensis（Firehose）	中	有
Kiensis（Data Stream）	中
S3	中	有

紹介されているAWSサービス（Transform）

サービス	説明	ハンズオン	備考
Lambda	中	有
Glue	中	有	ハンズオンは・Data Catalog ・Crawler ・Studio
EMR	小

サービス

説明

ハンズオン

備考

Lambda

中

有

Glue

中

有

ハンズオンは

・Data Catalog

・Crawler

・Studio

EMR

小

紹介されているAWSサービス（Orchestration）

サービス	説明	ハンズオン
Glue Workflow	小
Step Functions	中	有
Airflow(MWAA)	小
Data Pipeline	小

紹介されているAWSサービス（Consume）

サービス	説明	ハンズオン	備考
Athena	大	有
Redshift	大	有
QuickSight	大	有
Sagemaker Family	中		Family（StudioやData Wrangler）それぞれをさらっと紹介
Auto AI・ML系（ComprehendやLex）	小	有（Comprehend）	AI・ML系のサービス（Comprehend、Lex、Textract、Textract、Rekognition、Forecast、Fraud Detector、Personalize）それぞれをさらっと紹介

この本では（あまり）紹介されていないこと

データエンジニアリングに特有でないAWSの知識は、知っている前提で進みます
- IAMとかVPC、EC2あたり
タイトルにある通りAWSの本です。GCPやAzureとの比較、対応するサービスの話は一切ありません
- AWSの上で動くサードパーティーは、名前の紹介程度あるものもあります（Talendとか）

思ったこと

この本を取っ掛かりとして、（１）「そんなサービスもあるんだ」を片隅に入れるために使う、（２）公式ドキュメントを読む前の概要把握として使う、のが良い？気がしています
- 著者も、個別ジャンルのディープな話はしないよと記載しています（「This book was never intended as a deep dive into one specific area of data engineering」）
特にOrchestration（Step Functionsなど）、Ingestion（DMSやKinesisなど）は紹介している本が少ないので、この本で取っ掛かるのも良いかも
- 逆にGlueやSagemaker、EMRなどはこの本だとサラッとすぎる、かつ、専用の本があるので、そちら（もしくは公式ドキュメント）を読んだ方が良いかと
- Glue（Serverless ETL and Analytics with AWS Glue [Book]）
- Sagemaker （Data Science on AWS [Book]）
AWSのデータサイエンス・エンジニアリングの資格（DAS、MLS）の準備としてもよさそう
「AWSではじめるデータレイク」との住み分けは難しいです。若干紹介サービスが違いますが、どちらか片方読めば十分なかも

2023-03-03

Designing Cloud Data Platforms読んだ

www.manning.com

Designing Cloud Data Platformsという本を読みました。

どんな本か

2021年に出版されたデータ基盤の本です
大企業のデータ基盤の設計（コンサル・SIer？）の人が著者です
データ基盤を大きく６つのレイヤー（下図）に分割し、それぞれの章で説明しています
- Data Lake（②）とDatat Warehouse（⑤）を組み合わせた基盤を、この本では「Data Platform」と呼んでいるかと思います（Data Warehouse単体との対比）
書名に「Cloud」とついていますが一般論的な話がメインです。個別のクラウド・プロダクトの話題は軽く触れる程度です
- （Egressの通信量気をつけましょうとか、無限にスケールするオブジェクトストレージ良いよねとか）
The Cloud Data Lakeや、 Fundamentals of Data Engineeringあたりと近いジャンルの本です

（Designing Cloud Data Platformsの3章より）

この本で紹介されていること

この本では、

データ基盤の概論（歴史、ユースケース）
データ基盤の６つのレイヤーに関して、必要性、プラクティス、サービス・プロダクトの例

が主に紹介されています。

特に、

Schema管理
- AvroのSchema EvolutionやSchema Registryの話
Operational Metadataの話　* パイプラインの成功失敗、処理したデータ量等のメタデータ
- Business Metadataではないことに注意
Realtime IngestionとRealtime Processingの区別
- Realtime Ingestionはデータ元からDWH・Data Lakeに入れる処理、Realtime Processingはビジネスロジックに対応する変換です
- この本では、共通化の意味でRealtime Ingestに統一するのはあり、Realtime Processingは難しいし必要で無い場合もあるので要件次第という話でした
オブジェクトストレージのバケットの整理
- Landing・Staging・Production・Archiveとして分類
- （メダリオンアーキテクチャ的？）

あたりが、他の本であまり触れられていない、ユニークな話題だとお思います。

この本では（あまり）紹介されていないこと

いわゆるModern Data Stack的なツール（Reverse ETLとかdbt）
Fundamentals of Data Engineeringで触れられていた、チームやプロダクト選びの観点
DWH・Data Lakeの先の話（BIとか機械学習）

思ったこと

全体的に、大規模企業のデータ基盤を意識した本かと思います
- 共通化を意識した話（Realtime IngestionとかConfigurable Pipelineとか）が多い点からの判断
大規模管理以外に関しても、RDBからのデータ取得のパターン（4章）や、Common Data Processing（5章）など、「なんとなくパターンを思っていたけど、明文化されていない？」話題が参考になりました

2023-02-05

The Cloud Data Lake読んだ

The Cloud Data Lakeという本を読みました。

learning.oreilly.com

どんな本か

2022/12に出版された「Cloud Data Lake 」の本です
クラウドでのデータ基盤を紹介しています
MicrosoftでAzure StorageとかHDInsightのPMしていた、 Rukmani Gopalan さんが著者です
- （今はMSからMetaに転職している模様）
Fundamentals of Data Engineeringよりも抽象的（アーキテクチャ）な話がメインです

思ったこと

想定読者が難しそう。データエンジニア系の人はFundamentals of Data Engineeringの方が、より具体的でわかりやすいと思います
- アーキテクト的な人を想定しているのかしら
新しい概念（「Cloud Data Lake」）を提唱してそうな書名ですが、言ってる事はクラウドにData Lake・Data Warehouse作りましょうって話です
- 副題（「A Guide to Building Robust Cloud Data Architecture」）の方が、本の中身にあっている気がします

この本で紹介されていること

データ基盤の（鳥瞰図的な）説明
- Data Lakehouse（Databricksのメダリオンアーキテクチャ）
- Cloud Data Warehouse（SnowflakeとかBigQuery）
- Modern Data Warehouse（Data LakeとData Warehouseの組み合わせ）
- Data Mesh
アーキテクチャの選び方
コストとかデータガバナンスとか、非機能要件的な話
Delta Lake・Iceberg・Hudiなどの、Table Formatの話
- この本は抽象的な話が多いですが、この話の章（Chapter 6）だけ、謎に具体的です

この本で（あまり）紹介されていないこと

個々のクラウドサービス・プロダクトの話
組織とかビジネスの話
チームや個人の話（スキルセットとかキャリア）
データを入れた先の話（e.g. BI・機械学習のアーキテクチャ）

2023-02-03

今月読んだ本（2023/01）

読み終わった

booklog.jpほっとくと運用つらぽよになるので、ちゃんと文化形成・技術を使いましょうのお話。

booklog.jp大規模集団を作るようになった功罪の話。

booklog.jp

booklog.jpボクシング等、殴るスポーツの歴史や文化のお話。タイトル買い。

ボクシング全然知らなかったので、興味深かかったです。

booklog.jpアーキテクチャパターン、特性、アーキテクトの素質やスキルのお話。

booklog.jpメインはFlaskで機械学習部分は（多分）おまけ。Blueprintとか認証、Formみたいなプラグインの話もある。

FlaskのO'Reillyの本（Flask Web Development, 2nd Edition [Book]）は古い・英語なので、この本の方が読みやすいかも。

booklog.jp

2022-12-30

今月読んだ本（2022/12）

読み終わった

booklog.jp

booklog.jp50年くらい前の落語協会分裂騒動の話。師匠の圓生さんへの微妙な感情と、（5代目）圓楽さん嫌いがすごい。

booklog.jpTechというよりビジネスの話。Not for me

booklog.jp下戸なので

booklog.jp

読んでる

booklog.jp

2022-12-12

今月読んだ本（2022/11）

読み終わった

booklog.jp

NNや強化学習の性能改善系の話

booklog.jp

当たり前だけどめちゃくちゃ重たい話。10年以上前に読んだ「“Give Me Your Children”: Voices from the Lodz Ghetto | Holocaust Encyclopedia」という演説をした、Chaim Rumkowskiの話が出てきて少しビックリ（他の本で名前見たことがないので）。

booklog.jp

踏み絵の事務手続きとかの話。飛び地で行くのが面倒とか、人が集まるので出店が出たり、幕府から借りパクして怒られる藩がいたり面白い。

booklog.jp

数少ない（唯一？）Apache Arrowの本。Arrowは、in-memoryのフォーマットを基本としつつ、色々な応用（RPCとかファイルとか）があり理解が難しいので助かります。

booklog.jp

P-Hackingとかの話。ZANGEせよ