今日のPodcast: Software Engineering DailyでDruidの話
概要
Druidのマネージドサービス(+α)を提供しているImplyの Jad Naousさん(R&D担当のVP)がゲストで、Apache Druidの話。
内容
- Druidの概要説明。「Druid is kind of the open-source OLAP real-time data」で、時系列DB(Graphiteとか)と、データウェアハウス(BigQueryとか)の中間にあたるとのこと
- Druidのアーキテクチャの説明
- 他のデータウェアハウス(Redshift/Snowflake/BigQuery)、Prestoとの比較
- Druidのユースケース。Airbnbの例
- パフォーマンスモニタリングに使っているらしい
- リアルタイム性&集計の両方が必要
- Airbnbさんのエンジニアブログ
How Druid enables analytics at Airbnb - Airbnb Engineering & Data Science - Medium
- Implyの話
- 歴史的な話
- Druidはネット広告のために開発された(Metamarkets)
- BIツールとの鶏と卵問題(ストレージが遅いとBIが意味ない、BIが無いとストレージが意味ない)
その他
- LINE/Naverさんがヘビーユーザーな印象
(LINE/Naverさんの事例)Web analytics at scale with Druid at naver.com
- アーキテクチャ部分の説明に関しては、HortonworksさんのDruid deep diveの図がわかりやすいかも