カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

今日のPodcast: Software Engineering DailyでDruidの話

softwareengineeringdaily.com

 

概要

Druidのマネージドサービス(+α)を提供しているImplyJad Naousさん(R&D担当のVP)がゲストで、Apache Druidの話。

 

内容

    • Druidの概要説明。「Druid is kind of the open-source OLAP real-time data」で、時系列DB(Graphiteとか)と、データウェアハウス(BigQueryとか)の中間にあたるとのこと
    • Druidのアーキテクチャの説明
      • Kaka/Kinesisからリアルタイム、もしくはHDFS/S3からのバッチでデータを挿入
      • インデックスなどの最適化し、Deep Storage(S3/HDFS)に永続化
      • ローカルにデータを保持して、クエリからの問い合わせに対応するHistoricalワーカー
      • クエリを受け取って、Historicalワーカーに問い合わせ・結果のマージをするBroker
    • 他のデータウェアハウス(Redshift/Snowflake/BigQuery)、Prestoとの比較
    • DruidのユースケースAirbnbの例
    • Implyの話
      • Pivot クエリの実行や可視化

      • Clarity クエリのパフォーマンス監視

    • 歴史的な話
      • Druidはネット広告のために開発された(Metamarkets)
      • BIツールとの鶏と卵問題(ストレージが遅いとBIが意味ない、BIが無いとストレージが意味ない)

 

その他