カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

「 Technology never has an off-season 」聞いた

Podcast The Cloudcast
エピソード Technology never has an off-season
# 515
公開 2021/05/16
トピック キャリア
ゲスト なし(ホストだけ?)
ゲストの肩書

聞き取ったこと

概要

  • テクノロジー業界は「off-season」ないから大変だよね
    • (技術の変化が止まらないくらいのニュアンス?)
  • 「off-season」が無い理由
  • 「off-season」が無いことへの対処
    • 健康第一
    • 意図的に無視する領域を作る
    • 勉強する価値があるかを評価する
    • 勉強のためだけのサイドブロジェクト
    • 無視することに決めた後、それを評価して精度を上げる
    • 他の人とつながる。メンターとかグループ

感想

  • コロナ下だと、特に意識的休むこと大事だと思った
    • ネットの繋がりだけだと強い人だけ可視化されるので、特にメンタル弱りそう
  • 技術領域の話、t-wadaさんの話をなんとなく思い出した

Making Spark Cloud Native At Data Mechanics - Episode 184聞いた

Podcast Data Engineering Podcast
エピソード Making Spark Cloud Native At Data Mechanics - Episode 184
公開 2021/05/07
トピック Spark
ゲスト Jean-Yves Stephan さん
ゲストの肩書 DataMechanicsのCEO・創業者

聞き取ったこと

概要

DataMechanicsが提供するもの

  • 色々な「knob」(設定項目?)があるのでSparkの設定が難しい。DataMechanicsはチューニングしたコンテナイメージを提供
    • また、パッケージ間の依存関係を気にする度合いが少なくなる
  • オンプレだとクラスタが固定だけど、DataMechanicsではオートスケールを提供しているので、コスト削減につながる
  • モニタリング用のダッシュボード
    • ちなみにOSS
  • AirflowJupyuterからの操作

気になる

Global Virtual Flink Forward 2020 Recap(Keynote)

www.flink-forward.org

 

10月後半にあったFlink ForwardのRecap(Keynote編)です(本邦初)。

なお、Ververcica(Flinkの創始者の会社・Forwardの運営)もRecap作ってくれています。

www.ververica.com

------

 

www.youtube.com

登壇者:Stephan Ewen (Flinkのファウンダーの一人)

概要:

Flinkの近況の紹介。

  • Flink盛り上がっているよ!
    Apache系プロジェクトの中でもトップクラス
  • 今年のバージョン新しい(1.10)の紹介。早くなったよ(Nexmark比較)!
  • FlinkのBatch/Streamingの紹介
    (歴史や機能概要?)
  • Datastream APIでBatchもStreamingも処理できるようになったよ!

 

 

www.youtube.com

登壇者:Konstantin Knauf (Vervecicaの中の人)

概要:

Flink SQLの紹介

  • KafkaなどのストリーミングデータをSQLで処理出来るよ!
  • Streamingの処理の多くをSQLでかけるほどに、Flink SQLはなったよ!
  • Vervacica Platform上のデモ

 

www.youtube.com

登壇者:Xiaowei Jiang(Alibabaの人)

概要:AlibabaのFlink使用例の紹介

 

昔の話

  • ラムダアーキテクチャ
  • ストレージでは、Hive/Greenplum/HBase/ClickHouse/Cassandra/Kylin/Druid/Kuduを使用
  • ↑サイロになっているし、利用者(社内のデータサイエンティストやエンジニア)選ぶの辛い

Flink後の話(Hybrid Serving/Analytical Processing(HSAP)と呼んでいる)

  • バッチもストリーミングもFlink
  • 統一したストレージに格納
  • HSAP/HTAP(Hybrid Transaction/Analytical Processing)/OLAPの比較
  • Hologres(リアルタイムOLAP?)の紹介と内部構造の話
    (WAl/LSMテーブル、パーティショニングの話など)

 

HSAPはAlibabaの技術ブログでも紹介されている。

www.alibabacloud.com

 

www.youtube.com

登壇者:Peter Chalif(Citiの人)

概要:

そのうち見ます

 

www.youtube.com

登壇者: Ricky Saltzer(Epic Gamesの人)

概要:

そのうち見ます

 

www.youtube.com

登壇者: Renu Tewari(LinkedINの人)

概要:

そのうち見ます

jq入門してみた

dotinstall.comドットインストールのエイプリルフール企画の講座です。

 

自分のバックグランド

主な内容

  • フィルター
  • 関数(select, map, add, length…)
  • 整形(配列、オブジェクト、CSV…)
  • 実践的?な例(各ユーザーの平均点を求めるとか)

 感想

  • 30分~1時間で見終わったので、最初の一歩としてはいいかも
  • プレミアム会員でないと、例やコマンドを巻き戻って見る時に面倒

 

 

UdemyでBeam入門の講座(A Hands-On course to build Big data Pipelines)見てみた

コースだとついつい買っちゃうよね。

 

見た講座:

www.udemy.com

自分のバックグランド:

 

内容

  • Beam + Python
  • インド訛りな感じだけど、聞き取れない箇所はほぼない
  • 内容はBeam Programming Guideに大体沿っている(良くも悪くも)入門的な内容

Programming Guideにあって、動画にないのは

  • Schema
  • State and Timer
  • Splittable DoFn
  • Multi-language pipelines

あたり。

 

感想

内容に不満あるわけでないけど、Beam Programming Guideで十分じゃないかな。

どうしても動画で見たい人は買ってもいいとおもうけど。

 

他の講座

中身見てないので、買った人は感想教えてください。

 

  1. Apache Beam | Future of Big Data | Udemy
  2. Learn Practical Apache Beam in Java | BigData framework | Udemy

  3. Batch Processing with Apache Beam in Python | Udemy

  4. Streaming Analytics on Google Cloud Platform | Udemy

なんとなくシラバス見た感じ、2と4が細かい内容多くて、1と3が入門っぽい。

 

Javaパフォーマンス読んだ

 

www.oreilly.co.jp日本語版は2015年と古いですが、英語版は2020年に二版が出ています。

日本語版はJava7が中心で、時々Java8の話題が出てきます。

 

主な内容

  1. パフォーマンステストの話
  2. ツール(CPU・メモリ、JDK Mission Control、ダンプ)
  3. JIT
  4. ガーベジコレクション
  5. 各種プラクティス(ヒープ、ネイティブメモリ、スレッド、JavaEEJPAJDBCJava SE)

メモ

パフォーマンスチューニングはアートとサイエンス

測る時は、なるだけ本番と同じ条件・マクロで測れ

  • JITコンパイルが違ったりする
  • ミクロな部分が遅かったとしても、全体に占めるインパクトがわからん
  • 実際とズレた入力で測ると意味ない

GCは止まる時間・メモリ容量・CPU使用量などで選ぶ

  • コンカレント型は止まる時間短いが、CPU使用量が高い
  • どのGCでも止まる時間はある(young・フルGC

 

オブジェクトの再利用はやるケースを選ぶ

  • オブジェクトが長生きする。old領域のGCはyoungよりも時間がかかる

  • 管理が難しい
  • 使うのはオブジェクト作成に時間がかかる時

同期はしなくてよいならしない

  • ThreadLocalとか

 

 

初めて登壇してみた

人生初登壇カキコ

 

ariaki.connpass.com

当日のスライド

www.slideshare.net

 感想

  • 調べるなかでも、Prefectのドキュメント読んだりコード読んだりするのが勉強にりました
  • テーマを絞らないLTなので、ワークフローエンジンの説明とかの量が難しい
  • (オンラインだと反応が見えにくいというのもあるかも)