2021-06-06

「 Technology never has an off-season 」聞いた


Podcast	The Cloudcast
エピソード	Technology never has an off-season
#	515
公開	2021/05/16
トピック	キャリア
ゲスト	なし（ホストだけ？）
ゲストの肩書

聞き取ったこと

概要

テクノロジー業界は「off-season」ないから大変だよね
- （技術の変化が止まらないくらいのニュアンス？）
「off-season」が無い理由
「off-season」が無いことへの対処
- 健康第一
- 意図的に無視する領域を作る
- 勉強する価値があるかを評価する
- 勉強のためだけのサイドブロジェクト
- 無視することに決めた後、それを評価して精度を上げる
- 他の人とつながる。メンターとかグループ

感想

コロナ下だと、特に意識的休むこと大事だと思った
- ネットの繋がりだけだと強い人だけ可視化されるので、特にメンタル弱りそう
技術領域の話、t-wadaさんの話をなんとなく思い出した

2021-05-30

Making Spark Cloud Native At Data Mechanics - Episode 184聞いた

podcast


Podcast	Data Engineering Podcast
エピソード	Making Spark Cloud Native At Data Mechanics - Episode 184
公開	2021/05/07
トピック	Spark
ゲスト	Jean-Yves Stephan さん
ゲストの肩書	DataMechanicsのCEO・創業者

聞き取ったこと

概要

Data Mechanicsは、SparkをクラウドのKubernetes（EKS、GKE…）で動かすサービス
ゲストはData Mechanicsの社長・創業者で、元々Databricksの方

DataMechanicsが提供するもの

色々な「knob」（設定項目？）があるのでSparkの設定が難しい。DataMechanicsはチューニングしたコンテナイメージを提供
- また、パッケージ間の依存関係を気にする度合いが少なくなる
オンプレだとクラスタが固定だけど、DataMechanicsではオートスケールを提供しているので、コスト削減につながる
モニタリング用のダッシュボード
- ちなみにOSS
AirflowやJupyuterからの操作

気になる

パブリッククラウドのManaged Spark（EMR、DataProc…）との比較
- 製品ページによると、自動でチューニングしてくれるので安くなるらしい（We've achieved 50 to 75% cost reductions for customers migrating from competing platforms like Databricks or EMR. ）
Databricksとの関係
- （自分がDatabricksよくわかっていないので、的外れな比較かも）

2020-12-12

Global Virtual Flink Forward 2020 Recap(Keynote)

WIP

www.flink-forward.org

10月後半にあったFlink ForwardのRecap（Keynote編）です（本邦初）。

なお、Ververcica（Flinkの創始者の会社・Forwardの運営）もRecap作ってくれています。

www.ververica.com

------

www.youtube.com

登壇者：Stephan Ewen (Flinkのファウンダーの一人)

概要：

Flinkの近況の紹介。

Flink盛り上がっているよ！
（Apache系プロジェクトの中でもトップクラス）
今年のバージョン新しい(1.10)の紹介。早くなったよ(Nexmark比較)！
FlinkのBatch/Streamingの紹介
（歴史や機能概要？）
Datastream APIでBatchもStreamingも処理できるようになったよ！

www.youtube.com

登壇者：Konstantin Knauf (Vervecicaの中の人)

概要：

Flink SQLの紹介

KafkaなどのストリーミングデータをSQLで処理出来るよ！
Streamingの処理の多くをSQLでかけるほどに、Flink SQLはなったよ！
Vervacica Platform上のデモ

www.youtube.com

登壇者：Xiaowei Jiang(Alibabaの人)

概要：AlibabaのFlink使用例の紹介

昔の話

ラムダアーキテクチャ
ストレージでは、Hive/Greenplum/HBase/ClickHouse/Cassandra/Kylin/Druid/Kuduを使用
↑サイロになっているし、利用者（社内のデータサイエンティストやエンジニア）選ぶの辛い

Flink後の話（Hybrid Serving/Analytical Processing(HSAP)と呼んでいる）

バッチもストリーミングもFlink
統一したストレージに格納
HSAP/HTAP(Hybrid Transaction／Analytical Processing)/OLAPの比較
Hologres（リアルタイムOLAP？）の紹介と内部構造の話
（WAl/LSMテーブル、パーティショニングの話など）

HSAPはAlibabaの技術ブログでも紹介されている。

www.alibabacloud.com

www.youtube.com

登壇者：Peter Chalif(Citiの人)

概要：

そのうち見ます

www.youtube.com

登壇者： Ricky Saltzer(Epic Gamesの人)

概要：

そのうち見ます

www.youtube.com

登壇者： Renu Tewari(LinkedINの人)

概要：

そのうち見ます

2020-11-24

jq入門してみた

dotinstall.comドットインストールのエイプリルフール企画の講座です。

自分のバックグランド

jqは整形やフィールドの抽出に使う程度
jq Manual (development version)はちゃんと読んでいない

主な内容

フィルター
関数（select, map, add, length…）
整形（配列、オブジェクト、CSV…）
実践的？な例（各ユーザーの平均点を求めるとか）

感想

30分~1時間で見終わったので、最初の一歩としてはいいかも
プレミアム会員でないと、例やコマンドを巻き戻って見る時に面倒

2020-11-22

UdemyでBeam入門の講座（A Hands-On course to build Big data Pipelines）見てみた

コースだとついつい買っちゃうよね。

見た講座：

www.udemy.com

自分のバックグランド：

Beam Programming Guideは何回か読んだ
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processingも読んだ
仕事でBeamのコードも何度か書いた（Javaがメイン。時々Python）
ゆっくりな英語なら聞き取れる（TOEIC 940）

内容

Beam + Python
インド訛りな感じだけど、聞き取れない箇所はほぼない
内容はBeam Programming Guideに大体沿っている（良くも悪くも）入門的な内容

Programming Guideにあって、動画にないのは

Schema
State and Timer
Splittable DoFn
Multi-language pipelines

あたり。

感想

内容に不満あるわけでないけど、Beam Programming Guideで十分じゃないかな。

どうしても動画で見たい人は買ってもいいとおもうけど。

他の講座

中身見てないので、買った人は感想教えてください。

なんとなくシラバス見た感じ、2と4が細かい内容多くて、1と3が入門っぽい。

2020-09-20

Javaパフォーマンス読んだ

www.oreilly.co.jp日本語版は2015年と古いですが、英語版は2020年に二版が出ています。

日本語版はJava7が中心で、時々Java8の話題が出てきます。

主な内容

パフォーマンステストの話
ツール（CPU・メモリ、JDK Mission Control、ダンプ）
JIT
ガーベジコレクション
各種プラクティス（ヒープ、ネイティブメモリ、スレッド、JavaEE、JPA・JDBC、Java SE）

メモ

パフォーマンスチューニングはアートとサイエンス

測る時は、なるだけ本番と同じ条件・マクロで測れ

JIT コンパイルが違ったりする
ミクロな部分が遅かったとしても、全体に占めるインパクトがわからん
実際とズレた入力で測ると意味ない

GCは止まる時間・メモリ容量・CPU使用量などで選ぶ

コンカレント型は止まる時間短いが、CPU使用量が高い
どのGCでも止まる時間はある（young・フルGC）

オブジェクトの再利用はやるケースを選ぶ

オブジェクトが長生きする。old領域のGCはyoungよりも時間がかかる
管理が難しい
使うのはオブジェクト作成に時間がかかる時

同期はしなくてよいならしない

ThreadLocalとか

2020-09-07

初めて登壇してみた

人生初登壇カキコ

ariaki.connpass.com

当日のスライド

Prefectに関して imperfectに語る from notrogue

www.slideshare.net

感想

調べるなかでも、Prefectのドキュメント読んだりコード読んだりするのが勉強にりました
テーマを絞らないLTなので、ワークフローエンジンの説明とかの量が難しい
（オンラインだと反応が見えにくいというのもあるかも）

カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

「 Technology never has an off-season 」聞いた

聞き取ったこと

概要

感想

Making Spark Cloud Native At Data Mechanics - Episode 184聞いた

聞き取ったこと

概要

DataMechanicsが提供するもの

気になる

Global Virtual Flink Forward 2020 Recap(Keynote)

jq入門してみた

自分のバックグランド

主な内容

感想

UdemyでBeam入門の講座（A Hands-On course to build Big data Pipelines）見てみた

見た講座：

自分のバックグランド：

内容

感想

他の講座

Javaパフォーマンス読んだ

主な内容

メモ

パフォーマンスチューニングはアートとサイエンス

測る時は、なるだけ本番と同じ条件・マクロで測れ

GCは止まる時間・メモリ容量・CPU使用量などで選ぶ

オブジェクトの再利用はやるケースを選ぶ

同期はしなくてよいならしない

初めて登壇してみた

感想