「 Technology never has an off-season 」聞いた
Podcast | The Cloudcast |
エピソード | Technology never has an off-season |
# | 515 |
公開 | 2021/05/16 |
トピック | キャリア |
ゲスト | なし(ホストだけ?) |
ゲストの肩書 |
聞き取ったこと
概要
- テクノロジー業界は「off-season」ないから大変だよね
- (技術の変化が止まらないくらいのニュアンス?)
- 「off-season」が無い理由
- 「off-season」が無いことへの対処
- 健康第一
- 意図的に無視する領域を作る
- 勉強する価値があるかを評価する
- 勉強のためだけのサイドブロジェクト
- 無視することに決めた後、それを評価して精度を上げる
- 他の人とつながる。メンターとかグループ
感想
- コロナ下だと、特に意識的休むこと大事だと思った
- ネットの繋がりだけだと強い人だけ可視化されるので、特にメンタル弱りそう
- 技術領域の話、t-wadaさんの話をなんとなく思い出した
Making Spark Cloud Native At Data Mechanics - Episode 184聞いた
Podcast | Data Engineering Podcast |
エピソード | Making Spark Cloud Native At Data Mechanics - Episode 184 |
公開 | 2021/05/07 |
トピック | Spark |
ゲスト | Jean-Yves Stephan さん |
ゲストの肩書 | DataMechanicsのCEO・創業者 |
聞き取ったこと
概要
- Data Mechanicsは、SparkをクラウドのKubernetes(EKS、GKE…)で動かすサービス
- ゲストはData Mechanicsの社長・創業者で、元々Databricksの方
DataMechanicsが提供するもの
- 色々な「knob」(設定項目?)があるのでSparkの設定が難しい。DataMechanicsはチューニングしたコンテナイメージを提供
- また、パッケージ間の依存関係を気にする度合いが少なくなる
- オンプレだとクラスタが固定だけど、DataMechanicsではオートスケールを提供しているので、コスト削減につながる
- モニタリング用のダッシュボード
- ちなみにOSS
- AirflowやJupyuterからの操作
気になる
- パブリッククラウドのManaged Spark(EMR、DataProc…)との比較
- 製品ページによると、自動でチューニングしてくれるので安くなるらしい(We've achieved 50 to 75% cost reductions for customers migrating from competing platforms like Databricks or EMR. )
- Databricksとの関係
- (自分がDatabricksよくわかっていないので、的外れな比較かも)
Global Virtual Flink Forward 2020 Recap(Keynote)
10月後半にあったFlink ForwardのRecap(Keynote編)です(本邦初)。
なお、Ververcica(Flinkの創始者の会社・Forwardの運営)もRecap作ってくれています。
------
登壇者:Stephan Ewen (Flinkのファウンダーの一人)
概要:
Flinkの近況の紹介。
- Flink盛り上がっているよ!
(Apache系プロジェクトの中でもトップクラス) - 今年のバージョン新しい(1.10)の紹介。早くなったよ(Nexmark比較)!
- FlinkのBatch/Streamingの紹介
(歴史や機能概要?) - Datastream APIでBatchもStreamingも処理できるようになったよ!
登壇者:Konstantin Knauf (Vervecicaの中の人)
概要:
Flink SQLの紹介
登壇者:Xiaowei Jiang(Alibabaの人)
概要:AlibabaのFlink使用例の紹介
昔の話
- ラムダアーキテクチャ
- ストレージでは、Hive/Greenplum/HBase/ClickHouse/Cassandra/Kylin/Druid/Kuduを使用
- ↑サイロになっているし、利用者(社内のデータサイエンティストやエンジニア)選ぶの辛い
Flink後の話(Hybrid Serving/Analytical Processing(HSAP)と呼んでいる)
- バッチもストリーミングもFlink
- 統一したストレージに格納
- HSAP/HTAP(Hybrid Transaction/Analytical Processing)/OLAPの比較
-
Hologres(リアルタイムOLAP?)の紹介と内部構造の話
(WAl/LSMテーブル、パーティショニングの話など)
HSAPはAlibabaの技術ブログでも紹介されている。
登壇者:Peter Chalif(Citiの人)
概要:
そのうち見ます
登壇者: Ricky Saltzer(Epic Gamesの人)
概要:
そのうち見ます
登壇者: Renu Tewari(LinkedINの人)
概要:
そのうち見ます
jq入門してみた
dotinstall.comドットインストールのエイプリルフール企画の講座です。
自分のバックグランド
- jqは整形やフィールドの抽出に使う程度
-
jq Manual (development version)はちゃんと読んでいない
主な内容
- フィルター
- 関数(select, map, add, length…)
- 整形(配列、オブジェクト、CSV…)
- 実践的?な例(各ユーザーの平均点を求めるとか)
感想
- 30分~1時間で見終わったので、最初の一歩としてはいいかも
- プレミアム会員でないと、例やコマンドを巻き戻って見る時に面倒
UdemyでBeam入門の講座(A Hands-On course to build Big data Pipelines)見てみた
コースだとついつい買っちゃうよね。
見た講座:
自分のバックグランド:
- Beam Programming Guideは何回か読んだ
-
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processingも読んだ
- 仕事でBeamのコードも何度か書いた(Javaがメイン。時々Python)
- ゆっくりな英語なら聞き取れる(TOEIC 940)
内容
- Beam + Python
- インド訛りな感じだけど、聞き取れない箇所はほぼない
- 内容はBeam Programming Guideに大体沿っている(良くも悪くも)入門的な内容
Programming Guideにあって、動画にないのは
- Schema
- State and Timer
- Splittable DoFn
- Multi-language pipelines
あたり。
感想
内容に不満あるわけでないけど、Beam Programming Guideで十分じゃないかな。
どうしても動画で見たい人は買ってもいいとおもうけど。
他の講座
中身見てないので、買った人は感想教えてください。
- Apache Beam | Future of Big Data | Udemy
-
Learn Practical Apache Beam in Java | BigData framework | Udemy
なんとなくシラバス見た感じ、2と4が細かい内容多くて、1と3が入門っぽい。
Javaパフォーマンス読んだ
www.oreilly.co.jp日本語版は2015年と古いですが、英語版は2020年に二版が出ています。
日本語版はJava7が中心で、時々Java8の話題が出てきます。
主な内容
- パフォーマンステストの話
- ツール(CPU・メモリ、JDK Mission Control、ダンプ)
- JIT
- ガーベジコレクション
- 各種プラクティス(ヒープ、ネイティブメモリ、スレッド、JavaEE、JPA・JDBC、Java SE)
メモ
パフォーマンスチューニングはアートとサイエンス
測る時は、なるだけ本番と同じ条件・マクロで測れ
GCは止まる時間・メモリ容量・CPU使用量などで選ぶ
オブジェクトの再利用はやるケースを選ぶ
-
オブジェクトが長生きする。old領域のGCはyoungよりも時間がかかる
- 管理が難しい
- 使うのはオブジェクト作成に時間がかかる時
同期はしなくてよいならしない
- ThreadLocalとか
初めて登壇してみた
人生初登壇カキコ
当日のスライド
感想
- 調べるなかでも、Prefectのドキュメント読んだりコード読んだりするのが勉強にりました
- テーマを絞らないLTなので、ワークフローエンジンの説明とかの量が難しい
- (オンラインだと反応が見えにくいというのもあるかも)