2020-01-01から1年間の記事一覧
www.flink-forward.org 10月後半にあったFlink ForwardのRecap(Keynote編)です(本邦初)。 なお、Ververcica(Flinkの創始者の会社・Forwardの運営)もRecap作ってくれています。 www.ververica.com ------ www.youtube.com 登壇者:Stephan Ewen (Flink…
dotinstall.comドットインストールのエイプリルフール企画の講座です。 自分のバックグランド jqは整形やフィールドの抽出に使う程度 jq Manual (development version)はちゃんと読んでいない 主な内容 フィルター 関数(select, map, add, length…) 整形(…
コースだとついつい買っちゃうよね。 見た講座: www.udemy.com 自分のバックグランド: Beam Programming Guideは何回か読んだ Streaming Systems: The What, Where, When, and How of Large-Scale Data Processingも読んだ 仕事でBeamのコードも何度か書い…
www.oreilly.co.jp日本語版は2015年と古いですが、英語版は2020年に二版が出ています。 日本語版はJava7が中心で、時々Java8の話題が出てきます。 主な内容 パフォーマンステストの話 ツール(CPU・メモリ、JDK Mission Control、ダンプ) JIT ガーベジコレ…
人生初登壇カキコ ariaki.connpass.com 当日のスライド Prefectに関して imperfectに語る from notrogue www.slideshare.net 感想 調べるなかでも、Prefectのドキュメント読んだりコード読んだりするのが勉強にりました テーマを絞らないLTなので、ワークフ…
Beam Summit 2020とは 2020.beamsummit.org 2020/08/24~28に行われた、Beamのオンラインイベント 2019年は、Beam Summit North America 2019 - YouTubeとBeam Summit Europe 2019 - YouTubeがあった 録画もある 英語 聞いてみたセッションの話 Program | Bea…
shop.oreilly.com 数少ない(唯一?)Dataflow/Apache Beam本で、著者はGoogleでDataflowの開発していた人です。 良かった 個々の話題は、Streaming 101: The world beyond batch – O’ReillyとかBeam Programming GuideとかGCPブログに載っている情報が多い…
streamingsystems.netでApache Flinkがやたら褒められていたので、Flinkが気になってきた夏の日です。 Apache Flinkとは flink.apache.org ストリーミング処理が行えるフレームワークで、カテゴリー的には Cloud Dataflow Spark Streaming あたりの仲間です…
cloud.google.comデプロイに関するノウハウ記事で、気になったところのメモです。他の章のメモはこちら。 Streamingだと全般的にジョブの更新面倒そうなのが辛い‥Flinkとかだと違うのでせうか。 CI/CD CI/CDの一般論的な話も多いですが、 DirectRunnerによる…
techfesta.connpass.com イベント自体は知っていましたが初参加。 感想 インフラエンジニアの勉強会(Peatixかどこかに記載あったはず)だと思っていますが、キャリア一般とかフロントエンドとか範囲広いのですね。 資料を事前・事後に(SpeakerDeckなどで)…
cloud.google.com 開発前に気にすることが紹介されている資料のメモです。他の章のメモはこちら。 サービスレベル Data Freshness 何%のデータが時間内で処理される、未処理の一番古いデータがある時間、パイプラインが一定時間内に終るなどの指標。 Data c…
Googleが2020/6月に公開したDataflowの記事が勉強になったのでメモ。 開発 cloud.google.com 計画 cloud.google.com 自分のメモ not-rogue.hatenablog.com デプロイ cloud.google.com 自分のメモ not-rogue.hatenablog.com モニタリング cloud.google.com
BeamでDoFn書く時に、↓のように匿名クラスを使って書けます。 PCollection<Integer> wordLengths = words.apply( "ComputeWordLengths", // the transform name ParDo.of(new DoFn<String, Integer>() { // a DoFn as an anonymous inner class instance @ProcessElement public void p</string,></integer>…
ハマったのでメモ。(Airflow 1.10.2/Cloud Composer) 状態 Airflow Variableにも基づき、Airflowのタスクを動的に作成していた(Apache Airflow: Create dynamic DAG – Big Data & ETLのようにタスク外の部分でループしている感じ) DAG Runが実行・修了 A…
softwareengineeringdaily.com 概要 テーマ:Streaming SQLエンジンのMaterialize ゲスト:開発元の創業者Arjun Narayan(元Cockroach)と、Frank McSherry(元Microsoft) materialize.io Materializeの説明 What is Materialize? とかArchitecture Overvie…
learning.oreilly.com 2018年に出たGoogle Cloud Platformの本です。 著者の John J. GeewaxさんはGoogleのエンジニアです サンプルプログラムはNodeJS(あんまり依存しないと思いますが)です 以下のGCPサービスが紹介されており、 DB・ストレージ系(GCS.Bi…
すべての情報は2020/06時点のものです Safariとは www.oreilly.co.jp O'Reillyが運営している、オンライン学習プラットフォームです。 何が見れんの O'Reillyの本 O'Reilly以外の本 カンファレンスのビデオ(Strataとか) インタラクティブな学習ツール(Kat…
Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい katasでは、下のような内容を行い…
Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい Apache Beam katasを始めると、下…
Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい Beam Katasとは Apache Beamのコー…
softwareengineeringdaily.com 概要 Druidのマネージドサービス(+α)を提供しているImplyの Jad Naousさん(R&D担当のVP)がゲストで、Apache Druidの話。 内容 Druidの概要説明。「Druid is kind of the open-source OLAP real-time data」で、時系列DB(Gr…
shop.oreilly.com O'reillyのSafariで読んだ二冊目の本。 Flask自体だけでなく、サーバーサイドの話が広く載っていて、Pythonやサーバーサイド開発始める時に読みたかったなーと思うような本でした。 jinja2によるテンプレート SQLAlchemyによるDBアクセス B…
softwareengineeringdaily.com redwoodjs.com Software Engineering Dailyで、RedwoodJSというフレームワークの話。 ゲストはTom Preston-Wernerさんで、Githubの創業者&CEO&RedwoodJSの生みの親の人。 GraphQL React AWS Lambda あたりを組み合わせたフルス…
tl;dr insertId付けると、Streaming Insertの重複の可能性が下がる 重複排除はベストエフォートだよ 付けないメリットもあるよ insertIdとは https://cloud.google.com/bigquery/streaming-data-into-bigquery?hl=ja#dataconsistency BigQueryでStreaming In…
not-rogue.hatenablog.com では、 タスクはローカルのDocker agent メタデータとWebUIはPrefectCloud でしたが、全部をローカルで動かすことも出来ます。 準備 https://docs.prefect.io/core/getting_started/installation.html Docker Docker compose Pytho…
not-rogue.hatenablog.comの続きで、Prefectに関連する概念のメモです。 Hybrid Model www.prefect.io medium.com Prefectでは「Hybrid Model」を採用しています。これは、 処理コードとデータはユーザー オーケストレーション(状態やメタデータの管理)はP…
not-rogue.hatenablog.comの続きです。 前回はPrefect Cloudのアカウントを作ったので、さっそく触ってみます。 ダッシュボードの左側、サイドメニューにはチュートリアル(下図)があります。 それをやってみます。 1. プロジェクトの選択 Prefectでは、「…
Prefect Cloudとは Prefectのクラウドサービスで、スケジューラーやワーカー、データベース一式を用意してくれます。 料金 www.prefect.io 実行出来るFlow、ユーザー数、履歴の保存期間が違う3つの料金プランがあります。 Scheduler(無料) Team ($550) En…
not-rogue.hatenablog.comの続き。 PrefectやAirflowで言及されている動的なDAGとは 動的なDAG(Dynamic DAG)は、タスクを、DAGの実行時に決まる回数や、引数で繰り返すDAGです。 例えば、 マルチテナントなシステムで、各テナント毎に処理をしたい 似たよ…
softwareengineeringdaily.com Software Engineering DailyでのPrefectの話があり、良さげだったのでメモ。 Prefect OSSワークフローエンジン マネージドなクラウドサービス(Prefect Cloud - Prefect)もあり、その運営会社が主に開発を行っている Software…