カーキ色はヒンディー語らしい

技術記事は https://zenn.dev/notrogue

2020-01-01から1年間の記事一覧

Global Virtual Flink Forward 2020 Recap(Keynote)

WIP

www.flink-forward.org 10月後半にあったFlink ForwardのRecap(Keynote編)です(本邦初)。 なお、Ververcica(Flinkの創始者の会社・Forwardの運営)もRecap作ってくれています。 www.ververica.com ------ www.youtube.com 登壇者:Stephan Ewen (Flink…

jq入門してみた

dotinstall.comドットインストールのエイプリルフール企画の講座です。 自分のバックグランド jqは整形やフィールドの抽出に使う程度 jq Manual (development version)はちゃんと読んでいない 主な内容 フィルター 関数(select, map, add, length…) 整形(…

UdemyでBeam入門の講座(A Hands-On course to build Big data Pipelines)見てみた

コースだとついつい買っちゃうよね。 見た講座: www.udemy.com 自分のバックグランド: Beam Programming Guideは何回か読んだ Streaming Systems: The What, Where, When, and How of Large-Scale Data Processingも読んだ 仕事でBeamのコードも何度か書い…

Javaパフォーマンス読んだ

www.oreilly.co.jp日本語版は2015年と古いですが、英語版は2020年に二版が出ています。 日本語版はJava7が中心で、時々Java8の話題が出てきます。 主な内容 パフォーマンステストの話 ツール(CPU・メモリ、JDK Mission Control、ダンプ) JIT ガーベジコレ…

初めて登壇してみた

人生初登壇カキコ ariaki.connpass.com 当日のスライド Prefectに関して imperfectに語る from notrogue www.slideshare.net 感想 調べるなかでも、Prefectのドキュメント読んだりコード読んだりするのが勉強にりました テーマを絞らないLTなので、ワークフ…

Beam Summit 2020 #1

WIP

Beam Summit 2020とは 2020.beamsummit.org 2020/08/24~28に行われた、Beamのオンラインイベント 2019年は、Beam Summit North America 2019 - YouTubeとBeam Summit Europe 2019 - YouTubeがあった 録画もある 英語 聞いてみたセッションの話 Program | Bea…

Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing読んだ(1)

shop.oreilly.com 数少ない(唯一?)Dataflow/Apache Beam本で、著者はGoogleでDataflowの開発していた人です。 良かった 個々の話題は、Streaming 101: The world beyond batch – O’ReillyとかBeam Programming GuideとかGCPブログに載っている情報が多い…

Apache Flink眺めてみる

streamingsystems.netでApache Flinkがやたら褒められていたので、Flinkが気になってきた夏の日です。 Apache Flinkとは flink.apache.org ストリーミング処理が行えるフレームワークで、カテゴリー的には Cloud Dataflow Spark Streaming あたりの仲間です…

Building production-ready data pipelines using Dataflow: Deploying data pipelinesのメモ

cloud.google.comデプロイに関するノウハウ記事で、気になったところのメモです。他の章のメモはこちら。 Streamingだと全般的にジョブの更新面倒そうなのが辛い‥Flinkとかだと違うのでせうか。 CI/CD CI/CDの一般論的な話も多いですが、 DirectRunnerによる…

July Tech Festa

techfesta.connpass.com イベント自体は知っていましたが初参加。 感想 インフラエンジニアの勉強会(Peatixかどこかに記載あったはず)だと思っていますが、キャリア一般とかフロントエンドとか範囲広いのですね。 資料を事前・事後に(SpeakerDeckなどで)…

Building production-ready data pipelines using Dataflow: Planningのメモ

cloud.google.com 開発前に気にすることが紹介されている資料のメモです。他の章のメモはこちら。 サービスレベル Data Freshness 何%のデータが時間内で処理される、未処理の一番古いデータがある時間、パイプラインが一定時間内に終るなどの指標。 Data c…

Building production-ready data pipelines using Dataflow: Overview 読んだ

Googleが2020/6月に公開したDataflowの記事が勉強になったのでメモ。 開発 cloud.google.com 計画 cloud.google.com 自分のメモ not-rogue.hatenablog.com デプロイ cloud.google.com 自分のメモ not-rogue.hatenablog.com モニタリング cloud.google.com

Apache BeamのDoFnで匿名クラス使う時はSerializableに気をつけようという話

BeamでDoFn書く時に、↓のように匿名クラスを使って書けます。 PCollection<Integer> wordLengths = words.apply( "ComputeWordLengths", // the transform name ParDo.of(new DoFn<String, Integer>() { // a DoFn as an anonymous inner class instance @ProcessElement public void p</string,></integer>…

Airflowの動的なDAGでclearする時の話

ハマったのでメモ。(Airflow 1.10.2/Cloud Composer) 状態 Airflow Variableにも基づき、Airflowのタスクを動的に作成していた(Apache Airflow: Create dynamic DAG – Big Data & ETLのようにタスク外の部分でループしている感じ) DAG Runが実行・修了 A…

今日聞いたPodcast: Materialize (Software Engineering Daily)

softwareengineeringdaily.com 概要 テーマ:Streaming SQLエンジンのMaterialize ゲスト:開発元の創業者Arjun Narayan(元Cockroach)と、Frank McSherry(元Microsoft) materialize.io Materializeの説明 What is Materialize? とかArchitecture Overvie…

Google Cloud in Action読んだ

learning.oreilly.com 2018年に出たGoogle Cloud Platformの本です。 著者の John J. GeewaxさんはGoogleのエンジニアです サンプルプログラムはNodeJS(あんまり依存しないと思いますが)です 以下のGCPサービスが紹介されており、 DB・ストレージ系(GCS.Bi…

O'Reillyのサブスクリプション(Safari)登録してみた

すべての情報は2020/06時点のものです Safariとは www.oreilly.co.jp O'Reillyが運営している、オンライン学習プラットフォームです。 何が見れんの O'Reillyの本 O'Reilly以外の本 カンファレンスのビデオ(Strataとか) インタラクティブな学習ツール(Kat…

Apache Beam katasやってみる #2(課題編)

Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい katasでは、下のような内容を行い…

Apache Beam katasやってみる #1 (操作編)

Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい Apache Beam katasを始めると、下…

Apache Beam katasやってみる #0

Apache Beam katasやってみる #2(課題編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #1 (操作編) - カーキ色はヒンディー語らしい Apache Beam katasやってみる #0 - カーキ色はヒンディー語らしい Beam Katasとは Apache Beamのコー…

今日のPodcast: Software Engineering DailyでDruidの話

softwareengineeringdaily.com 概要 Druidのマネージドサービス(+α)を提供しているImplyの Jad Naousさん(R&D担当のVP)がゲストで、Apache Druidの話。 内容 Druidの概要説明。「Druid is kind of the open-source OLAP real-time data」で、時系列DB(Gr…

Flask Web Development読んだ

shop.oreilly.com O'reillyのSafariで読んだ二冊目の本。 Flask自体だけでなく、サーバーサイドの話が広く載っていて、Pythonやサーバーサイド開発始める時に読みたかったなーと思うような本でした。 jinja2によるテンプレート SQLAlchemyによるDBアクセス B…

今日のPodcast Software Engineering DailyでRedwoodJSの話

softwareengineeringdaily.com redwoodjs.com Software Engineering Dailyで、RedwoodJSというフレームワークの話。 ゲストはTom Preston-Wernerさんで、Githubの創業者&CEO&RedwoodJSの生みの親の人。 GraphQL React AWS Lambda あたりを組み合わせたフルス…

BigQueryのinsertIdの話

tl;dr insertId付けると、Streaming Insertの重複の可能性が下がる 重複排除はベストエフォートだよ 付けないメリットもあるよ insertIdとは https://cloud.google.com/bigquery/streaming-data-into-bigquery?hl=ja#dataconsistency BigQueryでStreaming In…

Prefectをローカルで動かしてみる

not-rogue.hatenablog.com では、 タスクはローカルのDocker agent メタデータとWebUIはPrefectCloud でしたが、全部をローカルで動かすことも出来ます。 準備 https://docs.prefect.io/core/getting_started/installation.html Docker Docker compose Pytho…

Prefect見てみる コンポーネント編

not-rogue.hatenablog.comの続きで、Prefectに関連する概念のメモです。 Hybrid Model www.prefect.io medium.com Prefectでは「Hybrid Model」を採用しています。これは、 処理コードとデータはユーザー オーケストレーション(状態やメタデータの管理)はP…

Prefect見てみる PrefectCloud触ってみる編その2

not-rogue.hatenablog.comの続きです。 前回はPrefect Cloudのアカウントを作ったので、さっそく触ってみます。 ダッシュボードの左側、サイドメニューにはチュートリアル(下図)があります。 それをやってみます。 1. プロジェクトの選択 Prefectでは、「…

Prefect見てみる PrefectCloud触ってみる編その1

Prefect Cloudとは Prefectのクラウドサービスで、スケジューラーやワーカー、データベース一式を用意してくれます。 料金 www.prefect.io 実行出来るFlow、ユーザー数、履歴の保存期間が違う3つの料金プランがあります。 Scheduler(無料) Team ($550) En…

Prefect見てみる 動的なDAG編

not-rogue.hatenablog.comの続き。 PrefectやAirflowで言及されている動的なDAGとは 動的なDAG(Dynamic DAG)は、タスクを、DAGの実行時に決まる回数や、引数で繰り返すDAGです。 例えば、 マルチテナントなシステムで、各テナント毎に処理をしたい 似たよ…

Prefectというワークフローエンジン良さげ?

softwareengineeringdaily.com Software Engineering DailyでのPrefectの話があり、良さげだったのでメモ。 Prefect OSSワークフローエンジン マネージドなクラウドサービス(Prefect Cloud - Prefect)もあり、その運営会社が主に開発を行っている Software…