queuery の検索結果:

クックパッドマートにおける item-to-item レコメンデーションの変遷

…ントを取得します (Queuery を使用して取得します) Hako によって定義された ECS 環境が立ち上がり、カート追加イベントを受け取って RecBole を使った RecVAE の学習が行われます およそ 3時間程度で学習が完了します 全アイテムに対するレコメンドリストを出力し、S3 に格納します このとき、オフラインテストのメトリクス群も取得し、S3 に保存します オフラインテストのメトリクスは社内ツールの Metrics Tracer というメトリクス監視ツール…

fastText in Cookpad

…分割結果の取得には Queuery(きゅうり)というシステムを使っています。Queuery は、UNLOAD を使うことで、Redshift やクライアントに負荷をかけずに SELECT を実行できるシステムです。Queuery は去年末に OSS 化されました。詳細は以下の記事をご覧ください。研究開発部の山口による Python クライアントもあります。 Redshiftのデータをサービス改善に役立てるデータ転送システム Queuery 2. fastText の学習 Py…

Redshiftのデータをサービス改善に役立てるデータ転送システム Queuery

…データ転送基盤であるQueuery(きゅうり)について、OSSとしてGitHubへの公開しましたのでこの記事でご紹介をします。 github.com Queueryというシステムは2017年の春頃にid:koba789の手により作られ、クックパッドのデータ基盤における重要な立ち位置を担っています。 背景 従来、RedshiftでSELECT文などの取得系クエリを実行するためにはRedshiftに直接接続してクエリを発行していました。この方法ではクエリ結果が巨大な場合にクライア…

形態素解析を行うだけのバッチをつくる

…されています。また、Queuery(きゅーり)という社内向けのシステムがあり、UNLOAD を使うことで Redshift に負荷をかけずに SELECT が実行できるようになっています。 今回は、Queuery をさらにラップした corter(かーたー)という社内向けの Python パッケージをつくりました。corter は COllect Recipe-related TExts from Redshift の略で、その名のとおり、レシピに関するテキストを Redsh…

データ基盤チーム0人で運用は回るのか?! 前人未踏チャレンジ・クックパッドデータ基盤のすべて2020

…すると、 基本的にはQueuery(きゅーり)という内製のシステムを使っています。 QueueryはHTTPのAPIでRedshiftにクエリーを投げられる薄いシステムで、 内部ではRedshiftのUNLOADを使っています。 アプリケーションはUNLOADされたデータをS3から読むので、 読み込みの負荷をRedshiftから切り離すことができる利点があります。 特にRubyからは、redshift-connectorというライブラリで Queueryを簡単に使えるようにし…

データ活用基盤の今 〜DWH外観図〜

…年の記事と変わらず、Queueryとredshift_connectorが使われています。他のサービスからも利用できるようなDWHを構築しておくことで、データ活用基盤が分析のみならず様々なサービスやプロダクトにまで活用されるようになります。 過去にTechlifeでご紹介したデータ活用基盤を利用したシステム運用の記事を下記に載せておきます。 Redshiftから外部システムへのバルクエクスポートはQueueryとredshift_connectorが使われています。 http…

cookpadTV ライブ配信サービスの”突貫” Auto Scaling 環境構築

…nnector + Queuery を使って MySQL にロード クックパッドでは全てのログデータは Amazon Redshift に取り込まれるようになっていて、そのデータを Tableau を使って可視化しています。 それをデータ活用基盤を利用して加工、アプリケーションの MySQL まで取り込んでいます。 後は番組情報が作成、更新されたらその付近で配信予定の番組も合わせて min_capacity が再計算されるようになっています。 これらによって予約された Aut…

クックパッドのデータ活用基盤

…たのですが、 最近はQueueryというHTTP APIシステムを挟むようにしています。 Queueryは、APIでselect文を受け付けて結果をS3にUNLOADし、そのURLを返すだけの単純なシステムです。 このシステムを作った一番の理由は、バッチからの読み込み方法をRedshiftのUNLOADだけに限定したかったという点です。 Redshiftのカーソルはleader nodeにデータをマテリアライズするうえに、カーソルがクローズされるまでコネクションを占有しつづけ…