外部システムの操作にchromedpを採用してみた

# 外部システムの操作にchromedpを採用してみた  --- ## 皆さんこんにちは！ :wave: ---  My Profile Otogawa Katsutoshi freelance backend enginner interesting golang, python, and more... [twitter account](https://twitter.com/k_otogawa) ---  ## 突然ですがみなさん！スクレイピングはやったことありますか？ :sunglasses: --- ## 私はたまにエロ画像収集に使っています！ ![えっち](https://hackmd.io/_uploads/rkE3CHWKh.png =x400) ---  ## 今回何しに来たか?というとブラウザを使った、スクレイピングによくpythonやjsが使われるけど、golangのchromedpというライブラリを使う方が良いんじゃないか？という紹介に来ました。 ## 要するに --- ## chromedpを使ったスクレイピングの布教に来ました ![布教](https://i.imgur.com/FqNC6gr.png =x500) 入信したら幸せになれます! ---  ## そもそもスクレイピングが必要な環境でない ![遠慮する](https://hackmd.io/_uploads/SJNeOvAF3.png =x400) --- ## 欲しい情報や操作はapiで公開されいる  相当大規模にやらないと必要無いっしょ？ ![呆れ](https://i.imgur.com/eoBvcN5.png =x500)  --- ## 現実として必要なapiを公開しなかったり、~~クソな~~異様に使いづらかったり、api自体に~~バグくさい~~不思議な仕様があるときに必要になる ![インシデント](https://hackmd.io/_uploads/H19EHBqDn.png =x400)  ---  ## ブラウザを操作できたら勇者になれる! ![勇者](https://hackmd.io/_uploads/BJWUBvCYh.png =x400)  --- ## ということで、ブラウザのスクレイピング方法を覚えて単価を上げよう ---  ## chromedp以前になぜgolangか？ ![問題提起](https://i.imgur.com/N4Umxfe.png =x500)  --- ## そもそも言語による違いブラウザを動かすのに、速度やメモリの言語の違いが出るのか？重さがほとんどブラウザだろうから、どの言語でやってもあまり変わらないんじゃないか？ ![問題提起](https://i.imgur.com/N4Umxfe.png =x500)  ---  ## 結構差が出るスクレイピング的にメモリも速度もだいたい java > go = dotnet >= nodejs > python だった。  --- ## goが一番バランス取れてそう 1. 軽さの割にメモリ使用量が少ない  2. 型がある 3. コールバックがあってもそんなに複雑にならない ![](https://hackmd.io/_uploads/rJFosdAF2.png =x400)  --- ## chromedpのいいところ 1. 各処理をタスクとして切り分けれる。 2. タスクとタスクを合わせてタスクを作れる  --- ## puppeteerなどだと直列で処理をまとめて書くのが難しい loginSiteTasksとisSessionVertificationTasksは Promise\<Page\>を引数として受け取って、各処理を行う関数として考える。 ```js const puppeteer = require('puppeteer'); const browser = await puppeteer.launch({headless: false}); const page = await browser.newPage(); // こういう風にかきたい...関数にまとめてところで、PromiseAllは順番に実行が保証されない。 const [_, valid] = await Promise.all([ loginSiteTasks(page), isSessionVertificationTasks(page), ]) ``` --- 結局async awaitだらけの縦に長いソースコードになる。 ```js= ...中略 // 結局順番に処理させるために全部awaitつけることになる await loginSiteTasks(page); await isSessionVertificationTasks(page) ```  --- ## 処理を関数にまとめるときにしんどい --- ## なぜしんどいか各処理を行うのにPromise\<Page\>が必要だが、簡単にまとめる方法がpuppeteerから提供されていないから。まとめるのにテクニックが必要。 --- ## chromedpだと chromedp.Tasksとして提供されている。 ```go= ctx, cancel := chromedp.NewContext(context.Background()) // 中略 ... // taskを配列として渡せる tasks := chromedp.Tasks{ chromedp.Navigate(url), chromedp.Sleep(15*time.Minute) } // 渡した配列のタスクを処理。 chromedp.Run(ctx,tasks) ``` --- 可変長で配列のタスクを渡せる ```go= var tasks1, tasks2 chromedp.Tasks // 中略　初期化 ... // 渡したタスクを全て実行 chromedp.Run(ctx, tasks1, tasks2) ``` --- 自作のタスクが欲しい場合は chromedp.ActionFuncで簡単に自作できる。 ```go= // これだけでchromedp.Tasks型の変数になる task := chromedp.ActionFunc(func(ctx context.Context) error { err := chromedp.Click(sel).Do(ctx) if err != nil { log.Println("クリックできませんでした。", err) return err } return nil }) ``` --- なので、chromedp.Tasksを戻り値に持つ関数を作れば簡単に処理をまとめられる。 ```go= func MovePageTasks() chromedp.Tasks { return chromedp.Tasks{ chromedp.Navigate(url), chromedp.ActionFunc(func(ctx context.Context) error { err := chromedp.Sleep(waitTime).Do(ctx) if err != nil { log.Println("待てませんでした。", err) return err } log.Printf("%v待ちました。", waitTime) return nil }), } } ``` ---  LoginSiteTasksとIsSessionVertificationTasksは chromedp.Tasksを返す各処理を行う関数として考える。 ```go= ctx, cancel := chromedp.NewContext(context.Background()) // 中略 ... var valid bool // 各処理をタスクという形で可変長引数として渡せる // この可変長引数は若い順番から実行されることが保証されている。 err := chromedp.Run(ctx, LoginSiteTasks(), // Loginした後にsessionが有効になったかチェックする。 IsSessionVerificationTasks(&valid), ) // エラーが出た。 if err != nil { log.Fatal(err) t.Errorf("TestLoginTasks() = %v", err) } if valid == tt.want { t.Errorf("TestLoginTasks() = %v, want %v", valid, tt.want) } ``` --- ## まとめ  1. chromedp良いよ! 2. タスクごとに処理分けれる。 3. 直列な処理が保証できる。  ![](https://i.imgur.com/c1s1RCE.png =x500)