webページ探索自動化

# webページ探索自動化 - webページから情報を自動で抽出したりすることは**クローリング**とか**スクレイピング**っていうからその辺でググるといろいろ出てくるよ - でもサイトによってはクローリングが禁止されていることもあるから一応注意が必要 ## pythonの布教 - 趣味で何かプログラミングしたいならpythonが簡単なのでおすすめ - 「import ~」って感じで便利な関数がまとまっているパッケージツールが使えて、だいたいの人が実現したいけどめんどくさいと思うような処理は関数はだいたいある - 自分もpythonで自動化しているよ、というかpythonでのやり方しか教えられない - UWSCでのやり方も教えられるけど古いからおすすめしない - UWSCって言語？ではweb上だけじゃなくてデスクトップ上の自動化もできるよ ## pythonでやる時 - やり方二種類 - seleniumでやる - webブラウザ（クロームとか）の画面上にあるボタンをクリックして画面遷移をしながらページ内の情報を取得する - ログイン、認証処理があってもできる - requestsとかScrapyとかでやる - 認証とかがないときに簡単にできる - webブラウザで画面を出さないで実行できる - 並列化可能 ## 実際にどうやるのか 1. pythonのインストール - https://techacademy.jp/magazine/15571 2. python実行方法 - https://www.javadrive.jp/python/ini/index1.html 3. pipとは（便利なパッケージツールをインストールするコマンド） - https://qiita.com/yuta-38/items/730bf91526f92fe0b41a - ぶっちゃけ`pip install ****`のコマンドさえ知っておけば問題ない 4. 目的にあったパッケージツールを活用して実行 - pythonのseleniumでやるならこの記事がいいと思う（テニスコートのやつとかはこっち） - https://techacademy.jp/magazine/28392 - pythonのrequestsでやるならこの記事がいいと思う - https://www.sejuku.net/blog/69383 ## 要するに - python + selenium　が汎用的にできるよ