Python、Selenium、ChromeDriverでブラウザを操作して過去レース結果のhrefリンクを自動で取得する方法

ブラウザ操作

オートレースの過去レース結果を取得するには、過去レース結果のリンクアドレスを取得する必要があります。今回は【Python】【Selenium】【ChromeDriver】を使用してブラウザを操作して過去レース結果のhrefリンクを自動で取得する方法を紹介します。動画では2020年分のhrefリンクを取得しましたが、アレンジすれば過去全てのリンクを取得することも可能になります。

この動画では下記の内容を解説しています。
1.Seleniumのインストール方法
2.Chromeブラウザのバージョン確認方法
3.ChromeDriverのダウンロード方法
4.HTML要素の探し方
5.Seleniumでセレクトボックスをコントロール方法
6.Seleniumでボタンをクリックする方法
7.hrefリンクを取得する方法
8.スクレイピング時のマナー対応(timeモジュール)
9.プログレスバーの使い方(tqdmモジュール)

ブログの方も参考にしてみてください。
https://xn--kck4a5byi2cc6903euxxc.com/entry/result_get

ChromeDriverのダウンロードサイト
https://chromedriver.chromium.org/downloads

【目次】
00:00 過去レース結果検索の使い方
02:39 Seleniumのインストール
03:26 ChromeDriverのダウンロード
05:37 Seleniumの動作確認
08:57 SelectBoxのコントロール方法
14:09 1か月分のレース情報を表示する
18:24 Seleniumでボタンをクリックする方法
20:49 hrefリンクの取得
28:50 1年分(2020年)のhrefリンクを全て取得する
37:23 スクレイピングのマナー(waitをかける方法)
43:14 進捗確認のプログレスバーを表示する
#Python#Selenium#スクレイピング

コメント

タイトルとURLをコピーしました