PythonによるWebスクレイピング入門第二弾です!
前回の内容に続き、Webスクレイピングを一緒にマスターしていきましょう!
今回はWebページ内のテキストデータを自動で抽出する方法についてお伝えします!今回も簡単な内容であり、みなさんの業務を効率化するためのヒントが散りばめられています!是非お楽しみください!
◎講義で使用するページ
https://scraping-for-beginner.herokuapp.com/login_page
■ 本講座のベースになっているUdemy講座
PythonによるWebスクレイピング〜入門編〜
https://www.udemy.com/course/python-scraping-beginner/?referralCode=80FF17EE8C49654A816E
■ PythonによるWebスクレイピング入門
Pythonを用いた業務効率化、自動化の中でも代表的なWebスクレイピングについてお伝えしていきます。ブラウザ操作の自動化からテキストや画像データの自動抽出等を行う方法についてわかりやすくお伝えします。
【PythonによるWebスクレイピング入門】vol.01:ログインなどのブラウザ操作を自動化しよう(Selenium)
■ 他シリーズ人気動画
習得したい言語第1位!!Pythonとは? | 中学生でもわかるPython入門シリーズ
クラス | 中学生でもわかるPython入門シリーズ
PythonでぐるなびAPIを扱おう | Python活用シリーズ
■ Twitter
Tweets by 03Imanyu
■ Udemy
https://www.udemy.com/user/jin-xi-hang-ping-2/
#Webスクレイピング #Python #Selenium
コメント
いつも参考になります。2点ほど質問がございます。
12:07 でelem_th = find_element_by_tag_name と記載しているのですが、下記でも同じなのでしょうか?基本的にseleniumのimportだけですべて操作可能でしょうか。
from selenium.webdriver.common.by import By
elem_th = browser.find_elements_by_tag_name (‘th’)
2つめは要素をうまく抽出するためにCSSセレクタの勉強をしたいのですが、おすすめの本や動画はございますか?
領収書取得のためにselenium操作をしており、交通カードや電気のは取得できたのですが、下記銀行のHPで要素がなぜか取れません。
https://direct.chugin.co.jp/CGIK/BankIK?xtr=aulogon01000&NLS=IKP
他では要素取得ができているため、コード違いはないと思います。.refresh()や.save_screenshot()はうまくいくためdriverが認識されていないわけでもないです。
申し訳ないのですが、どういう対応をしたらよいのかアイデアだけでもいただけると幸いです。
解説ありがとうございます。
Jupyterで「!brew install chromedriver」と入力し実行すると下記のメッセージが出ます。
/bin/bash: brew: command not found
どうしたら良いでしょうか?
MacでChromeを使っています。
Windowsと同じようにダウンロードした方が良いでしょうか?