【Python × スクレイピング入門⑥】実践!SUUMOのホームページから賃貸情報を取得しよう!【PART1】
※現在、質問・相談コメントの返信は対応しておりません。ご承知おきくださいませ🙇🏻♂️
▼ソースコード
https://github.com/hayatasuuu/ScrapingBeginner
スクレイピング講座の第6回目になります!
Pythonは、基本的に副業で稼ぐには不向きです。
でもスクレイピングは唯一、副業で稼ぐことが可能なスキルなので、一緒に頑張っていきましょう(`・ω・´)!
≪この動画で学べる内容≫
①実践形式で応用力が身につく
②スクレイピング禁止の確認方法が分かる
③複数ページから情報抽出する方法が分かる
▼リスト内包表記の動画
▼スクレイピング入門〜再生リスト〜
■□■□■□■□■□■□■□■□■□■□
▼Pythonの学習が済んでいない方はこちら!
Python入門【2020年版】:https://www.youtube.com/playlist?list=PL4Y-mUWLK2t2rISQza73yNiz6_8HTaQiY
▼Anacondaのインストール方法(Windows)
テキスト:https://tech-diary.net/anaconda-install-windows/
■□■□■□■□■□■□■□■□■□■□
▽Twitter
Tweets by hayatasuuu
▽Blog
https://tech-diary.net/
▽stand.fm(ラジオ)
https://stand.fm/channels/5f812ac1f04555115d597948
▼経歴
現在:フリーランスエンジニア(Python, GCP)
過去:大手SIerで機械学習系エンジニア&プログラミングスクール講師→大手金融機関(連結3万人以上)でデータサイエンティスト(Python, AWS)→スタートアップでWebエンジニア(Golang, ReactJS)→現在に至る
コメント
質問失礼します。
# 変数tableからすべてのtrタグを取得して、変数tr_tagsに格納
tr_tags = table.find_all(‘tr’, class_=’js-cassette_link’)
# tr_targsの中から最初の1つだけtr_tagに格納
tr_tag = tr_tags[0]
この2行が通らずにAttributeエラーになるのですが、どこか間違えてますかね?
初めまして、現在環境をVScodeではやたすさんの動画を拝見しながらpythonを学んでいるものです。動画通りに進めていたところ title=detail.find_all(“div”,class_=”cassetteitem_content-title”).text の部分でAttributeError: ResultSet object has no attribute ‘find_all’. You’re probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()? とエラーがでてしまい困り果ててしまいました。何か解決策はありますでしょうかアドバイスいただけますでしょうか。
スクレイピングのサンプルコードを紹介するだけで終わりではなく、
スクレイピングをする際の思考の流れを教えてくださっています。
答えを示すのではなく、答えを導き出す考え方、そして躓かないように「ヒント」を
出してくれます。
・スクレイピングのマナー(注意、禁止事項)
・ターゲットの範囲(小さく始める。いきなる for 文で取得しない)
・要素の特定(開発者ツールでの調査)
・取得した要素をわかりやすい変数名で分解して格納
・情報を抽出
・ループで回す
ただ解説するだけなじゃくて、ハンズオンで繰り返し同じコードを書かせることで、
コーティング技術を着実に身に着けさせてくれます。
最初は動画を見ながら同じコードを模写するのですが、毎回同じコード(import 文とか)を書くので、
そのうち動画を見なくても書けるようになってきます。
はやたすさんの教え方もそうですが、『教材(ipynb)』がピカイチです!
ちゃんと受講生が一人立ちできることを想定してカリキュラムが組まれています。
特に、作業中に受講生が気になるポイントを解説してくれる所がすごい!
まるで斜め後ろで様子を見れくれている先生のようです。
例えば、スクレイピングした文字列の一部に改行コードが入っている箇所があり、
気になったのですが、
『※途中で改行記号(n)などが入っていますが、それらは無視して大丈夫です。』
って説明してくれているんです。
もう、ビックリします!!
※「ちなにみ余計な文字を削除する方法」は、動画の第9回の最後で紹介されていますヨ!
休日や仕事終わりにPCに向かって勉強するのは、なかなか気持ちが乗らない時が多いですが、
はやたすさんの動画は、次もやりたい!って気持ちにさせてくれます。
はぁ~楽しい。
—
学習に支障はございませんが、教材で誤植かな?と思われる箇所がありましので、お知らせさせていただきます。
ファイル名: section6.ipynb
セクション: soupから情報を抽出する
動画だと 10:00 の箇所です。
(誤)これで、cassetteを持つすべてのdivタグを取得できました。
(正)これで、cassetteitemを持つすべてのdivタグを取得できました。