【Webスクレイピング】Pythonで日向坂46の宣材写真をまとめて保存する方法|コチラボ

スクレイピング

今回はGoogle Colabを使って、Pythonで日向坂46の宣材写真をスクレイピングする方法をざっくりと解説しました!

動画では1つ前の宣材写真を扱っていますが、サイトの大幅リニューアルがない限り、おそらく今後もずっと使えるコードになっています。もちろん最新の「君しか勝たん」の宣材写真も保存することができます!

動画の内容は多少のPython知識とHTML知識があればすんなり理解できると思いますし、下記のノートブックを開いて上から順に実行するだけでも画像を集めることができます!

動画で使ったノートブックはコチラ↓
https://colab.research.google.com/drive/1pUkXAIbYbNYI-d1u6ZryABKjAiEorzju?usp=sharing

00:00 オープニング
00:42 始める前に
01:40 本編スタート
02:09 新規ノートブックを作成
02:56 ライブラリのインポート
04:06 Googleドライブにマウント
06:00 保存用フォルダを作成
07:04 HTMLコードの確認
09:55 aタグを集める
13:29 a_Listから個人ページのURL部分のみを抜き出す
16:42 画像のURLとメンバーの名前を取得
22:24 画像をドライブに保存
25:25 エンディング

コード作成協力
https://liclog.net

コメント

タイトルとURLをコピーしました