Pythonで検索順位を自動保存（SEOのデータ分析に使える）｜PythonでWebスクレイピング第05回

今回はWebスクレイピングの5回目のレッスンです。
3回目のレッスンで解説した、検索結果ページの情報を取得する方法を覚えているでしょうか。
このときは、”python”というように、あらかじめ1つの検索キーワードを設定し、その検索結果ページの情報を取得しました。
もちろんこの方法を学ぶだけでも、情報収集を随分効率化することができます。

ただ、同じジャンルの様々なキーワードで、検索結果ページを調査したいケースも多くあると思います。
例えばプログラミング言語であれば、”python”、”javascript”、”go”で検索した時の検索結果ページの情報を一気に取得できたら便利ですよね？
このWebスクレイピングの5回目のレッスンでは、こうした複数のキーワードの検索結果ページの情報を一気に取得する方法を学習します。

このレッスンには、1回目～4回目のレッスンで学んだ内容も多く出てきます。
もしこのレッスンで分からないところがあれば、1回目から4回目までのレッスンを見直してみてください。

▼目次
00:00 ダイジェスト
00:11 はじめに
02:05 ライブラリのインポート
02:51 複数キーワードでWebサイトを検索して検索結果のURLを取得
04:29 データ取得日時を追加
05:32 キーワードごとにページのタイトルなどのデータを取得
08:45 取得したデータをデータフレームに変換
09:59 キーワードごとにCSVファイルに書き出し
11:56 おわりに

▼書き起こしブログ
https://kino-code.com/python_automation_web_scraping05/

▼書き起こし
“`python
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time
“`

では、ライブラリをインポートします。
bs4のパッケージの中にあるBeautifulSoupを読み込みます。
BeautifulSoupは、複雑なHTMLの構造を解析し、必要な部分を取り出すことができるライブラリです。
HTTP接続するために、requestsをインポートします。
requestsはPythonの標準のurllibモジュールよりもシンプルに実装でき、APIに関する機能も備わっています。
さらに、HTTPに接続した後、すぐに次の処理が実行されないようにするためtimeをインポートします。
実行します。
インポートが完了しました。

“`python
keyword_list = [‘python’, ‘ruby’, ‘javascript’, ‘c’, ‘java’, ‘go’, ‘kotlin’]
“`

続いてkeyword_listという変数に、検索するキーワードを代入します。
今回は’python’,’ruby’,’javascript’,’c’,’java’,’go’,’kotlin’の7つの言語を検索します。
各言語をカンマ区切りのリストとして変数に代入しましょう。
実行します。
keyword_listに検索するキーワードのリストが格納されました。

▼自己紹介
ブログに自己紹介を書いております。