スクレイピングしていいのかプログラムで確認してみた【python】(robotparser)

スクレイピング

このチャンネルではプログラミングについての動画を投稿してきました。
その中でよく再生されているのがPython関係、特にスクレイピング関連の動画です。
どうやらみなさんスクレイピングが大好きのようですね。

実は私はほとんどスクレイピングを使いません。
理由は3つあります。

1つ目はスクレイピングの対象となるwebサイトがスクレイピングしても良いのか調べるのがめんどくさいということです。
robots.txtと利用規約のチェックが地味に大変なのですよね。

2つ目はスクレイピングしたいと思うサービスはだいたいスクレイピングを禁止しているということです。
というかスクレイピングを許可しているサイトってあるんですかってくらいに見つからないです。

3つ目はスクレイピングしたいwebサイトではAPIが用意されていることがほとんどだからです。

なので私は基本的にはスクレイピングを使わずにAPIを使って情報を取得しています。
こっちのほうが確実だし、安全ですからね。
スクレイピングって使い方を間違えると大変なことになる可能性があります。

知っている方も多いと思いますが、よく例で上がるのがこの1件。
この件では逮捕された男性は最終的には起訴猶予処分となりましたが、誰しも逮捕なんてされたくはありません。

スクレイピングを使うならば、ちゃんとルールを守る必要があるのですが、先程述べたようにrobots.txtや利用規約を読むのってめんどくさいです。

そんなときにpythonの標準モジュールでrobotpaserというものを知りました。

これはrobots.txtの内容を解析し、そのwebサイトがスクレイピングを許可しているのかどうかを調べてくれるものです。

とても便利そうなので、ちょっと使ってみた感想を今回お話したいと思います。

よかったら最後までご覧ください。

——————————————————————————————————————————————–
今後の頑張りに繋がりますので、高評価・チャンネル登録もよろしくお願いします。
↓チャンネル登録は以下のリンクからでもできます!
http://www.youtube.com/channel/UCiSfMiEnihaQbom4dhIZBpQ?sub_confirmation=1

ツイッターでも情報を発信しています。

欲しいものリスト作ってみました。
開発環境を更新したい!!いろいろ実験してみたい!!
https://www.amazon.jp/hz/wishlist/ls/KORH9OT5RT9E?ref_=wl_share

コメント

タイトルとURLをコピーしました