前回の「単回帰分析」の数学を使って理解編は、ご覧いただけましたか。
前回の動画までの動画は、理論の話だったので理解しづらかったところがあると思います。
今回は手を動かしながら理解を深めていきましょう。
そこで、この動画では、Excelを使って単回帰分析をしていきます。
ではなぜExcelで分析をするのでしょうか?
▼目次
00:00 はじめに
03:05 使用するデータについて
05:03 Excelで使用するデータの準備
10:28 Excelで散布図の作成
12:27 前回までの復習
13:24 Excelで回帰直線に必要な係数の計算
18:46 Excelで相関係数、決定係数の計算
20:13 Excelの散布図から単回帰分析を一瞬でする方法
21:32 求めた係数から目的変数の予測をする方法
23:10 おわりに
▼書き起こし
まず、初めに、今回の単回帰分析で使用するデータセットについて説明します。
今回、エクセルでの分析に使用するデータは、アメリカの都市、ボストンの住宅価格に関するデータセットです。
このデータセットは、ライブラリのsklearn(サイキットラーン)に入っています。
sklearnは、色々な機械学習をすることができる便利なライブラリです。
このデータセットは、次のPython実装編でも使用するデータになります。
したがって、pip installでインストールします。
ボストンの住宅価格に関するデータセットの中身について説明します。
このデータセットは、ボストンの分割された区画のデータで構成されています。
ボストンを506の区画に分割し、それの各区画に関するデータが14項目あります。
各区画に関するデータとは、その区画の犯罪率や住宅価格の中央値などです。
データの各項目に関する詳しい情報については後ほど説明します。
このボストン住宅価格のこのデータセットは、機械学習においては有名で、
このデータは基本的に、住宅価格を目的変数、それ以外を説明変数として使用します。
つまり、住宅価格を色々なデータで予測するために使用します。
今回は、住宅価格に大きく影響しそうなデータを1つ使用して、単回帰分析をおこないます。
エクセル編では、エクセルでの操作をしやすくするために、全506個のデータから50個のデータを取り出して分析をおこないます。
それでは、必要な50個のデータをPythonで抽出し、エクセルファイルに書き出していきましょう。
ちなみに、データ抽出についてはPythonも得意ですが、もっと大量データになった場合にはSQLが便利です。
キノコードには、SQL超入門講座というレッスンもありますので、ぜひそちらもご覧ください。
“`python
from sklearn.datasets import load_boston
import pandas as pd
“`
ボストンデータの抽出に使用するライブラリをインポートしていきます。
まずは、sklearnの中にあるボストンデータをインポートします。
次に、取得したボストンデータをエクセルファイルに書き出すために、Pandasをインポートします。
実行します。
“`python
bs = load_boston()
“`
次に、ボストンデータをbsという変数に代入をします。
bsという変数に代入するために、bs、イコールと書きます。
次に、ボストンデータを読み込むのに、load_boston丸括弧と書きます。
実行します。
今回の操作では、データを読み込んだだけなので、何も表示されません。
“`python
bs
“`
次に、読み込んだ、ボストンデータをみて見ましょう。
print関数でbsの中身をみてみましょう。
たくさんの情報が出力されて見づらいですが、ボストンデータの中身はこのようになっています。
データは辞書型で格納されています。
上の、データの部分に、各区画の犯罪率などのデータが入っています。
次に、ターゲットの部分に住宅価格の中央値のデータが入っています。
次のフィーチャーネームに先程の、データの名称の略称が入っています。
ちなみに、最初の、CRIMが犯罪率、ZNが広さ、INDUSが産業、CHASが川の隣であるか、NOXが環境、RMが部屋数、AGEが築年数です。
次のDESCRに、このデータセットは何であるか、データの略称名の説明、リファレンスなどが入っています。
そして、最後のファイルネームに、データセットの保存場所のパスが書かれています。
また、ファイルパスから、このデータはcsv形式で保存されていることがわかります。
なお、私はAnacondaの中に入っているJupyterLabを使用しています。
Anacondaを使用していない方は、パスが書かれていないかもしれません。
“`python
print(bs.DESCR)
“`
データの情報を見るために、DESCRの中身を見やすくして表示してみましょう。
DESCRの中身を見やすくして表示するにはprint関数を使用します。
実行します。
ボストンデータに関する情報が表示されていますね。
表示されている、中央付近のアトリビュートインフォメーションに、データの属性情報が書かれています。
今回は、この中から、部屋数の平均RMと、住宅価格の中央値MEDVというデータを使用し、単回帰分析をおこないます。
なぜ、このデータを選んだかというと、部屋数と住宅価格には正の相関関係があると考えられるからです。
つまり、部屋数が多い方が、家が大きく価格も高いだろう仮説を検証することになります。
この仮説が当たっているかどうか単回帰分析でみていきましょう。
(続く)
▼書き起こしブログ
<準備中>
▼自己紹介
ブログに自己紹介を書いております。
https://kino-code.com/profile/
▼SNS
Twitter : https://twitter.com/kino_code/likes
Facebook : https://www.facebook.com/%E3%82%AD%E3%83%8E%E3%82%B3%E3%83%BC%E3%83%89-105693727500005/
Website : https://kino-code.com/
#人工知能 #AI #Excel #単回帰分析 #仕事に使える
コメント