pref <- read.csv("prefectures.csv")
次に以下の3行を入力します。
par(mfrow=c(2,1)) #グラフ画面を2分割(2行1列)
boxplot(pref$商店数,horizontal=T,main="商店数の箱ひげ図")
hist(pref$商店数,xlab="商店数",main="商店数のヒストグラム")
以下のグラフが出力されます。
ヒストグラムより、分布が右にゆがんでいることがわかります。また、箱ひげ図から外れ値と考えられるものが5つあります。どの件が外れ値になっているのかを、データを商店数でソートすることで調べてみましょう。
pref[order(pref$商店数,decreasing=T),]
県コ..ド 県名 面積 人口 持家比率 地方交付税 地方税収 商店数 電力消費量
13 13 東京 2183 11573 40 0 3860 144 23746
27 27 大阪 1884 8543 48 39 1098 112 16986
23 23 愛知 5147 6715 58 16 921 80 11961
14 14 神奈川 2412 8104 52 33 887 72 13974
28 28 兵庫 8382 5458 60 262 544 70 9623
40 40 福岡 4966 4849 53 250 434 65 8090
この結果から、5つの外れ値は東京、大阪、愛知、神奈川、兵庫だということが分かります。つまり、人口が多い都市にはたくさんの商店があるという、ごく当たり前の結果が現れています。
次に、人口1000人あたりの商店数を計算することで人口規模の要因を除去してヒストグラムを作成しましょう。次の式を入力してください。
pref$千人当たり商店数 <- pref$商店数 / pref$人口 * 1000
これは、読み込んだデータprefの「商店数」の列を「人口」の列で除したうえで1000を乗じ、その結果を「千人あたり商店数」として付け加えることを意味します。
次に「千人あたり商店数」の箱ひげ図とヒストグラムを作成しましょう。
par(mfrow=c(2,1))
boxplot(pref$千人当たり商店数,horizontal=T,main="千人当たり商店数の箱ひげ図")
hist(pref$千人当たり商店数,xlab="千人当たり商店数",main="千人当たり商店数のヒストグラム")
千人あたりの商店数でデータを並び替えてみましょう。
pref[order(pref$千人当たり商店数,decreasing=T),]
県コ..ド 県名 面積 人口 持家比率 地方交付税 地方税収 商店数 電力消費量 自動車保有 千人当たり商店数
39 39 高知 7104 827 67 183 60 15 1447 264 18.137848
16 16 富山 4246 1124 80 135 124 20 1914 456 17.793594
32 32 島根 6626 775 76 181 65 13 1265 257 16.774194
36 36 徳島 4143 837 70 156 73 14 1514 294 16.726404
47 47 沖縄 2264 1267 56 189 72 21 2169 454 16.574586
30 30 和歌山 4722 1095 73 160 97 18 2056 358 16.438356
5 5 秋田 11613 1227 80 216 101 20 1733 404 16.299919
この結果から何が読み取れるでしょうか?考えてみて下さい。
