クロス集計表の作成
carsurvey.csvはアメリカの消費者から無作為に303名を選び、その消費者と所有車の属性をアンケート調査した結果です。このデータから、モザイク図とクロス集計表を作成してみましょう。まず、データをRに読み込みます。
> car <- read.csv("carsurvey.csv")
データの中身を確認してみましょう。
> car
性別 既未婚 年齢 生産国 サイズ タイプ
1 男性 既婚 34 米国 大型 ファミリー
2 男性 未婚 36 日本 小型 スポーツ
3 男性 既婚 23 日本 小型 ファミリー
4 男性 未婚 29 米国 大型 ファミリー
このデータから、既婚者・未婚者で車の好みが異なるかどうかを検証してみましょう。つまり、「既未婚」の列と、「タイプ」の列を使ってクロス集計表とモザイク図を作成します。
クロス集計表を作成するにはtableという関数を利用します。
> marital_cartype <- table(car$既未婚,car$タイプ)
代入した変数の中身を確認すると、クロス集計表が表示されます。
> marital_cartype
スポーツ ファミリー ワーク
既婚 45 119 32
未婚 55 36 16
モザイク図の作成
次にこのクロス集計表からモザイク図を作成します。Mosaicplotという関数を利用します。
> mosaicplot(marital_cartype,main="既未婚と車の種類")
独立性の仮説検定
結婚の有無と車の選好が独立(無関係)かどうかを仮説検定しましょう。帰無仮説と対立仮説はそれぞれ、
帰無仮説:結婚の有無と車の選好が独立。
帰無仮説:結婚の有無と車の選好が独立ではない。
です。
> chisq.test(marital_cartype)
Pearson's Chi-squared test
data: marital_cartype
X-squared = 26.9629, df = 2, p-value = 1.397e-06
ここで注意しなければならないところは「p-value」です。この値が有意水準よりも小さければ帰無仮説が棄却されます。もし有意水準を一般的な5%にすると1.397e-06<0.05より、帰無仮説が棄却されます(1.397e-06は
を意味します)。つまり結婚の有無と車の選好は独立ではないと考えられます。
「X-squared」と「df」はそれぞれ検定統計値と自由度を表します。これらも仮説検定では重要な情報ですが、今回はこれには触れません。
練習問題
「生産国」と「サイズ」、「既未婚」と「サイズ」についてもそれぞれ独立性の検定を行って下さい。
