score <- read.csv("classscore.csv")
score
名前 第1回得点 第2回得点
1 KATIE 67 80
2 LOUISE 48 82
3 JANE 53 78
4 JACLYN 60 76
5 LILLIE 29 83
この結果からKATIEの成績は第1回目に比べ第2回目の方が良かったとは言えません。なぜなら、クラス全体の平均得点や点数のばらつきを考慮しなければならないからです。
第1回目と第2回目の得点のヒストグラムを表示してみましょう。
par(mfcol=c(2,1))
hist(score$第1回得点,main="第1回得点",xlab="得点")
hist(score$第2回得点,main="第2回得点",xlab="得点")
第1回目の方がばらつきが大きく、平均点が低いことが分かります。
次に、第1回目の得点と第2回目の得点をそれぞれ基準化します。Rにはデータを基準化するための関数scaleが用意されているので、これを利用します。
score$z1 <- scale(score$第1回得点)
score$z2 <- scale(score$第2回得点)
scoreを表すると基準化されたデータがz1、z2として表示されます。
score
名前 第1回得点 第2回得点 z1 z2
1 KATIE 67 80 1.853667896 0.104549
2 LOUISE 48 82 -0.097561468 0.522745
3 JANE 53 78 0.415919943 -0.313647
4 JACLYN 60 76 1.134793920 -0.731843
5 LILLIE 29 83 -2.048790833 0.731843
この結果から、KATIEは第1回より第2回の成績が悪いことが分かります。
ちなみに基準化得点を10倍し、50を加えたものがいわゆる「偏差値」と呼ばれるものです。偏差値の計算をしてみましょう。
score$偏差値1 <- score$z1 * 10 + 50
score$偏差値2 <- score$z2 * 10 + 50
score
名前 第1回得点 第2回得点 z1 z2 偏差値1 偏差値2
1 KATIE 67 80 1.853667896 0.104549 68.53668 51.04549
2 LOUISE 48 82 -0.097561468 0.522745 49.02439 55.22745
3 JANE 53 78 0.415919943 -0.313647 54.15920 46.86353

コメントする