データの標準化

| コメント(0) | トラックバック(0)
classscore.csvをRに読み込むと次のようなデータが表示されます。

score <- read.csv("classscore.csv")

score

名前 第1回得点 第2回得点

1 KATIE 67 80

2 LOUISE 48 82

3 JANE 53 78

4 JACLYN 60 76

5 LILLIE 29 83

この結果からKATIEの成績は第1回目に比べ第2回目の方が良かったとは言えません。なぜなら、クラス全体の平均得点や点数のばらつきを考慮しなければならないからです。

第1回目と第2回目の得点のヒストグラムを表示してみましょう。

par(mfcol=c(2,1))

hist(score$第1回得点,main="第1回得点",xlab="得点")

hist(score$第2回得点,main="第2回得点",xlab="得点")

clip_image002[4]

第1回目の方がばらつきが大きく、平均点が低いことが分かります。

次に、第1回目の得点と第2回目の得点をそれぞれ基準化します。Rにはデータを基準化するための関数scaleが用意されているので、これを利用します。

score$z1 <- scale(score$第1回得点)

score$z2 <- scale(score$第2回得点)

scoreを表すると基準化されたデータがz1、z2として表示されます。

score

名前 第1回得点 第2回得点 z1 z2

1 KATIE 67 80 1.853667896 0.104549

2 LOUISE 48 82 -0.097561468 0.522745

3 JANE 53 78 0.415919943 -0.313647

4 JACLYN 60 76 1.134793920 -0.731843

5 LILLIE 29 83 -2.048790833 0.731843

この結果から、KATIEは第1回より第2回の成績が悪いことが分かります。

ちなみに基準化得点を10倍し、50を加えたものがいわゆる「偏差値」と呼ばれるものです。偏差値の計算をしてみましょう。

score$偏差値1 <- score$z1 * 10 + 50

score$偏差値2 <- score$z2 * 10 + 50

score

名前 第1回得点 第2回得点 z1 z2 偏差値1 偏差値2

1 KATIE 67 80 1.853667896 0.104549 68.53668 51.04549

2 LOUISE 48 82 -0.097561468 0.522745 49.02439 55.22745

3 JANE 53 78 0.415919943 -0.313647 54.15920 46.86353

トラックバック(0)

トラックバックURL: http://www.moriyasu.org/cgi/mt/mt-tb.cgi/148

コメントする

このブログ記事について

このページは、moriyasuが2008年6月 3日 12:37に書いたブログ記事です。

ひとつ前のブログ記事は「量的データのヒストグラム作成」です。

次のブログ記事は「データの基準化」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.2rc3-ja