データの標準化

classscore.csvをRに読み込むと次のようなデータが表示されます。

score <- read.csv("classscore.csv")

score

名前 第1回得点 第2回得点

1 KATIE 67 80

2 LOUISE 48 82

3 JANE 53 78

4 JACLYN 60 76

5 LILLIE 29 83

この結果からKATIEの成績は第1回目に比べ第2回目の方が良かったとは言えません。なぜなら、クラス全体の平均得点や点数のばらつきを考慮しなければならないからです。

第1回目と第2回目の得点のヒストグラムを表示してみましょう。

par(mfcol=c(2,1))

hist(score$第1回得点,main="第1回得点",xlab="得点")

hist(score$第2回得点,main="第2回得点",xlab="得点")

clip_image002[4]

第1回目の方がばらつきが大きく、平均点が低いことが分かります。

次に、第1回目の得点と第2回目の得点をそれぞれ基準化します。Rにはデータを基準化するための関数scaleが用意されているので、これを利用します。

score$z1 <- scale(score$第1回得点)

score$z2 <- scale(score$第2回得点)

scoreを表すると基準化されたデータがz1、z2として表示されます。

score

名前 第1回得点 第2回得点 z1 z2

1 KATIE 67 80 1.853667896 0.104549

2 LOUISE 48 82 -0.097561468 0.522745

3 JANE 53 78 0.415919943 -0.313647

4 JACLYN 60 76 1.134793920 -0.731843

5 LILLIE 29 83 -2.048790833 0.731843

この結果から、KATIEは第1回より第2回の成績が悪いことが分かります。

ちなみに基準化得点を10倍し、50を加えたものがいわゆる「偏差値」と呼ばれるものです。偏差値の計算をしてみましょう。

score$偏差値1 <- score$z1 * 10 + 50

score$偏差値2 <- score$z2 * 10 + 50

score

名前 第1回得点 第2回得点 z1 z2 偏差値1 偏差値2

1 KATIE 67 80 1.853667896 0.104549 68.53668 51.04549

2 LOUISE 48 82 -0.097561468 0.522745 49.02439 55.22745

3 JANE 53 78 0.415919943 -0.313647 54.15920 46.86353

トラックバック(0)

このブログ記事を参照しているブログ一覧: データの標準化

このブログ記事に対するトラックバックURL: http://www.moriyasu.org/cgi/mt/mt-tb.cgi/148

プロフィール

講義

About This Post

This page contains a single entry by moriyasu posted on 2008年6月 3日 12:37.

量的データのヒストグラム作成 was the previous post in this blog.

データの基準化 is the next post in this blog.

Find recent content on the main index or look in the archives to find all content.

Powered by Movable Type 4.0