2008年5月アーカイブ

 

今回の実習で利用するデータはbigclass.xlsというExcelファイルです。開くと以下のような内容が表示されるはずです。1行目が各変数の説明、2行目以降が生徒のデータになっています。

clip_image001

CSV形式で保存する

RはCSV形式のファイルを読むことができるので、このExcelファイルをCSV形式で保存しなおします。Excelのメニューから「ファイル(F)」-「名前をつけて保存(A)」を選びます。ダイアログ・ボックスが開くので、「ファイルの種類(T)」を「CSV(カンマ区切り)(*.csv)」を選んで「保存(S)」をクリックします。

clip_image002

これで、bigclass.csvという名前でデータがCSV形式で保存されます。

Rを起動する

Rが起動すると、次のような画面が表示されます。あとは、この画面に直接キーボードから命令を入力していきます。

clip_image004

bigclass.csvを読み込む

class <- read.csv("bigclass.csv")

と入力し、Enterキーを押すと、bigclass.csvの内容がclass という変数に代入されます。class の内容を表示するには

class

と入力します。以下のようにその内容が表示されます。

名前年齢 性別 身長 体重

1 KATIE 12 F 59 95

2 LOUISE 12 F 61 123

3 JANE 12 F 55 74

4 JACLYN 12 F 66 145

...

各変数の基本統計量の計算

変数classの基本統計量を計算するには

summary(class)

と入力します。

名前 年齢 性別 身長 体重

ROBERT : 2 Min. :12.00 F:18 Min. :51.00 Min. : 64.00

ALFRED : 1 1st Qu.:13.00 M:22 1st Qu.:60.75 1st Qu.: 91.75

ALICE : 1 Median :14.00 Median :63.00 Median :105.00

AMY : 1 Mean :13.98 Mean :62.55 Mean :105.00

BARBARA: 1 3rd Qu.:15.00 3rd Qu.:65.00 3rd Qu.:115.25

CAROL : 1 Max. :17.00 Max. :70.00 Max. :172.00

(Other):33

ここでは、量的変数である年齢、身長、体重だけに注目しましょう。Min.,Max. はそれぞれ最大値と最小値を、MedianとMeanは中央値と平均値を1st Qu.と3rd Qu.は第1四分位点と第3四分位点を表しています。

次に、身長の平均と標準偏差を求めてみましょう。

mean(class$身長)

と入力すると、以下の計算結果が表示されます。

> mean(class$身長)

[1] 62.55

これは、変数classの身長の列について平均(mean)を計算するという意味です。標準偏差についても同様に

sd(class$身長)

で計算できます。

> sd(class$身長)

[1] 4.242338

ヒストグラムの作成

身長のヒストグラムを作成してみましょう。histというコマンドを利用します。

hist(class$身長)

clip_image006

main,xlab,ylabにそれぞれグラフ上部、x軸、y軸のタイトルを指定できます。

hist(class$身長,main="身長のヒストグラム",xlab="身長",ylab="度数")

clip_image008

freqというオプションにFを指定すると(falseの意味)、y軸が相対度数になります。

hist(class$身長,freq=F,main="身長のヒストグラム",xlab="身長",ylab="相対度数")

clip_image010

箱ひげ図とヒストグラムを並べて表示する

par(mfcol=c(2,1))

と入力すると、グラフの領域が2行1列に分割されます。このコマンドを入力した時点では、何も画面には変化がありません。

身長の箱ひげ図を表示するには、boxplotというコマンドを利用します。

boxplot(class$身長,horizontal=T)

clip_image012

horizontal=T は水平方向に箱ひげ図を表示するという意味です。

次にヒストグラムを表示しましょう。

hist(class$身長,main="身長のヒストグラム",xlab="身長",ylab="度数")

clip_image014

分布の当てはめ

正規分布の当てはめ

身長のヒストグラムに、身長の平均と標準偏差と同じ正規分布の密度関数を重ねて表示してみます。まず、グラフの分割を取りやめます。

par(mfcol=c(1,1))

そして、身長のヒストグラムを表示します。

hist(class$身長,freq=F,main="身長のヒストグラム",xlab="身長",ylab="相対度数")

clip_image010[1]

身長の平均と標準偏差を計算し、変数mとsに代入します。

m <- mean(class$身長)

s <- sd(class$身長)

次に正規分布の密度関数を重ねて表示します。

curve(dnorm(x,mean=m,sd=s),add=T)

clip_image017

dnorm(x,mean=m,sd=s) は平均m、標準偏差sの正規分布の密度関数を表します。それをcurveコマンドで表示するという意味です。

滑らかな曲線の当てはめ

以下の2行を入力すると、分布によく当てはまる滑らかな曲線ヒストグラム上に表示されます。2行目は難しいので説明は省略します。

hist(class$身長,freq=F,main="身長のヒストグラム",xlab="身長",ylab="相対度数")

lines(density(class$身長))

clip_image019

表3-10のデータがtab3-10.xlsに保存されています。分析ツールを使って

(物価上昇率)=α+β×(1/失業率)+u

なる回帰分析を行います。
  1. セルD2に「=1/C2」と入力、D17まで下方向にコピー
  2. 分析ツールの「回帰分析」のメニューで
    1. 入力Y範囲:B1からB17
    2. 入力X範囲:D1からD17
    3. 「ラベル」にチェック


表3-8のデータがtab3-8.xlsに保存されています。これから各産業について、年齢を説明変数、所定内給与額を被説明変数にする回帰分析を行います。分析ツールを利用すると、同じ作業を6回行わなければならず煩雑です。そこで、今回はExcelの関数を利用します。

  1. セルB12に「=INTERCEPT(I3:I10,B3:B10)」と入力
    • I3:I10を被説明変数、B3:B10を説明変数とする単回帰分析の切片が計算されます。
  2. セルB13に「=SLOPE(I3:I10,B3:B10)」と入力
    • I3:I10を被説明変数、B3:B10を説明変数とする単回帰分析の傾きが計算されます。
  3. セルB14に「=CORREL(B3:B10,I3:I10)^2」と入力
    • 単回帰分析の場合、決定係数は、説明変数と被説明変数の相関係数の2乗と等しいということがわかっているため、この式を利用しました。
  4. セルB12からセルG14までドラッグして右方向にコピー


表3-6のデータがtab3-6.xlsに保存されています。分析ツールを利用して回帰分析を行います。
    1. 入力Y範囲:C1からC34
    2. 入力X範囲:B1からB34
    3. 「ラベル」にチェック
    4. 「残差」にチェック

表3-3のデータがtab3-3.xlsに保存されています。このデータを使って、

  1. 散布図を作成します。セルB1からC17までドラッグし、グラフウイザードを利用して散布図を作成して下さい。
  2. 分析ツールを利用して回帰分析を行います。
    1. 入力Y範囲:C1からC13
    2. 入力X範囲:B1からB13
    3. 「ラベル」にチェック
    4. 「残差」にチェック

キーワード・作者から関連する文献を検索する場合

探すべき論文・書籍の情報が分かっている場合

新聞記事の検索

Googleの基本的な利用法

  • 検索ワード全てを含むページ
    • 検索ワードをスペースで区切り列挙する
      • 例:「長崎大学 経済学部」
  • 検索ワードのいずれかを含むページ
    • 検索ワードを「OR」で区切って列挙する。「OR」は大文字で入力する
      • 例:「長崎大学 OR 経済学部」
  • 入力したテキストを含むページ
    • テキストを「"」で括る
    • 例:「"暁星淡く瞬きて 金鷄夢を破るとき"」
  • 特定のドメイン名のWebサイトからだけ検索する
    • 検索するテキストの後に「site:(サイト名)」をつける
    • 例:「森保 site:nagasaki-u.ac.jp」
  • その他便利なGoogle検索
表1-8のデータがtab1-8.xlsに保存されています。このデータから中心化4項移動平均を求めて、原系列とグラフ化してみましょう。

  1. セル D3 に「=AVERAGE(C2:C5)」と入力します。
  2. セル E4 に「=AVERAGE(C2:C5))」と入力します。
  3. セル D3から D23 まで下方向にコピーします。
  4. セル E4からE24 まで下方向にコピーします。
  5. セル F4 に「=AVERAGE(D4:E4)」と入力します。
  6. セル F4から F23まで下方向にコピーします。

表1-8のデータがtab1-6.xls保存されています。このデータから、3年移動平均を計算し、元系列とともに折れ線グラフにして見ましょう。

  1. セル C3 に「=AVERAGE(B2:B4)」と入力します。
  2. セル C3 の内容をセル C22 まで下方向にドラッグします。これですべてのデータについての3年移動平均が求まります。
  3. セル A1から C23 までのデータを元に折れ線グラフを作成してください。
表1-4のデータがtab1-4.xlsに保存されています。このデータから各社の売上高の平均増加率を求めます。

  1. セル E2 に「=1+B2/100」と入力します。
  2. セル E2 の数式を G2 まで右方向にコピーします。
  3. セル E2からG6 までのドラッグし、下方向にコピーします。
  4. セル E7に「=PRODUCT(E2:E6)」と入力します。PRODUCTは指定した範囲の数値をすべて掛け合わせたものを求める関数です。
  5. セル E8に「=E7^(1/5)」と入力します。 ^はべき乗を表す演算子です。たとえば、「=2^3」とすると 2の3乗の8が返ってきます。「=E7^(1/5)」の場合、セル E7 の1/5 乗、つまり セルE7の5乗根が計算されます。
  6. セル E7からG8までドラッグし、右方向にコピーします。

表1-11のデータがtab1-11.xlsに保存されています。このデータから海外売上比率の分散と標準偏差を求めます。

  1. セル B22 に「=AVERAGE(B2:B21)」と入力します
  2. C列にデータから平均を引いたものを計算します。セル C2 に適当な数式を入力し、それを セルC21まで下方向にコピーして下さい。
  3. D列にC列の2乗値を計算します。セル D2 に「=C2*C2」と入力し、セルD21まで下方向にコピーして下さい。
  4. セル D22 に「=SUM(D2:D21)」と入力し、2乗和を求めます
  5. セル D23 に「=D22/(COUNT(D2:D21)-1)」と入力し、分散を計算します。COUNTは指定したセルの範囲内に含まれるデータの個数を返す関数です。
  6. セル D24 に「=SQRT(D23)」と入力すると、標準偏差が計算されます。
表1-3のデータがtab1-3.xlsに保存されています。これから、各国の対前年輸出増加率を求めます。

  1. セル D2 に「=(C2-B2)/B2」と入力します。
  2. セル D2からD8 までドラッグし、下方向へコピーします。


表1-2のデータがtab1-2.xlsに保存されています。これから、大学等進学率の算術平均と、加重算術平均を求めます。

  1. セル B9 に「=AVERAGE(B2:B8)」と入力します。これで進学率の算術平均が求まります。
  2. セル D2 に「=B2*C2」 と入力します。
  3. セル D2からD8までドラッグし、下方向へコピーします。
  4. セル C9 に「=SUM(C2:C8)」と入力します。
  5. セル C9からD9までドラッグし、右方向へコピーします。
  6. セル E9 に「=D9/C9」と入力します。これで加重算術平均が求まります。
表1-1のデータが、tab1-1.xlsに保存されています。これから、GDP成長率と失業率の平均を求めます。

  1. セル B14 に「=AVERAGE(B2:B8)」と入力します。
  2. セル B15 に「=AVERAGE(B9:B13)」と入力します。
  3. セルB14からC15までドラッグし、右方向へコピーします。

このアーカイブについて

このページには、2008年5月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2008年2月です。

次のアーカイブは2008年6月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.2rc3-ja