2007年12月アーカイブ

 

課題

1.

image001とする。このとき、
(a) image002となるimage003
(b) image004となるimage005
をそれぞれExcelで求めるにはどうしたらよいか。ワークシートで入力すべき数式とその結果を示しなさい。

 
2.

「正規母集団からの標本抽出」では、「分析ツール」の「乱数発生」を用いて、平均170、標準偏差10の正規母集団からの標本抽出を行い。その標本平均の分布をグラフ化しました。
レポートでは、「分析ツール」の「乱数発生」を用いて、以下のように5万個の標本を抽出してください。

image006
そして、実習のように各行の平均をF列に計算してください。次に

(a) A列のヒストグラムを作成してください。データ区間は0から1までを10等分下ものを利用してください。

(b) F列のヒストグラムを作成してください。データ区間は0から1までを10等分下ものを利用してください。

 
3.

あなたの関心ある事について量的なデータを10個程度収集し、そのデータから95%信頼区間を計算しなさい。計算方法は講義中の方法を利用すること。なお、母集団は正規分布にしたがい、その分散は未知だと仮定すること。

締め切り

次回の講義開始直前

 

乱数を使って、区間推定の信頼区間が妥当であるかどうかを実験してみましょう。

ここでは、母集団は正規分布にしたがい、その平均は170、標準偏差が10とします。また、大きさ5の標本抽出を考えます。このとき、平均の95%信頼区間は

image001

となります。ここで、 image002は標本平均です。

それでは、Excelを使って、この正規母集団から、大きさ5の標本抽出を10000回繰り返してみましょう。分析ツールの乱数発生を選択し、次のように値を設定してください。

image003

10000行5列の正規乱数が生成されます。ここで、各行が1回の標本抽出の結果とみなしましょう。

image004

次に、各標本抽出によって得られた標本から95%信頼区間を求めます。F列に信頼区間の下限を、G列に上限を計算します。

image005

image006

F1,G1の式をF10000,G10000まで下方向へコピーします。

image007

この結果をみると、1回目の標本抽出による95%信頼区間は[163.43,180.96]、2回目の標本抽出による95%信頼区間は[160.89,178.42]になります。母集団の平均は170なので、両者とも母集団の平均を区間に含んでいることになります。(注:皆さんの数値はこの例題と若干異なるかもしれませんが、正常に動作していますので、先に進んでください)

次に、1万回のの標本抽出によって求められた1万の95%信頼区間が、母集団の平均を含んでいる割合を計算しましょう。理論が正しければ、1万中、9500が母集団の平均を含んでいるはずです。

H1に次のような式を入力します。

image008

もし、F1,G1からなる信頼区間が母集団の平均である170を含めば、「TRUE」、そうでなければ「FALSE」と表示されるはずです。

H1の式をH10000まで下方向にコピーしてください。

image009

TRUEがほとんどですが、たまにFALSEとなっているセルがあることがわかると思います。

それでは、実際にTRUEがいくつあるか数えてみましょう。H10001に次の式を入力します。

image010

image011

私の結果では、1万回中9477回、つまり94.77%が母集団の平均を含むという結果になりました。これは理論値である95%に非常に近い値です。

このように、95%信頼区間というのは、もし母集団からの標本中抽出が何回でも行える(実際問題ではそのようなことは稀ですが)ならば、各回の標本平均から得られる信頼区間に母集団平均が含まれる割合が95%だということです。

 

各国の一人あたりGDPと人口増加率が記録されたファイルがあります。このデータを使って人口増加率の95%信頼区間を求めてみましょう。

ファイルを開くと、次のようなワークシートが表示されます。

image001

セルH1とH2に人口増加率の平均と標準偏差を求めます。

image002

image003

COUNT関数を用いて、標本の大きさを求めます。

image004

母平均の区間推定では、自由度は(標本の大きさ)-1になります。

image005

信頼係数を設定します。ここでは95%、つまり0.95に設定します。

image006

TINV関数を使ってパーセント点image007を求めます。

image008

信頼区間を求めるために必要な値がすべて得られたので、信頼区間を計算します。まず、信頼区間の幅×(1/2)を求めます。

image009

次に、信頼区間の上限と下限を求めます。

image010

image011

以上で、人口増加率の95%信頼区間が求められました。信頼係数の値を0.9や0.99に変更すると信頼区間がどう変わるかチェックして下さい。また、一人あたりGDPの90%信頼区間を求めてみましょう。

 

ある工場ではお菓子が生産されている。この工場で生産されるお菓子の中から無作為に10個を取り出し、その重さを量った結果がこのファイルに保存されています。この工場で生産されるお菓子の重量は標準偏差が3グラムの正規分布にしたがっていると仮定して、お菓子の重量の95%信頼区間を求めましょう。

ファイルを開くと次のようなワークシートが表示されます。

image001

標本の平均を求めます。

image002

母集団の標準偏差は3グラムと仮定しているので、セルD2に3と入力します。

image003

COUNT関数を用いて、標本の大きさを求めます。

image004

信頼係数を設定します。ここでは95%、つまり0.95に設定します。

image005

NORMSINV関数を使ってパーセント点image006を求めます。

image007

信頼区間を求めるために必要な値がすべて得られたので、信頼区間を計算します。まず、信頼区間の幅×(1/2)を求めます。

image008

最後に信頼区間の上限と下限を求めます。

image009

image010

image011

以上で95%信頼区間が求められました。

 

母集団が平均μ、分散σ2の正規分布にしたがうとき、母集団からの標本平均

image001

は、

image002

であることを実験で確かめます。

まず、分析ツールから乱数発生を選び、次のように設定したあとに「OK」を押します。

image003

これによって、平均170、標準偏差10の正規母集団から、大きさ10000行5列、つまり5万の標本を取り出したことになります。これらの標本は、見方を変えれば、大きさ5の標本抽出を1万回繰り返して行った結果と考えることもできます。

image004

上の数値は皆さんの結果と若干異なるかもしれませんが問題ありません。

つぎに、各標本抽出で得られた標本の平均をF列に求めます。

image005

F1の式をF10000まで下方向へコピーします。いちばん簡単な方法は、F1を選択した後に、マウスカーソルをF1のセルの右下に移動させ(マウスカーソルが小さな十字形に変わります)、ダブルクリックする方法でしょう。

image006

F列は、大きさ5の標本から作られた標本平均ですから、F列の平均は170、標準偏差は

image007

になるはずです。実際にそうなっているかF10001に平均、F10002に標準偏差を計算してみましょう。

image008

image009

image010

それぞれが、170、4.47に非常に近い値となっている事がわかります。皆さんの結果と若干異なるかもしれませんが、問題ありません。

次に、F列のヒストグラムを作成しましょう。セルA10004からセルA10016に次のような数値を入力します。これらの数値は度数分布表を作るときの各階級の上限値になります。(ヒント:「編集(E)」-「フィル(I)...」-「連続データの作成(S)...」を利用すると簡単に入力できます。)

image011

次に、分析ツールから「ヒストグラム」を選択します。現われるダイアログボックスを以下のように設定してください。

image012

これは、セルF1~F10000の度数分布表をA10000~A10018にあるデータを各階級の上限値として作成し、それをもとにヒストグラムを作成するという設定です。「OK」ボタンをクリックすると、度数分布表と共に次のようなグラフが表示されます。

image013

これでもいいのですが、ヒストグラムらしくするため、グラフの棒の間の隙間を無くしましょう。青い棒の上で右クリックをし「データ系列の書式設定(O)...」を選択します。「オブション」というタブがあるので、それをクリックしてください。そして、棒の間隔の値を0にしましょう。「OK」ボタンを押すと、次のようなグラフになります。

image014

グラフの形状が正規分布の密度関数の形に似ていることがわかるでしょう。

1980年から1995年までの家計貯蓄と家計可処分所得の四半期データがここにあります。リンクを右クリックし、「対象をファイルに保存」を選び、各自のフォルダに保存し、そのファイルを開いてください。

image001

折れ線グラフ作成

まず、このデータを使って、家計貯蓄の時系列折れ線グラフを作成してみましょう。「挿入(I)...」-「グラフ(H)」をクリックし、折れ線グラフを選択し、家計貯蓄のデータ範囲を指定してグラフを作成すると次のようになります。

image002

第1四半期に貯蓄が少なく、第4四半期に貯蓄が多いことがわかります。また、年々貯蓄の変動が大きくなっている傾向がありそうです。

回帰分析(季節ダミーなし)

次に、貯蓄の季節性を考慮しない回帰分析を行います。家計貯蓄は可処分所得に影響を受けると考えて、

(家計貯蓄)=β0+β1×(可処分所得)

という式を回帰分析します。「ツール(T)」-「分析ツール(D)...」を選択し、「回帰分析」を選びます。説明変数(入力X範囲)に可処分所得、非説明変数(入力Y範囲)に家計貯蓄のデータを指定してください。また、「残差」にチェックを入れ、「一覧の出力先」にセルA67を指定すると、次の ような結果が出ます。

image003

image004

自由度修正済み決定係数は0.46程度であり、あまり高いとはいえません。また、回帰係数より

(家計貯蓄)=-11.14 + 0.32×(可処分所得)

なので、限界貯蓄性向は0.32と推定されています。(1万円可処分所得が増えると、3200円貯蓄にまわすことになる)

回帰分析(季節ダミーあり)

はじめに作成したグラフから、家計貯蓄には季節性が存在する可能性が高いことが示されています。そこで、各四半期ごとに季節ダミーを導入して、回帰分析を行うことにします。つまり、

(家計貯蓄)=β0+β1×(可処分所得)+β2×q1+β3×q2+β4×q3

を回帰分析します。ここで、

image005

です。

ダミー変数image006は、ワークシートに入力されていないので、image006[1]を作成しましょう。セルE2に以下の式を入力します。

image007

ここでは「IF」関数を利用しています。IF関数の使い方は

IF(条件式,条件成立のときの値(式),条件非成立のときの値(式))

です。セルE2の例だと、セルB2の値が1だとE2は1、セルB2が1以外だとE2は0となります。

同様にF2,G2にも以下の式を入力します。

image008

image009

次に、セルE2からセルG65までをドラッグし、下方向へコピーすると季節ダミーが完成します。

image010

これで回帰分析を行う準備ができました。被説明変数を家計貯蓄、説明変数を可処分所得~第3四半期ダミーとして回帰分析を行ってください。ただし、「残差」にチェックを入れ、「一覧の出力先」にセルK67を指定してください。

image011

image012

自由度修正済み決定係数は約0.91であり、季節ダミーなしの分析に比べて当てはまりがよくなっていることがわかります。

限界貯蓄性向は0.10であり、季節ダミーなしの分析に比べて減少しています。

各四半期ごとの貯蓄関数(貯蓄額を説明する式)はどのように表現されるか、皆さんで考えてみてください。

貯蓄額と理論値の比較

貯蓄額(被説明変数)と、回帰分析(季節ダミーなし・あり)の理論値をグラフにしてみましょう。セルC2からC65をA160へ、セルC91から C154をB160へ、セルM94からM157をC160へそれぞれコピーしてください。そして、これら3列のデータを使って折れ線グラフを作成すると次 のようになります。

image013

この図からも季節ダミーを考慮した回帰分析の当てはまりがよいことがわかります。

百貨店とスーパーの売上(百億円)、従業員数(百人)のデータがあります。このデータを保存し、Excelで開きます。店種ダミーは、0ならば百貨店、1ならばスーパーのデータであることを意味します。

  1. 売上を従業員数と店種(百貨店かスーパーか)で説明する回帰分析を行ってください。つまり、
    (売上)=β0 + β1×(従業員数) + β2×(店種ダミー)
    なる回帰式を求めなさい。このとき、売上と従業員数の関係を、百貨店とスーパーについてそれぞれ求めなさい。
  2. 百貨店とスーパーで、従業員数が増えたときの売上の増加に違いがあると仮定したときの回帰分析を行ってください。つまり、
    (売上)=β0 + β1×(従業員数) + β2×(店種ダミー) + β3×(店種ダミー×従業員数)
    なる回帰式を求めなさい。このとき、売上と従業員数の関係を、百貨店とスーパーについてそれぞれ求めなさい。

アメリカの一人あたり実質可処分所得(Y)と、一人あたり実質個人消費(C)と、第2次世界大戦期間中なら1、平時なら0の値をとるダミー変数(D)がこのファイルに保存されている。このデータを使って、

  1. (消費) = β1 +  β2×(所得) + δ×(戦時中ダミー)
    を推定しなさい。この推定結果から、平時と戦時中の消費関数をそれぞれ示しなさい。
  2. (消費) = β1 +  β2×(所得) + δ×(戦時ダミー) + γ×(所得×戦時ダミー)
    を推定しなさい。この推定結果から、平時と戦時中の消費関数をそれぞれ示しなさい。

    このアーカイブについて

    このページには、2007年12月に書かれたブログ記事が新しい順に公開されています。

    前のアーカイブは2007年11月です。

    次のアーカイブは2008年1月です。

    最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

    Powered by Movable Type 4.2rc3-ja