2026/05/14
単回帰分析の問題点
重回帰分析
重回帰分析の実装
重回帰の使い所
残された課題
もともとの問いを「在庫量は業績に影響するのか」に変換しているとも考えられる
直線の式は以下の関係性を検証するためにある。
\[y_{i,t} = \alpha + \beta x_{i,t} + \varepsilon_{i,t}\]
「棚卸資産が大きいほど売上原価が高い」という関係を見たとき、その関係は本当に棚卸資産が原因なのだろうか?
実は、企業の規模(売上高) が棚卸資産と売上原価の両方を同時に引き上げている可能性がある。大きな企業ほど棚卸資産も多く、売上原価も大きい。このような第3の変数を交絡変数という。
売上高(交絡変数)
↓ ↓
棚卸資産 → 売上原価(?)
単回帰で「棚卸資産 → 売上原価」を推定しても、実は直線の式に含めていない売上高の効果が混入してしまっている。
一見すると身長と野球の視聴時間に関係性があるように見えるが、性別という変数が交絡していた。
Important
z → x かつ z → y という関係性にあるzのことを交絡変数という。
性別が同じなら、野球視聴時間がと身長に関係性があるとはいえない
そもそも、一つの要因 (x) でyの変動のすべて説明できることは少ない。いろいろな要因が重なり合ってyの値が決まる。
\(y_{i,t} = \alpha + \beta x_{i,t} + \varepsilon_{i,t}\) の \(\varepsilon\) (誤差項) にいっぱい情報が入っている状態だといえる。
実験のような環境で、分析者が他の条件を揃えられる or そういう条件のもとで集められたデータであれば単回帰でも問題ない。
社会科学において、ほとんどの場合そうではない。
「条件を揃えたい」というのは同じ。回帰分析において条件を揃える方法がある。
それがコントロール変数を追加するというもの。
単回帰分析にコントロール変数を追加したら重回帰分析という。
単回帰分析の問題点
重回帰分析
重回帰分析の実装
重回帰の使い所
残された課題
\[y_{i,t} = \alpha + \beta_1 x_{i,t} + \beta_2 x2_{i,t} + \beta_3 x3_{i,t} + \dots + \varepsilon_{i,t}\]
複数の説明変数を同時に入れることで、「他の変数の値が一定のときのその変数の効果」を推定できる。「他の変数の影響を取り除いたときの、ある変数のyに与える効果」とも考えられる。交絡変数の影響を統計的に取り除けるのが重回帰の強み。
ex. ブランド価値 (というものがあるとして) は、歴史・製品の質・広告宣伝費の3つの要素によってのみ決まると仮定する。ただし、製品の質についてはデータが得られていない状況である。
ブランド価値を歴史という要素のみの単回帰分析で検証してみる。このとき、回帰式は
\[\text{ブランド価値}_{i,t} = \alpha + \beta \text{歴史}_{i,t} + \varepsilon_{i,t}\]
とできる。広告宣伝費や製品の質がブランド価値へ与える影響もあるはずなのに、これはどこへ行くのだろうか。これは \(\varepsilon\) や \(\beta\) に紛れ込む。
歴史ある企業が広告宣伝費を積み上げることでブランド価値へより大きな影響を与えるかもしれない。おなじように、歴史のある企業の製品の質が良ければブランド価値は一層高まるかもしれないし、製品の質が良ければ歴史が重ねやすいかもしれない。そういう重なっている影響は \(\beta\) に入る。歴史と関係ない部分は \(\varepsilon\) に入る。
ここで重要なのは2点ある。
1.明示されていない変数の影響 \(\beta\) に入ることをバイアスがあるという。バイアスがあるということは、本当は効果がないのに効果があるように見えたり、効果があるのに効果がないように見えたり、効果が過剰に見えたりする。
本当は \(\beta\) は歴史がブランド価値に与える影響を示すはずなのに、「歴史+広告宣伝費ちょっと」がブランド価値に与える影響を示すことになってしまっている。
2.誤差項に含まれる情報量である。今、広告宣伝費 + 製品の質が誤差項に含まれている。ここから広告宣伝費の情報を誤差項から抜き出せると、誤差項に含まれる情報量は製品の質だけになる(製品の質のデータがないのでその情報は抜き出せない)。
回帰分析で、誤差項から情報を抜き出すには直線の式に追加してやれば良い。
\[\text{ブランド価値}_{i,t} = \alpha + \beta_1 \text{歴史}_{i,t} + \beta_2 \text{広告宣伝費}_{i,t} + \varepsilon_{i,t}\]
このとき、\(\beta_1\) は「広告宣伝費が同じ時、歴史がブランド価値に与える影響」を意味し、 \(\beta_2\) は「歴史が同じ時、広告宣伝費がブランド価値に与える影響」
〇〇が同じ時 → 条件付け、コントロールとかを意味する。実験と同じである。
この例では、「広告宣伝費」だけを抜き出したが、いくつ追加しても良い。
単回帰分析の問題点
重回帰分析
重回帰分析の実装
重回帰の使い所
残された課題
smf.ols の式に + で変数を追加するだけで重回帰になる。
単回帰と比べて、棚卸資産の係数(coef)がどう変わったか確認する。
規模感を調整する
| Coef. | Std.Err. | t | P>|t| | [0.025 | 0.975] | |
|---|---|---|---|---|---|---|
| Intercept | -0.008 | 0.081 | -0.094 | 0.926 | -0.180 | 0.165 |
| inv | -0.508 | 0.230 | -2.204 | 0.044 | -0.999 | -0.017 |
| sales | 0.803 | 0.045 | 17.998 | 0.000 | 0.708 | 0.898 |
ここでレポートや論文用の表形式に出力しとくと楽
出力結果をコピーしてwordやexcelに貼り付けたらそれっぽくなる
| (1) | (2) | |
| Intercept | 136448.211*** | -0.008 |
| (45180.446 , 227715.977) | (-0.180 , 0.165) | |
| inv | -0.508** | |
| (-0.999 , -0.017) | ||
| sales | 0.803*** | |
| (0.708 , 0.898) | ||
| 棚卸資産 | 3.523*** | |
| (2.208 , 4.839) | ||
| Observations | 17 | 18 |
| R2 | 0.685 | 0.961 |
| Adjusted R2 | 0.664 | 0.955 |
| Residual Std. Error | 85922.924 (df=15) | 0.068 (df=15) |
| F Statistic | 32.579*** (df=1; 15) | 183.272*** (df=2; 15) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | |
単回帰分析の問題点
重回帰分析
重回帰分析の実装
重回帰の使い所
残された課題
重回帰分析は主に2つの目的で使われる。
yの大小を説明する要因xがいくつか存在することを調べたいとき。
式にすると:\(y_{i,t} = \beta_{0} + \beta_{1} x_{1i,t} + \beta_{2} x_{2i,t} + \beta_{3} x_{3i,t} + \dots + \epsilon_{i,t}\)
例:「何がROAの大小を決めているか」→ 売上高利益率と総資産回転率をコントロールして分析する。
| Coef. | Std.Err. | t | P>|t| | [0.025 | 0.975] | |
|---|---|---|---|---|---|---|
| Intercept | -0.044877 | 0.011141 | -4.028113 | 1.245499e-03 | -0.068772 | -0.020982 |
| 売上高利益率 | 1.700519 | 0.113363 | 15.000612 | 5.086706e-10 | 1.457379 | 1.943659 |
| 総資産回転率 | 0.028751 | 0.005462 | 5.263821 | 1.197937e-04 | 0.017036 | 0.040467 |
\(\text{制度導入}_{i,t} = \beta_{0} + \beta_{1} \text{資金力}_{i,t} + \beta_{2} \text{成長性}_{i,t} + \beta_{3} \text{若さ(年齢)}_{i,t} + \beta_{3} \text{知名度}_{i,t} + \beta_{3} \text{人手不足}_{i,t} + \epsilon_{i,t}\)
導入企業と非導入企業の両方のデータがあってはじめて導入要因が検証できる!!
使用するデータのイメージ
| 会社名 | 年度 | 制度導入 | 資金力 | 成長性 | 年齢 | 知名度 | |
|---|---|---|---|---|---|---|---|
| 0 | A社 | 2020 | 1 | 764 | -48 | 29 | 186 |
| 1 | A社 | 2021 | 1 | 839 | -59 | 44 | 31 |
| 2 | A社 | 2022 | 1 | 964 | -110 | 31 | 120 |
| 3 | B社 | 2020 | 0 | 721 | -11 | 22 | 48 |
| 4 | B社 | 2021 | 1 | 904 | 75 | 24 | 124 |
| 5 | B社 | 2022 | 1 | 747 | 13 | 15 | 93 |
| 6 | C社 | 2020 | 0 | 776 | 42 | 21 | 8 |
| 7 | C社 | 2021 | 0 | 966 | 95 | 26 | 146 |
| 8 | C社 | 2022 | 0 | 401 | 110 | 38 | 70 |
式にすると:\(y_{i,t} = \beta_{0} + \beta_{1} x_{i,t} + \beta_{2} z_{1i,t} + \beta_{3} z_{2i,t} + \epsilon\)
| Coef. | Std.Err. | t | P>|t| | [0.025 | 0.975] | |
|---|---|---|---|---|---|---|
| Intercept | 9598.957055 | 28337.183827 | 0.338741 | 0.739832 | -51178.257589 | 70376.171699 |
| roa | 263595.754883 | 295010.693141 | 0.893513 | 0.386685 | -369139.252559 | 896330.762326 |
| 売上高 | 0.196824 | 0.052881 | 3.722002 | 0.002276 | 0.083405 | 0.310243 |
説明変数を増やすと R-squared(決定係数)は上がるが、変数を闇雲に増やすのは禁物。理論的な根拠なく変数を追加すると解釈が難しくなる。
決定要因のコントロール変数(x)が増える理由
要因が複数あるから
経済的帰結のコントロール変数(x)が増える理由
交絡変数を条件付けするから
共通
単回帰分析の問題点
重回帰分析
重回帰分析の実装
重回帰の使い所
残された課題