2026/05/21
代理変数
Publication Ready Table
記述統計量
「問いで出てくるx」と「数式で出てくる(データで使える)x」は同じなのか???
分析で使いたい概念が直接データとして存在しない場合がある。たとえば「経営者の能力」や「ブランド力」は数字で測れない。そこで、その概念と相関が高い別の変数(代理変数)を代わりに使う。
| 測りたい概念 | 代理変数の例 |
|---|---|
| 経営能力 | ROA |
| 企業業績 | ROA |
| 企業規模 | 総資産 |
| 成長性 | 売上高の前年比 |
代理変数はあくまで「近似」なので、その限界を意識しながら使うことが重要。
↑ これを調べたいとする
「夏は暑い」をどう表現する?
「環境経営に積極的な企業は企業業績が高いのか」
「在宅勤務制度を導入している企業は従業員の生産性が高いのか」
リビーボックスとは、以下の4つの箱を並べたフレームワーク:
[概念 X] → [概念 Y]
↑ ↑
[代理変数 x] → [代理変数 y]
Important
「制度を導入していれば1、していなければ0」のように1, 0の値だけを取る変数をダミー変数という
代理変数は一つでなくて良い
【頑健性】
【探索的】
【ハッキング】
代理変数
Publication Ready Table
記述統計量
学術論文では複数のモデルを横に並べた係数表を掲載するのが慣習。モデル(1)は基本モデル、モデル(2)以降でコントロール変数を追加するという構成が多い。
stargazer を使うと、複数モデルを自動で整形した表を生成できる。
| Dependent variable: 売上原価 | ||
| (1) | (2) | |
| Intercept | 144796.534*** | 4166.303 |
| (80849.154 , 208743.915) | (-14814.696 , 23147.303) | |
| 売上高 | 0.752*** | |
| (0.675 , 0.830) | ||
| 棚卸資産 | 3.374*** | -0.211 |
| (2.716 , 4.031) | (-0.601 , 0.180) | |
| Observations | 18 | 18 |
| R2 | 0.881 | 0.996 |
| Adjusted R2 | 0.873 | 0.995 |
| Residual Std. Error | 83416.861 (df=16) | 15875.639 (df=15) |
| F Statistic | 118.290*** (df=1; 16) | 1846.289*** (df=2; 15) |
| Note: | *p<0.1; **p<0.05; ***p<0.01 | |
卒論では、このアウトプットをwordとかexcelに貼り付けるだけで8割型完成する。
値を手打ちするよりミスが少ない!!
代理変数
Publication Ready Table
記述統計量
記述統計量とは、データの各変数の平均値とか分散とかの基本的な情報のこと。
これらの情報は論文に記載する。記述統計量を見て、データ自体がおかしくないことを確認したり、読み手に確認してもらったりする。
分析に使った変数だけを選択して、describe()する。
手持ちの変数すべてを表示する必要はない。
同じようにwordやexcelに貼り付ければ、卒論に使える表が8割型完成する。
| count | mean | std | min | 25% | 50% | 75% | max | |
|---|---|---|---|---|---|---|---|---|
| 売上原価 | 18.0 | 393611.500000 | 234450.912582 | 37999.0 | 236871.75 | 386746.0 | 484090.5 | 1135758.0 |
| 棚卸資産 | 18.0 | 73750.277778 | 65221.587318 | 9580.0 | 40434.50 | 59054.5 | 82875.0 | 297357.0 |
| 売上高 | 18.0 | 538332.000000 | 328252.114983 | 64291.0 | 299029.50 | 529944.5 | 677658.5 | 1573873.0 |