对回归系数的解释5
内生性
引子
引入了新的自变量价格后,对回归系数的影响非常大
原因:遗漏变量导致的内生性
内生性与外生性
包含什么?
包含了所有与y相关,但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关,则存在内生性
内生性的蒙特卡罗模拟
核心解释变量和控制变量
无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素
在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。
自变量的解释——线性
使用数学中的偏导数来定义:
因此多元线性回归模型中的回归系数,也常被称为偏回归系数
自变量的解释——含有对数
什么时候取对数?
伍德里奇的《计量经济学导论,现代观点》里,第六章176-177页有详细的论述;取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化;
目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
(3)比例变量,如失业率、参与率等,两者均可;
(4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);
取对数的好处
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
四类模型回归系数的解释
1、一元线性回归:𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变化b个单位;
2、双对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b%;
3、半对数模型:𝑦 = 𝑎 + 𝑏𝑙𝑛𝑥 + 𝜇,x每增加1%,y平均变化b/100个单位;
4、半对数模型:𝑙𝑛𝑦 = 𝑎 + 𝑏𝑥 + 𝜇,x每增加1个单位,y平均变(100b)%。
自变量的解释——虚拟变量X
当含有定性变量自变量中有定性变量,例如性别、地域等,在回归中要引入虚拟变量
为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。
例如:我们要研究性别对于工资的影响(性别歧视)。
例如:我们要研究我国P2P网络贷款中是否存在显著的地域歧视
(多分类的虚拟变量设置)
自变量的解释——含有交互项
例:
price:房价 sqrft:住房面积 bdrms:卧室数量 bthrms:卫生间数量‘