初级计量经济学着重于介绍基本的统计工具和经济模型,以帮助理解经济数据和经济现象之间的关系。它包括回归分析、假设检验和预测方法等内容。中级计量经济学则深入研究这些方法的理论基础和实际应用,包括更复杂的模型和技术,如面板数据分析、时间序列分析和因果推断等。中级课程还探讨了更多的计量经济学理论,如内生性问题、工具变量和因果推断的困难等。
一、回归模型
(一)常用—实证模型选择及结果解读
1.常用实证模型选择
名称 | 用途 | 功能 | stata代码 |
OLS回归(普通最小二乘回归) | 适用于连续因变量,假设因变量和自变量之间有线性关系。 | 最基本的线性回归模型。 它试图找到一个线性方程,使得所有观察点与回归线之间的距离的平方和最小。 | 例: 研究教育水平《自变量)如何影响个人收入《因变量)eg y xx1 x2 x3火导出结果 reg 被解释变量 解释变量 控制变量 1控制变量 2yeariindustrest store regusing 主变量回归结果.rtt, replace nogap ar2 b (%6.4f)t (9%6. 4f) star(* 01 ** 0.05 *** 0.01) |
分位数回归 | 它提供了不同分位数(如下四分位数、中位数、上四分位数)的回归系数估计。 | 与OLS不同,分位数回归不是最小化误差的平方和,而是关注特定分位数(如中位数)的误差。 | 例:研究培训项目《自变量)对员工工资(因变量)在不同工资水平(如中位数上四分位数)的影响 分位数为 0.1 0.25 0.50,75 0.9,可根据研究问题自行调整5qreg y x x2 x3,9 (1.25.5.75.9 ) |
Probit模型 | 适用于需要估计某事件发生的概率的情境。 | Probit模型用于处理二元因变量的情况,例如“是/否”类型的响应。 它使用正态分布累积分布函数来预测二元结果的概率。 | 例:分析个人的某些特征《如年龄、教育水平)如影响其是否选择退休《二元因变量:退休/不退休)y为虚拟变量 01 probit y x xl x2 x3 |
Logit模型 | 它是分析二元响应变量的常用方法,尤其在医学和社会科学研究中。 | 类似于Probit模型,但使用的是逻辑分布函数。 Logit模型同样适用于二元因变量,如“成功/失败”。 | *y为虑拟变量01 ogit y x xl x2 x3 |
Tobit模型: | 常用于处理非负数据或有上限的数据。 | 用于处理有下限或上限的因变量,例如测量值不能低于零。 Tobit模型考虑了截断数据的问题,可以提供对截断数据更准确的估计 | xttobit y x x x2 x3,11 (0) nolog tobit |
固定效应模型 | 适用于研究个体(如国家、公司、个人)随时间变化的行为。 | 在面板数据(时间序列和横截面数据的组合)分析中常用。 通过控制不随时间变化的个体特定效应,从而减少遗漏变量偏误. | 例:分析公司政策对员工生产力的影响,固定效应模型可以控制每个公司的特定持征《如公司文化》。 设为面板数据 xtsetid year *固定效应模型 treg y xx1 x2 x3, feest sttore reg! |
随机效应模型 | 随机效应模型更适用于个体效应被假设为随机且与其他解释变量不相关的情况。 它可以提供固定效应模型无法提供的跨个体比较 | 也用于面板数据,但假设个体效应与解释变量无关。 | 例:在分析多个国家的经济增长数据时,每个国家的特定效应可能被视为随机随机效应模型 ktreg y xx1 x2 x3,reest store reg2 导出回归结果 xtreg 被解释变里var1 var2 var3. year i. industry, fe est store reg2 esttab reg1reg2 using 回以结果. rtf,replace b(%6.4f) t (%6.4f)nogapar2 star("01**0.05·.0.011 |
GMM模型(Gaussian Mixture Model) | 在因果推断中,GMM经常用于处理观察数据中的潜在群体结构。通过识别不同的子群,研究人员可以更好地理解数据中的异质性,并在估计因果效应时考虑到这些差异。 | GMM是一种概率模型,用于对数据进行建模。它基于假设数据是由多个高斯分布组成的混合体。每个高斯分布代表数据的一个子群,而混合体则表示整个数据集。GMM的目标是通过估计每个高斯分布的参数(均值、方差、权重)来拟合数据。 | 例: 研究企业投资行为对其未来收益的影响时,系统 GMIM 可以有效控制内生性问题。 xtabond2 y L.y x xl x2 x3, iv (xl x2 x3) gmm (L.y L. (x), lag (1 2)c)robust twoste |
DID模型(Difference-in-Differences) | DID模型在观察性研究中广泛应用,特别是在面临难以进行随机实验的情况下。例如,研究人员可能通过比较在政策变化前后变化的实验组和对照组来评估政策的效果。 | DID模型是一种用于估计因果效应的统计方法。它通过比较两个或多个组的变化来估计某个处理(干预)的效应,排除时间不变的混淆因素。通常,一个组接受了处理(实验组),而另一个组则没有接受处理(对照组)。 | 例:评估“宽带中国”政策对受影响城市 (处理组)受影城市 (对照组)创新水平的影响。 *post 为实验组,若是则取值为 1,否则为 after 为是否政策实施前后变量若政策前则取值0若政策后,取值 1cpost#cafter 交乘项,根据ID 进行聚类xtreg 被解释变量 cpostfe.after 控制变量,fe cluster (id)est store ml sttab ml using DID WE. rtf replace ar2 b(%6.4) t (%6.40) star (*0. 1 ** 0.05 ***001) |
PSM模型(Propensity Score Matching) | PSM常用于处理观察研究中的选择性偏差,即处理组和对照组之间可能存在的非随机分配。通过匹配样本,PSM可以使得处理组和对照组在干预前的观察变量上更加相似,从而更准确地估计因果效应 | PSM是一种用于处理选择性偏差的方法。它基于处理组和对照组之间的倾向得分(propensity score)进行匹配,确保两组在观察变量上更加相似。这样可以减少由于选择性偏差引起的混淆,使得对因果效应的估计更为准确。 | 例: 研究培训计划对员工晋升的影响时,PSM 可以用于匹配参加培训和未参加培训的员工。 导入基础数据 ise macrodata basic. dta, clea *生成解释变量的虚拟变量形式 bys year Industrv:egen PLD RATE1 meidan-median (PL.D RATE1)cen ifPLD RATEI = (PLD RATEI>- PLD RATEI meidan) if !missingPLD RATE1) |
滞后期模型 | 用于探究先前时期的变量值(滞后期变量)对当前时期因变量的影响 | 例: 分析上一年度的研发投入对本年度专利产出的影响。被解释变量滞后 1期:使用 F. set stked year xtreg F.被解释变量解释变量 控制变量1控制变量2year iindustryest store ml esttab ml using 滞后期回归 1.rtf, replace nogap ar2 b (%6.) t (%64f) star+11t105*t4 01) *解释变量滞后期:使用 L tsset stked vear xtreg 被解释变量 L.解释变量 控制变量 1 控制变量 2.year i.industrest store m2 esttab m2 using 滞后期回归 rf, replace nogap ar2 b%6 4f)t(%6.4f) star (*2I**0.05 ***0.01 |
2.回归分析实证结果解读
1)相关分析
表一展示的是变量Y与X1和X2的 Pearson相关系数结果:能够看出,Y与X1之间的相关系数为0.4574,大于0,可见二者之间呈现正向的相关关系,并且其相应的P值为.0003,小于0.05,可见在5%的显著性水平下,两个变量之间的相关程度能够很好的反映总体Y与X2的相关系数为0.2441,大于0,二者之间呈现正向的相关关系,且相应的P值为0.0672,大于0.05,小于0.10,可见在10%的显著性水平下,这两个变量之间的相关程度也能够较好的反映总体。
虽然Y与X1和X2之间存在正向的相关关系,但是要判断具体的影响程度,还需要通过构建线性回归模型进行分析。
2)多元线性回归分析
表二展示的是回归分析的估计结果:能够看出,变量1对应的估计系数为5.09*10^(-7),经过T检验对应的统计值为3.2548,相应的P值为0.0020,小于0.05,可见在5%的显著性水平下,该自变量对因变量的影响是显著的;变量X2的估计系数为0.0001,T统计值为0.5636,相对应的P值为0.5754,大于0.05,可见在5%的显著性水平下,2对因变量Y的影响并不显著。
两个变量的经济意义解释为:在保持另一个变量不变的情况下,X1每增加一个单位,Y平均增加5.09*10^(-7)个单位;且在保持另一个变量不变的情况下,X2每增加一个单位,Y平均增加0.0001个单位。
该方程对应的修正后的拟合优度为0.1847,与1相距较大,可见该方程的拟合程度相对较差,并且其F统计值为7.340,相应的P值为0.0015,小于0.05,可见在5%的显著性水平下自变量整体对因变量的影响是显著的。
(二)简单线性回归模型(两变量)
1.简单线性回归笔记
2.简单线性回归(即两变量线性回归分析)中的疑难点整理
A.矩估计阐释?
B.假设检验的原理和方法?
假设检验(Hypothesis Testing)是统计学中一种用于决定样本数据是否支持特定假设的方法。它不仅帮助我们在数据分析中做出决策,还在验证科学研究假说中发挥重要作用。
(1)基本步骤:
- 设定假设:首先设定两个相互对立的假设——零假设(Null Hypothesis, H0)和备择假设(Alternative Hypothesis, H1)。零假设一般表示没有效应或差异,而备择假设表示存在显著效应或差异。
- 选择检验方法:根据数据类型、样本大小和检验目标选择合适的统计检验方法。例如,对两个独立样本均值的比较可能采用t检验。我们将在后续部分详细探讨t检验的应用和原理。
- 确定显著性水平:显著性水平(α)定义了我们接受的第一类错误(即错误地拒绝真实的零假设)的概率上限。常见的显著性水平有5%(0.05)、1%(0.01)。
- 计算检验统计量:根据选定的检验方法从样本数据计算相应的检验统计量,以反映样本数据与零假设之间的一致性程度。
- 做出决策:比较检验统计量与显著性水平,判断是否有足够的证据拒绝零假设。如果检验结果显示的差异或效应显著超过我们设定的显著性水平,则拒绝零假设,接受备择假设;否则,不能拒绝零假设。
在实际操作中,统计检验的目的是检验零假设,即我们试图找到足够的证据来拒绝零假设,从而支持备择假设。值得注意的是,拒绝零假设并不意味着备择假设一定正确,它只意味着有足够的证据表明备择假设比零假设更可能。
(2)注意:显著性水平(Significance Level)和决策规则是假设检验中不可或缺的部分,它们共同决定了我们如何基于统计证据来接受或拒绝零假设。
显著性水平(α):
- 显著性水平定义了我们在假设检验中愿意承担的错误拒绝零假设(即犯第一类错误)的最大概率。常用的显著性水平包括5%(α=0.05)和1%(α=0.01)。
- 选择较低的显著性水平意味着对拒绝零假设的证据要求更严格,但同时也增加了犯第二类错误(即错误地接受零假设)的风险。
(3)常见的假设检验方法
在统计学中,有多种假设检验方法可用于不同类型的数据和研究问题。其中一些最常用的方法包括t检验、F检验等。每种方法都有其特定的应用场景和假设条件。
t检验(t-test):
- t检验是一种用于比较两组数据均值差异的统计方法。它分为独立样本t检验和配对样本t检验。
- 独立样本t检验用于比较两个独立样本的均值,例如比较两种不同教学方法对学生成绩的影响。
- 配对样本t检验用于比较同一组受试者在两种不同条件下的表现,例如患者在治疗前后的健康状况。
- t检验的关键在于其假定数据遵循正态分布,并且样本量较小时仍适用。
F检验(F-test):
- F检验主要用于比较两个样本方差的差异,常用于方差分析(ANOVA)中。
- 它可以帮助我们判断多个群体间是否存在显著的差异。
- F检验的前提是样本来自正态分布,并且各组具有相同的方差。
除了这两种方法,还有其他多种检验方法,如卡方检验(Chi-square Test)用于频数数据的比较,非参数检验如曼-惠特尼U检验(Mann-Whitney U Test)用于不满足正态分布假设的数据。
在实际应用中,选择合适的检验方法取决于数据的特性、样本量大小以及研究问题的性质。在后续部分,我们将更详细地讨论t检验的实施步骤和应用,帮助你更好地理解如何在实际研究中应用这些统计检验方法。通过对这些方法的掌握,你将能够有效地分析数据,得出更加准确和可靠的结论。
(4)决策规则:
- 决策规则是基于显著性水平和计算得到的检验统计量来确定是否拒绝零假设的具体方法。
- 例如,在t检验中,我们会计算一个t值并将其与特定显著性水平下的临界t值比较。如果计算得到的t值大于临界t值,我们则拒绝零假设。
决策规则的设定需考虑检验的类型(单侧检验或双侧检验)和数据的分布。单侧检验用于检验数据是否显著大于或小于某个特定值,而双侧检验用于检验数据是否显著不同于某个特定值。选择检验类型取决于研究问题和假设的性质。
可能出的错误类型:
- 第一类错误(Type I Error):这是在实际上零假设为真时错误地拒绝它的情况。它的概率等于显著性水平α,例如,如果α=0.05,那么我们有5%的概率犯第一类错误。
- 第二类错误(Type II Error):当零假设实际上是假的,但检验未能拒绝它时发生的错误。这种错误的概率用β表示。功效(1-β)则是正确检测到效应(即正确拒绝零假设)的概率。
C.置信区间与假设检验的关联?
置信区间可以被视为一种估计范围,它给出了一个区间,我们可以在一定的置信水平下认为这个区间包含了某个未知的总体参数。换句话说,它是对总体参数可能值的一种估计,而这种估计是基于我们从样本中获得的数据。
(1)计算置信区间
计算置信区间过程包括几个关键步骤和概念。
- 选择置信水平:在计算置信区间时,首先要确定一个置信水平,常见的有90%,95%,和99%。这个水平反映了我们对置信区间包含真实总体参数的信心程度。例如,95%的置信水平意味着如果我们重复进行抽样和置信区间的计算100次,那么其中约95次,这些置信区间会包含真正的总体参数。
- 计算标准误差:标准误差是衡量样本统计量如样本均值与总体均值可能差异的度量。它取决于样本大小和样本数据的变异性。
- 选择合适的统计分布:不同的样本大小和数据特性需要使用不同的统计分布来计算置信区间。例如,对于较大的样本,通常使用正态分布;而对于小样本,尤其在总体分布未知时,通常使用t分布。
- 计算置信区间:最后一步是结合以上信息来计算置信区间。这通常涉及到以样本统计量为中心,加减标准误差乘以一个特定的数值(这个数值来源于我们选择的统计分布)。例如,对于95%置信水平下的正态分布,这个数值通常是1.96。
具体来说,对于一个平均值的置信区间可以表示为:样本均值 ± (临界值 × 标准误差)。例如,如果样本均值是100,标准误差是10,要计算95%的置信区间,那么置信区间就是 100 ± (1.96 × 10),即从80.4到119.6
(三)多元线性回归
1.多元线性回归笔记(详细笔记见[6])
2.多元线性回归中的困惑点整理
A.预测与估计有何不同?点预测、区间预测等这类预测是如何预测的?
一个是预测观察值,一个是预测平均值。
一个是对未来观测值的预测,另一个是预测平均响应。我将给出一个更详细的答案,希望能解释这种差异以及它来自哪里,以及这种差异如何以比置信度更大的预测间隔表现出来。
B.高斯-马尔可夫定理(Gauss Markov Theorem)与OLS?
(四)线性回归中可能出现的问题——定式偏差(对应假设1、2、5、6)
1.线性回归的定式偏差笔记
2.定式偏差中的疑难点
A.工具变量法补充?
B.泰勒级数解释?
二、时间序列模型
(一)时间序列基本定义与概念
1.时间序列—给定时间段以及每个时间点的随机变量得到一个观测值后的数值序列
# 基于聚宽接口
prices = get_price('000300.XSHG', start_date='2018-01-01', end_date='2019-12-13', frequency='daily', fields='close')
fig = plt.figure(figsize=(10, 6))
ax = fig.add_axes([0.2, 0.2, 1.2, 1.2])
ax.plot(prices, color="blue", linewidth=1.5, linestyle="-", label=r'hs300')
plt.legend(loc='upper right', frameon=False)
2.平稳性—较为宽松的条件就是使它们的统计特征保持不变
3.自相关系数—同一个时间序列内的两个不同的时间段的相关性
(二)常见的时间序列模型
1.白噪声—非常简单的一种建模时间序列的模型
2.随机游走—random walk是对白噪声的简单延伸。
3.AR、MA以及ARMA—时间序列分析中常见的模型
1)自回归模型(AR)
自回归模型是一种用于描述时间序列数据内部相关性的模型。在自回归模型中,当前时刻的数值由过去时刻的数值线性组合得到,即当前值与过去值之间存在相关性。AR模型通常表示为AR(p),其中p代表模型中考虑的过去时刻的数量。例如,AR(1)模型表示当前值仅由一个时间步长前的值影响。
2)移动平均模型(MA)
移动平均模型是另一种用于时间序列建模的方法。在移动平均模型中,当前时刻的数值由随机误差或残差项的线性组合得到,而不是依赖于过去时刻的数值。MA模型通常表示为MA(q),其中q代表模型中考虑的过去误差的数量。例如,MA(1)模型表示当前值仅由一个时间步长前的误差项影响。
3)自回归移动平均模型(ARMA)
自回归移动平均模型是将AR模型和MA模型结合起来的模型。ARMA模型结合了考虑过去数值相关性的自回归部分和考虑误差影响的移动平均部分。ARMA模型通常表示为ARMA(p, q),其中p代表自回归部分的阶数,q代表移动平均部分的阶数。ARMA模型能够更灵活地捕捉复杂的时间序列数据内部结构。
(三)平稳性检验
白噪声、MA模型一定是平稳的(这里的平稳都是弱平稳);随机游走一定是不平稳的;ARMA模型取决于其AR部分。所以唯一需要做平稳性检验的就是AR模型。
1.单位根检验—检验AR序列是否平稳,就是检验是否存在某个根大于等于1
2.ADF检验—经典的单位根检验方法
ADF检验的全称是Augmented Dickey-Fuller test,它是Dickey-Fuller(DF)检验的扩展。DF检验只能应用于一阶AR模型的情况。当序列为高阶时,存在滞后相关性,于是可以使用更适用的ADF检验。
ADF检验(Augmented Dickey-Fuller test)是一种用于检验时间序列数据是否具有单位根(unit root)的统计检验方法。单位根存在意味着时间序列数据具有非平稳性,即其均值或方差随时间变化而不稳定。
1)检验原理
ADF检验建立在自回归模型(AR)的基础上,用于判断时间序列数据是否具有单位根。其原假设(H0)是时间序列数据具有单位根,即非平稳;备择假设(H1)是时间序列数据不具有单位根,即平稳。通过对序列进行差分运算,可以将具有单位根的非平稳序列转化为平稳序列。
ADF检验的关键是引入滞后项(lagged terms),以考虑时间序列数据中的自相关性。通过比较包含不同滞后项的回归模型,可以确定序列是否具有单位根。
2)检验步骤
1. 提出原假设和备择假设。
2. 构建带有滞后项的回归模型,其中包括一阶差分项来探索时间序列数据的特性。
3. 使用所构建的回归模型进行统计检验,其中检验统计量与相应的临界值进行比较。
4. 根据检验统计量的显著性水平,判断是否拒绝原假设,从而得出时间序列数据的平稳性结论。
3)结果解释
如果检验统计量小于临界值,我们可以拒绝原假设,并得出时间序列数据是平稳的结论;反之,如果检验统计量大于临界值,则无法拒绝原假设,表明时间序列数据具有单位根,即非平稳。
4) 应用领域
ADF检验常用于金融、经济学等领域,用于验证时间序列数据的平稳性,从而为后续的时间序列分析和建模提供基础。
当我们采用ADF进行检验的时候,我们实际上已经假设用AR模型对序列进行建模了。
3.图形判法—直观且主观的判断方法
1)主要步骤
1. 时序图(Time Series Plot):** 首先绘制时间序列数据的时序图,即将时间序列的数值随时间的变化进行简单的折线图展示。时序图可以帮助我们观察时间序列数据是否在整体上呈现出趋势或季节性变化。
2. 自相关图(Autocorrelation Plot):** 绘制时间序列数据的自相关图,用于观察不同滞后阶数下的自相关系数。自相关图可以帮助我们了解时间序列数据是否存在明显的自相关性,以及可能的非平稳特征。
3. 部分自相关图(Partial Autocorrelation Plot):** 绘制时间序列数据的部分自相关图,用于观察不同滞后阶数下的部分自相关系数。部分自相关图有助于识别时间序列数据中的滞后效应,从而揭示可能的非平稳性特征。
2)图形解读
- 时序图:** 如果时序图呈现出明显的趋势、季节性或周期性,通常意味着时间序列数据可能不具有平稳性。
- 自相关图和部分自相关图:** 如果自相关图和部分自相关图显示出长期的自相关性结构,或者在较大滞后阶数上仍然存在显著的相关性,这也可能表明时间序列数据存在非平稳性。
3)注意事项
- 图形判断法通常作为初步分析的手段,为后续的严格统计检验提供参考。
- 单独使用图形判断法可能会产生主观偏差,因此最好与定量的统计检验方法相结合,以得出更可靠的结论。
参考引用
[1](时间序列相关介绍)
[2]stata实证分析代码🫡模型篇-(常用实证模型)
[3]回归结果怎么看?✅手把手教你看懂回归结果---(回归结果解读)
[4]计量经济----(线性回归笔记来源)
[5]假设检验的原理与应用 - (置信区间与假设性检验)
[6]计量经济学|多元线性回归---(多元线性回归的详细笔记)
[7]工具变量模型使用全过程----(介绍工具变量相关内容)