基本概念
- 曲线估计(曲线拟合、曲线回归)则是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定的意义。
- 在曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小。
统计原理
在曲线估计中,有很多的数学模型,选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题,可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在可能的方程之间,以吻合度而论,也许存在着许多吻合得同样好的曲线方程。因此,在对曲线的形式的选择上,对采取什么形式需要有一定的理论,这些理论是由问题本质决定的。
分析步骤
- 首先,在不能明确究竟哪种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型;
- 其次,SPSS自动完成模型参数的估计,并输出回归方程显著性检验的F值和概率p值、决定系数R2等统计量;
- 最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。
SPSS实例分析
年度 | 保费收入 | 国民生产总值 | 年度 | 保费收入 | 国民生产总值 |
1980 | 4.6 | 4517.8 | 1991 | 239.7 | 21662.5 |
1981 | 7.8 | 4860.3 | 1992 | 378 | 26651.9 |
1982 | 10.3 | 5301.8 | 1993 | 525 | 34560.5 |
1983 | 13.2 | 5957.4 | 1994 | 630 | 46670 |
1984 | 20 | 7206.7 | 1995 | 683 | 57494.9 |
1985 | 33.1 | 8989.1 | 1996 | 776 | 66850.5 |
1986 | 45.8 | 10201.4 | 1997 | 1080 | 73142.7 |
1987 | 71.04 | 11954.5 | 1998 | 1247.3 | 76967.2 |
1988 | 109.5 | 14922.3 | 1999 | 1393.22 | 80579.4 |
1989 | 142.6 | 16917.8 | 2000 | 1595.9 | 88228.1 |
1990 | 178.5 | 18598.4 | 2001 | 2109.36 | 94346.4 |
第1步 分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。
第2步 数据组织:定义为三个变量,分别是“year”(年度)、“y”(保费收入)和“x”(国内生产总值),输入数据并保存。
第3步 作散点图初步判定变量的分布趋势
保费收入y随国内生产总值x的提高而逐渐提高,而且当国内生产总值达到一定水平后,保费收入的增幅更加明显。因此用线性回归模型表示x,y的关系是不恰当的。于是应找拟合效果好的模型。
第4步 进行曲线估计:依次选择菜单“分析→回归→曲线估计”,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。
从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。
第5步 结果与分析。
三次曲线模型拟合效果的检验表
方差分析表
回归系数表
从表中可知因变量与自变量的三次回归模型为: y=-166.430+0.029x-5.364E-7x2+5.022E-12x3
拟合效果图