金融计量学第1节课:股指收益率序列统计特征

 量化策略开发,高质量社群,交易思路分享等相关内容

导论与介绍

大家好,我是Le Chiffre

今天我们来为大家分享金融计量学系列内容,在松鼠量化3年多分享的内容中,大部分以量化策略为主,至今为止,我们已经发布了期货策略80+,股票策略5+,数字货币策略5+。以及各种量化相关的研究文章等等。

但是,过往内容中很少分享学术内容,在与慕总多次沟通交流后,我们制定了一系列的学术内容分享,其中金融计量学就是我们的首秀。

一、内容大纲

上述图片中是我们要分享的主要内容框架,但是大概率内容要更多一些。

二、基础与开始

何为计量学?何为金融计量学?

计量学(Econometrics)是应用统计学的方法对经济数据进行定量和定性分析的学科。它利用统计学的理论和方法,分析经济变量之间的关系,验证经济理论,并进行经济预测和决策。

计量学的主要任务有:1. 经济数据的收集和整理。收集各种经济数据和信息,整理成可用于分析的形式。2. 经济变量之间相关性的度量。使用相关系数、回归分析等统计方法分析经济变量之间的关系。3. 经济理论的验证。构建理论模型,并使用实证数据进行验证,判断理论模型是否符合实际情况。4. 经济预测和决策分析。利用历史数据建立预测模型,预测关键经济变量的未来走势,为经济决策提供参考。

总之,计量学是应用统计学的方法和模型对经济现象进行定量分析和研究的学科。说完上面计量学的概念和大体工作内容,那么金融计量学就显而易见了,顾名思义即对金融数据进行统计分析和计量建模的一门学科。

1、建模步骤

第一步:收集数据

这一步不做过多介绍,你没数据什么也干不了,具体的一大堆学术话我就不再这里赘述了。

第二步:将问题模型化(量化)

在这一步中,这一步需要把金融经济理论、金融经济变量之间的关系通过建立模型表达出来。具体包括:选择变量、确定变量间的数学关系、拟定模型估计参数的数值范围。实际上,构建的金融模型不可能完全反映现实世界中的金融问题,只能相对于研究目的做出最大程度的估值近似。

第三步:确定估计方法。根据数据、模型和目标行数,选择合适的模型,建立数学表达式,代码复现和计算。

第四步:模型检验。上一步的初步估计结果需要进一步的检验,观察是否能合理描述数据,是否具有经济学意义。检验分为3个方面:统计检验、计量经济学检验和经济、金融意义检验。

统计检验目的在于检验模型参数估计值的可靠性,包括模型拟合优度检验、变量和显著性检验等。

计量经济学检验主要看是否符合计量经济学理论,包括序列相关性检验、异方差检验、多重共线性检验以及协整检验。

经济、金融意义检验将计量检验的结果与相应的经济理论或金融理论相比较,确定两者是否相符。这块相对主观一些。

三、收益率计算

大部分学术研究都是从资产价格的时间序列开始的,如标普500指数每天的收盘价、黄金与原油的每日价格等。但在金融计量上,使用更多的是资产收益率。其原因收益率序列统计特征良好、稳定,无量纲。

1、单期(多期)简单收益率

设是Pt是t时刻的资产价格,从t-1至t日,持有该资产的投资者的单期简单毛收益率(1+Rt)为: 

与之对应的简单单期净收益率为:    

上表是2023年2月1日-7日比特币每日收盘价,当从t-n日至t日,持有n个周期资产,n期简单收益率为:

显然,n期简单收益率是其包含的这n期的单期简单毛收益率的乘积,也叫做复合收益率。

2、连续复利收益率

假设年收益率是10%, 1000元本金投资两年后的期末资金为1000*(1+10%)2=1210,若每年生息2次,则期末资金就是4次方,约为1215.5,若每年生息4次,则期末资金就是8次方,约为1218.4。

设年利率为r,初始资金为c,持有周期为n年,按照连续复利计算的资产终值A表示为:A=C*ern

如果是折现角度,那么就在e的r n次方前面加上一个“-”负号。

3、对数收益率

资产的简单毛收益率的自然对数成为对数收益率,也称为连续复合收益率:

与简单收益率相比,对数收益率有诸多优点,因为对数化后可以直接进行加减操作。如上述公式等式最右边所示。

多期对数收益率是个单期对数收益率之和,在金融计量中,使用对数收益率不仅简化数学计算,而且简化了收益率统计特性的计量建模分析过程。

4、当期收益率与到期收益率

债券市场是金融市场的一个重要组成部分,在到期时,债务人会向债券的持有者支付票面价值或面值。有些债券定期会根据票面利率向投资者支付利息,有些债券不支付利息。到期支付全部票面金额的债券称为零息债券。债券收益率通常有当期收益率和到期收益率两种类型。

当期收益率指的是每年支付给投资者的收益的比例,表示为“

当期收益率 = (支付的年度利息额/债券的市场价格)*100%

例如,投资者购买价值90元的债券,债券面值为100,债券的票面利率为每年6%,则该投资者的当期收益率:

ct代表当期收益率,下表t表示t时刻的收益率,从当期收益率的定义来看,任何投资过程中的资本收益或损失都没有包含在当期收益率中。而零息债券不同于浮息债券,因为不付利息,因此计算方法如下:

当期收益率 =(面值/购买价格)1/t-1

t表示以年度计量的到期时间,例如:投资者购买价值80元零息债券,面值为100,该债券在两年内到期,则该债券的到期收益率为

Ct=(100/80)0.5-1

到期收益率表示债券的投资收益。简言之,到期收益率就是未来所有现金流的现值除以债券的价格,假设在购买日和到期日之间,投资者收到n期利息支付,y为债券的到期收益率,p为债券价格,f为债券的面值,为第i期的利息支付。则折现(或者叫贴现)公式为:

四、统计分布

统计学中有很多的统计分布,正态分布、对数正太分布、分布,t分布、f分布、稳态分布、极值分布等等。在这里我们就简单写几个,实际上网上介绍的更为全面。

1、正态分布

这个是最理论化、最常用的一种统计分布,在金融中经常假设资产收益率服从正态分布,原因是正态分布具有良好的统计特征。但是实际上,理论与实际是有很大差距的。

(1)简单收益率的定义是:(收益/投入资金)×100%。根据这个定义,简单收益率的取值范围是[-100%,+∞)。它不可能小于-100%,因为投入资金不可能是负值。而正态分布是一种概率分布,它的取值范围是(-∞,+∞)。正态分布没有基于投入资金这一先验条件,所以其值可以为任意正值或负值。标准正常分布的密度曲线呈钟形,大部分值聚集在平均值附近,但理论上可以取任意值。

所以,简单收益率和正态分布的主要差异在于:

①. 简单收益率有着>-100%的理论下限,它基于投入资金这一先验条件。而正态分布作为一般概率分布不存在此限制,其值域是开区间。

②. 简单收益率的可能值会更加集中在中心,正态分布的可能值则呈均匀分布在整个值域内。简单收益率不太可能达到极值,而正态分布则有一定概率达到离均值很远的极值。

③. 简单收益率的分布更加偏态,正态分布的分布则是对称的钟形曲线。

④. 简单收益率的期望值一般大于0,而正态分布的期望值可以是任意实数。

(2)多期毛收益率是单期毛收益率的乘积,不再服从正态分布。

假设每个期间的单期毛收益率是独立同分布的随机变量,且服从正态分布。在这种情况下,单期收益率的乘积就会导致多期收益率的分布发生变化。乘积的结果会受到累积效应的影响,即多期的波动性可能会更大。

具体来说,当乘积的因子超过1时,每个因子的正态分布的均值影响乘积的增长,从而导致多期收益率的分布偏向正偏态(右偏)。而当乘积的因子小于1时,每个因子的正态分布的均值影响乘积的减小,从而导致多期收益率的分布偏向负偏态(左偏)。

因此,多期毛收益率的分布通常会偏离正态分布,并且会展现出更大的尾部风险(fat-tail risk)。这意味着在投资决策和风险管理中,我们需要考虑更多因素,例如波动性的增加、非线性关系的影响以及可能的极端事件。

在实践中,为了更准确地描述多期收益率的分布特征,常常采用其他分布模型,如对数正态分布、广义正态分布等,来更好地捕捉尾部风险和非正态特征。这有助于更精确地评估投资策略的风险和收益特征。

(3)收益率分布大多是厚尾的,不符合正态分布的尾部特征。

正态分布是一个典型的薄尾分布,它的尾部衰减很快。例如,在标准正态分布中,x=3处的密度只有x=0处的密度的0.003%,x=4处的密度已减小到0.000032%。这意味着正态分布很难产生3个标准差以外的极端值。但收益率分布的尾部通常比正态分布更加"厚",极端值更易发生。这是因为:

①、收益率随着时间的增长呈现出累乘效应,会放大positive和negative值之间的差距,产生更大范围的值。这与正态分布的值是各期加总不同。

②. 收益率分布受到极端事件影响更大,如突发事件、金融危机等,这会增加其尾部值。而正态分布作为一般概率分布不包含此类专有影响。

③. 收益率的值域受到下限的约束更小,如-100%。这意味着更大的概率会集中在中心类值,但不排除更大正值的出现,导致右尾更厚。

④. 收益率分布往往会更加偏态,右尾往往比左尾更长和更厚,这也与正态分布的对称分布不同。因此,收益率分布的尾部通常比正态分布更加厚长,具有更高的偏度,更易产生极端值。这使得我们难以用正态分布模型来很好地拟合和评估收益率分布。我们需要建立新的厚尾分布模型,如学生t分布、幂律分布、Extreme Value分布等来提高拟合效果。

2、对数正态分布

对数正态分布指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布,设x为正的连续随机变量,其概率密度为:

则称随机变量x服从对数正态分布,记为lnx~N(μ,σ2)

代码详见:

import pandas as pd
import numpy as np
from scipy.stats import lognorm
from scipy import stats
import matplotlib.pyplot as plt

# 输出从0-10,步长为0.01
x = np.arange(0, 10, 0.01)
# 使用lognorm.pdf 画出对数正态分布概率密度图
y = pd.Series(stats.lognorm.pdf(x, 1, 0, 1))
# 画出y
y.plot()
# 显示图形
plt.show()

在金融计量分析中,如果对数收益率独立服从正态分布N(),则简单收益率服从对数正态分布。推导如下:

如果对数收益率y=ln(x)独立服从正态分布N(μ,σ^2),即:y ~ N(μ, σ^2)则原始的简单收益率x将服从对数正态分布,其概率密度函数为:f(x;μ,σ^2) = (1/xσ√2π)exp{-(ln x - μ)^2 / 2σ^2}这是因为对数和指数运算可以使随机变量的分布发生变换。

具体证明如下:

  • ①. 令z=ln x,则有x=exp(z),那么x的概率密度函数为:f(x) = f(exp(z)) = (d/dx)f(exp(z))|exp'(z)|= f(z)exp'(z) = f(z)exp(z)其中f(z)为z的概率密度函数。

  • ②. 因为z ~ N(μ, σ^2),则f(z)为正态分布概率密度函数:f(z) = (1/√2πσ^2)exp{- (z - μ)2 / 2σ^2}

  • ③. 代入上一步中的f(x),得到:f(x) = (1/√2πσ^2)exp{- (z - μ)2 / 2σ^2} x =(1/xσ√2π)exp{-(ln x - μ)^2 / 2σ^2}这就是对数正态分布的概率密度函数表达形式。

实际上大部分股票的收益率特征还是不符合对数正态分布。当然,还有很多其他分布,例如:稳态分布、极值分布等,

因为这块过于学术,而且具体深入讨论起来,还可以水1-2篇,所以为了这个系列整体性、学术与实操兼容性,这块不做深入研究和赘述了。并且在大纲中基础内容第一篇还有收益率分布特征我们给予删除,新增上述内容的一个实操。

五、本节实操案例

2020年疫情期间中美股市对比

接下来我们进行基本的描述性定性统计分析,如下表所示:

接下来,我们计算沪深300与标普500的简单收益率和对数收益率,如下图所示:

相对而言,简单收益率的波动要大于对数收益率的波动。

现在分析中美指数的对数收益率的波动率,对数收益率的波动率可通过下式计算:

上图中可以清楚看到,在2020年初和2020年中,中国股指波动率出现了一个显著的上升,而美国在2020年初出现了巨大的波动。

代码如下:

# 计算对数收益率的波动率
sigma2 = 0.361*(np.log(df['Max']) - np.log(df['Min']))**2

在对收益率的研究中,我们既可以选择研究简单收益率,也可以选择研究对数收益率。我们对金融时间序列的分布性质进行检验并估计密度函数,首先来看直方图,如下图所示:

从形状来看,对数收益率分布类似正态分布,直方图是分布密度的一个比较粗糙的估计量。上图也可以看出,标普500比指数的峰度更大,说明投资风险更高,峰度(Kurtosis)是用于衡量概率分布尾部厚度的统计量。

峰度更大表明分布具有更厚的尾部和更高的偏度,意味着极端值更为频繁,从而风险更高。

代码如下:

对数收益率的直方图

# df['log_return'].hist(bins=50)
# # df['log_return'].plot()
# plt.title(f'{file}对

下面对数据进行正态分布检验,qq图是正态分布检验最常用且最直观的方法。

通过qq图我们可以看到,分为数并不能很好的拟合,由此可以初步判断,沪深300和标普500指数的对数收益率不服从正态分布。且可以看出,标普500的尾部极端风险更大。

代码如下:

# 画对数收益率的qq图
# stats.probplot(df['log_return'], dist='norm', plot=plt)
# plt.title(f'{file}对数收益率qq图')

下面进行Shapiro-Wilk检验,Shapiro-Wilk检验作为正态性检验的重要方法之一,主要适用于小样本(3 < n < 5000)的情况。它可以判断我们的样本是否符合正态分布,为我们推断统计应用中的许多假设提供支持。但其检验力较差,仅当样本违反正态性较为明显时才可能判断为不来自正态分布。

HS300的shapiro-wilk检验结果= ShapiroResult(statistic=0.9280851483345032, pvalue=1.8255343903206267e-09)

SP500的shapiro-wilk检验结果= ShapiroResult(statistic=0.8459327220916748, pvalue=4.009484242420381e-15)

两者的p值都很小,说明拒绝了原假设,从而两者分布均不服从正态分布。

代码如下:

# 进行shapiro-wilk检验
print(f'{file}的shapiro-wilk检验结果=', stats.shapiro(df['log_return'].dropna()))

总结

上述内容就是我们金融计量经济学第1节内容了,后面按照大纲内容我们会按部就班的更新,争取一周一更。

具体代码和数据大家可以公众号回复:计量01

任何问题大家也可以加入松鼠会员群,群里有股票、期货、数字货币各个行业大佬,无论你是求职、学习、还是亏的受不了了,我相信量化可能不会让你一夜翻身,但是绝对会让你活的更长,认知更深,只要活下来,就有机会翻身农奴把歌唱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/27964.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kotlin Lambda表达式和匿名函数的组合简直太强了

Kotlin Lambda表达式和匿名函数的组合简直太强了 简介 首先&#xff0c;在 Kotlin 中&#xff0c;函数是“第一公民”&#xff08;First Class Citizen&#xff09;。因此&#xff0c;它们可以被分配为变量的值&#xff0c;作为其他函数的参数传递或者函数的返回值。同样&…

【Excelc超实用快捷键!!!办公效率1000%up!up!up!】

目录索引 ctrle&#xff1a;提取数据&#xff1a;合并数据&#xff1a; 普通快捷键&#xff1a;ctrla&#xff1a;ctrlc&#xff1a;ctrlv&#xff1a;ctrlx&#xff1a;ctrlz&#xff1a;ctrly&#xff1a;ctrls&#xff1a;ctrlf&#xff1a; 文字格式快捷键&#xff1a;ctrl…

Python程序设计基础:数值

文章目录 一、数值数据类型二、python内置的数值操作三、math库 一、数值数据类型 Python语言可以很方便的用于处理数值运算问题&#xff0c;在数值运算过程中&#xff0c;常见的额两种数据类型分别为整数类型&#xff08;int&#xff09;和浮点类型&#xff08;float&#xf…

局域网内不同网段的设备互相连接设置

目录 介绍1、打开网络连接&#xff0c;找到本地网络->属性->ipv4->属性->高级&#xff1a;2、在高级设置页面&#xff0c;我们添加一个IP&#xff0c;这个IP和板子在一个网段&#xff0c;我这里设置的是192.168.253.101&#xff1a;3、设置完成即可生效&#xff0c…

Jetpack Compose ——Row

当我们构建界面时&#xff0c;经常需要在Compose中使用Row布局来水平排列多个组件。Row提供了一种方便的方式来管理和定位子组件&#xff0c;使它们按照我们期望的方式呈现。 在Compose中&#xff0c;Row可以接受多个子组件作为参数&#xff0c;并根据指定的布局规则进行排列。…

ChatGPT 应用——使用 chatGPT 写高考作文

写作文&#xff0c;很简单&#xff0c;但写一篇好的作文&#xff0c;是非常有难度的。 想要写一篇高分作文&#xff0c;需要对作文题目有正确的理解&#xff0c;需要展现独到的观点和深入的思考&#xff0c;需要具备清晰的逻辑结构&#xff0c;需要准确而得体的语言表达。 正…

金鸣识别的表格分析技术揭秘

表格分析是指将图片中的表格区域分割出来&#xff0c;并识别出表格中的单元格和单元格中的内容。表格分析技术主要包括以下几个步骤&#xff1a; 1. 表格检测&#xff1a;通过图像处理技术&#xff0c;将图片中的表格区域分割出来。 2. 单元格分割&#xff1a;将表格中的每个单…

Unity入门4——重要组件与API

一、GameObject &#xff08;一&#xff09;成员变量 // 名字 print(this.gameObject.name); this.gameObject.name "Lesson4唐老狮改名"; print(this.gameOb…

简单使用Hystrix

使用Hystrix之前&#xff0c;需要先对SpringCloud有所了解&#xff0c;然后才会使用的顺畅&#xff0c;它是我们SpringCould的一种保护机制&#xff0c;非常好用。 下面直接开始 先导入Hystrix所需要的依赖 <!-- 引入openfiegn--> <dependency> <groupId>org…

图解数据结构--栈的实现-C语言版本--源码

目录-总 -分- 总结构 图片可视化 总源码1.头文件介绍---分2.节点的实现3.栈顶栈底4.函数的提前声明5. 栈 ---初始化栈6. 栈 ---进栈7.栈 --- 遍历8.栈 --- 是否为空9.栈 --- 出栈10总结 图片可视化 总 源码 /*time 2023年6月12日12:39:06auther yzmcntent stract 栈 */#inclu…

SpringBoot整合ShardingSphere5.x实现数据加解密功能

环境&#xff1a;Springboot2.6.14 ShardingSphere5.3.0 准备环境 添加依赖 <dependency><groupId>org.apache.shardingsphere</groupId><artifactId>shardingsphere-jdbc-core</artifactId><version>${shardingsphere.version}</ve…

适合做读书笔记的工具 这款APP满足你的笔记需求

说到读书&#xff0c;就免不了要提到读书笔记。很多人认为&#xff0c;边读书边做笔记才能更好地帮助我们更深入地理解和记忆所读的书籍内容。通过记录书中的重要观点、论据、事实和例子&#xff0c;我们可以更好地掌握书中的知识和思想&#xff0c;而不是仅仅浏览、快速阅读或…

vscode右键点击,松开后自动触发鼠标所在位置的按钮(误触发双击效果)

例如如下&#xff0c;右键展开菜单&#xff0c;松手会自动触发转到声明功能 解决方案&#xff1a; 1、安装easystroke sudo apt-get install easystroke 2、打开easystroke&#xff0c;选择preferences tab 3、点击Gesture Button&#xff0c;在出现的框中右键单击一次 4、点…

Mocha Pro:AdjustTrack 模块

跟踪时由于缺乏细节或有障碍物阻挡&#xff0c;跟踪点发生了漂移&#xff0c;或者一个或多个跟踪点可能会离开画面&#xff0c;此时可考虑使用 AdjustTrack &#xff08;调整跟踪&#xff09;模块手动设置关键帧来获得更精准的跟踪数据。 尤其是当要利用表面 Surface区域进行插…

MarkDown使用教程

MarkDown使用教程 1.标题 #: 一级标题 ##: 二级标题 ###: 三级标题 一共分为六级 2.字体 斜体文本 斜体文本 粗体文本 粗体文本 粗斜体文本 粗斜体文本 3.列表 无序号的使用*、、- 作为列表的标记&#xff0c;这些标记后面添加一个空格 第一项第二项第三项 第一项第二项…

【C++11】移动赋值 | 新的类功能 | 可变参数模板

文章目录 1. 移动赋值2. 新的类的功能移动构造移动赋值defaultdelete 3.可变参数模板可变参数包的解析 文章目录 1. 移动赋值2. 新的类的功能移动构造移动赋值defaultdelete 3.可变参数模板可变参数包的解析 1. 移动赋值 C11中&#xff0c;string中的operator 包含 参数为右值的…

AI产业应用再提速,AI基础软件发挥巨擎作用

5月31日&#xff0c;由中国信息通信研究院、中国人工智能产业发展联盟主办&#xff0c;北京九章云极科技有限公司联合主办的【创造智能探索未知】杭州通用人工智能论坛-AI基础软件前沿技术分论坛在杭州成功举办。大会聚焦AI基础软件前沿技术&#xff0c;挖掘人工智能基础软件大…

IP地址定位原理

IP地址定位是一种通过IP地址来确定位置的技术&#xff0c;在互联网和移动网络的应用十分广泛。本文将介绍IP地址定位的原理和实现方式。 IP地址定位原理 IP地址是Internet Protocol&#xff08;简称IP&#xff09;的缩写&#xff0c;是互联网上的一个地址标识符用于识别连接到…