在金融领域使用机器学习的 9个技巧

机器学习已经倍证明可以预测结果和发掘隐藏的数据模式。但是必须小心使用,并遵循一些规则,否则就会在数据的荒野中徘徊而无所获。使用机器学习进行交易的道路充满了陷阱和挑战,只有那些勤奋认真地遵循规则的人才能从中获得收益。下面是一些技巧可以帮助你更好的使用机器学习进行交易。

技巧1:缩放数据

价格数据是金融任务中最常见的数据,不同的资产价格数据存在很大的差别。通过缩放数据可以减少模型在不同尺度数据上的泛化偏差,并增加收敛速度。
常见的数据缩放方法有三种:最小-最大缩放(Min-Max Scaling)、Z-Score缩放(Z-Score Scaling)和对数缩放(Log Scaling)。

  • 最小-最大缩放是将数据的值线性映射到一个特定的区间内(通常是[0, 1]或[-1, 1])。这种方法可以用于已经有固定区间的情况(如图像处理),但对于金融领域中存在异常值的情况则不太适用。因为最小-最大缩放对异常值比较敏感,容易受到极端值的影响。

  • Z-Score缩放是通过将数据归一化,使其均值为0,标准差为1来实现的。这种方法通常用于服从正态分布的数据,但也可以用于非正态分布的数据,因为它可以在一定程度上降低异常值的影响。这种方法在机器学习算法中被广泛应用,可以帮助模型更快地学习,并提高算法的准确性。

  • 对数缩放是通过对数据取对数来实现的,通常用于对包含极端值的数据进行缩放。对数缩放可以把大范围的数值压缩到一个比较小的区间内,从而更容易可视化和比较数据的变化。这种方法在金融领域中非常有用,因为财务数据通常具有大范围的数值变化。

选择缩放方法必须符合您的模型目标——有时它更像是一门艺术而不是一门科学。一种简单但有效的方法是使用百分比回报。虽然这不会将数据置于任何固定范围内,但它将遵循相当一致的分布(即大多数回报以零为中心)。对于某些模型(如ARIMA),假定平稳性,如果没有它,您可能无法捕获数据的潜在关系。

技巧2:避免前瞻性偏差

前瞻性偏差是指你不小心向你的模型展示未来数据的情况。听起来很难做到,不是吗?已经发布的新闻文章和推文可以被再次编辑。没有什么能够阻止这些最初包含虚假信息的内容会在后来进行修改(或反之亦然),从而导致价格波动并引起关注?基本面数据也可能会在未来被调整,这意味着你可能没有看到实际的数据,而这些数据可能会导致股票价格的波动。
如果你使用集中方法(如移动平均法)平滑时间序列数据,你可能会用未来的数据来调整过去的数据。我曾经犯过这个错误,在训练和测试中得到了看起来会让我一夜暴富的结果。因此,如果你的结果看起来过于美好,那么请检查是否存在前瞻性偏差!

技巧3: 不要将重点放在价格预测上

预测价格是很难的。如果它很容易,那么其他人也会发现同样的事情,你的优势会很快消失。在金融领域,机器学习有更好、更易于掌握的用途。

  • 模式识别 - 例如,可以创建自己的扫描器来识别股市的任意模式。

  • 学习你的策略何时起作用 - 你可以让机器学习算法为你提供基于数据支持的决策成功的概率。

技巧4:不要直接使用神经网络

神经网络是非常强大和令人惊叹的工具——但只有在用于正确的问题并且具有大量的数据时才是如此。如果你的问题很简单,例如特征小于10个,样本数量为100-1000,那么可以使用逻辑回归!如果你的问题更复杂,有更多的样本和特征,那么应该使用随机森林!这些模型的优点在于更易于解释、不容易过拟合,训练速度也通常较快,且无需使用大量的计算资源。
在拥有足够大的训练集时,使用神经网络也有优势,特别是在时间序列分类领域,可以使用最新的LSTM层等高级技术。我的模式扫描器就是用这种方法实现的!

技巧5: 注意不要让模型过拟合

如果你正在使用神经网络,那么过度拟合是很容易发生的。这通常表明两件事情:

  • 你的数据量不够 - 因此模型很容易学习到数据所需的准确模式。

  • 你的模型容量太大 - 你应该降低它的容量以迫使它更好地进行泛化学习。

你可以使用一些技术,如dropout层和正则化来帮助避免过度拟合问题。另一个建议的技术是使用验证数据集来评估模型在训练期间对未见过的数据的表现。如果你的验证数据集准确率上升的速度和训练数据集准确率一样,则说明模型并没有发生过拟合。
但是,你也可能会通过其他方式出现过度拟合的情况。例如,你是否只考虑了单一的市场条件?如果是这样,你可能会“过度拟合”到该情况,并且如果市场发生变化,你的模型可能会出现困难。

技巧6: 不要盲目复制他人的代码和模型

在当今信息量极大的时代,获取和使用他人工作的诱惑很大,但我们必须谨慎地评估和理解这些代码和模型。不能简单地复制并希望它会像预期的那样工作,必须经过深思熟虑、审慎评估后再进行决策。这是确保机器学习模型的准确性和可靠性的关键。

技巧7:适当分割训练数据

如果我给你一枚有偏向性的硬币,70%几率抛出正面,那么你会一直猜正面。机器学习有时也是如此。如果展示一个不平衡的数据集,它可能很快学会猜测主导类别以获得成功的预测。为了避免这种情况发生,在二分类问题中,我们可以考虑将训练数据按类别分成50/50的比例来迫使模型进行泛化学习,这样训练出来的模型准确率高于50%时,我们可以确定该模型不是随机猜测的。这个技巧有助于提高机器学习模型的性能和准确性。

技巧8: 分析模型失误的原因

很可能你的模型不会100%准确 - 如果是,我会怀疑你是不是误把答案告诉它了!一个好的做法是深入研究你的测试结果:你的模型在哪里失败了?这些例子是否能让你更好地了解如何进行特征工程来帮助模型更好地学习?
做分类问题?使用混淆矩阵!它将帮助你了解模型预测错误的哪些类别。做回归问题?深入研究差异最大的示例!有时,一个简单的绘图可以代表千言万语,真正帮助你了解模型的弱点。例如,本文中我展示了一个简单的绘图,可视化出哪些分类是错误的。
以下图为例,模型在处理更多的"横向"价格波动方面遇到了困难,那么可能需要增加与梯度相关的特征来改善模型表现。

技巧9: 注意维度灾难

当我们试图在高维特征空间中使用有限数量的数据样本来学习自然状态时,就会出现这种情况。由于每个特征包含一定范围的可能值,因此确保所有值的组合都可以充分地在训练数据中表示变得具有挑战性。但是,通过仔细的特征选择和降维技术,我们可以克服这个障碍,并建立准确有效的模型。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/14173.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

235:vue+openlayers 绘制带有径向渐变填充色的圆形

第235个 点击查看专栏目录 本示例的目的是介绍如何在vue+openlayer中绘制带有径向渐变填充色的圆形。 如果填充线性渐变的多边形,可以参考这个篇文章 直接复制下面的 vue+openlayers源代码,操作2分钟即可运行实现效果 文章目录 示例效果配置方式示例源代码(共136行)相关A…

像素是什么

像素分为设备像素和设备无关像素。 下面说说来龙去脉。 一、显示器 显示图像的电子设备。 (一)显示器种类 1.LCD LCD(Liquid crystal display),是液体晶体显示,也就是液晶显示器,LCD具有功耗低…

HTB靶机-Lame-WP

Lame 简介: Lame is a beginner level machine, requiring only one exploit to obtain root access. It was the first machine published on Hack The Box and was often the first machine for new users prior to its retirement Tags: Injection, C…

5.5G的关键一跳!将数智未来照进现实

编辑:阿冒 设计:沐由 作为数字时代的三大思想家之一,乔治吉尔德在1993年就指出,未来25年内主干网的带宽每6个月增长一倍,其增长速度是摩尔定律预测的CPU增长速度的3倍。 这就是著名的吉尔德定律(Gilder’s …

搞懂 API ,地图 API 制作方法分享

地图 API 是一种基于 Web 开发的应用程序编程接口,可以用于创建和展示地图及地理信息。以下是一些地图 API 制作的方法: 选择地图 API 平台:目前市场上有很多地图 API 平台供选择,比如 Google Maps API、百度地图 API、高德地图 A…

Ubuntu 23.04 正式发布

Ubuntu 23.04 “Lunar Lobster” 是 Ubuntu 操作系统的最新短期支持版本,该版本将获得 9 个月的支持,直到 2024 年 1 月。如果你需要长期支持,建议使用 Ubuntu 22.04 LTS 代替。 Linux 内核 Ubuntu 23.04 采用了新的 Linux 6.2 内核。 值得注…

FPGA基于XDMA实现PCIE X8视频采集HDMI输出 提供工程源码和QT上位机程序和技术支持

目录 1、前言2、我已有的PCIE方案3、PCIE理论4、总体设计思路和方案5、vivado工程详解6、驱动安装7、QT上位机软件8、上板调试验证9、福利:工程代码的获取 1、前言 PCIE(PCI Express)采用了目前业内流行的点对点串行连接,比起 PC…

JUC概述

1. JUC是什么? 在 Java 5.0 提供了 java.util.concurrent(简称JUC)包,在此包中增加了在并发编程中很常用的工具类。此包包括了几个小的、已标准化的可扩展框架,并提供一些功能实用的类,没有这些类,一些功能会很难实现或…

单链表——“数据结构与算法”

各位CSDN的uu们你们好呀,今天,小雅兰的内容终于是我们心心念念的单链表啦,这一块呢,是一个很重要的部分,也是一个对目前的我来说,比较困难的部分,下面,就让我们进入单链表的世界吧 之…

【linux】对于权限的理解

权限 Linux权限的概念用户之间的切换 Linux权限管理文件权限操作文件的人Linux文件默认权限的设置权限掩码 所属组/其他删除拥有者创建的文件文件拥有者、所属组的修改修改文件拥有者修改文件所属组一次性修改拥有者和所属组 目录的执行权限 Linux权限的概念 首先,…

电脑怎么远程控制另一台电脑

要从一台电脑远程控制另一台电脑,您可以使用远程桌面软件。 以下是远程控制另一台电脑的步骤: 一、在两台电脑上安装远程桌面软件 有多种远程桌面软件可用,例如 Splashtop、微软远程桌面。 在远程电脑和本地电脑上分别安装软件。访问各自软…

【产品经理】系统上线自查清单

产品上线之前的准备工作,看起来简单,实际做起来是非常繁杂的,如果没有尽早考虑和准备,可能会手忙脚乱甚至导致产品延迟上线。 产品上线前的准备工作听起来简单,但实际做起来非常繁杂。除了要考虑用户需求、商业需求外&…

vue项目 解决el-table自适应高度,vue页面不显示多条滚动条,超出的部分让el-table内部出现滚动条(推荐使用第二种解决方案)

一、需求 后台管理系统:最常见的页面都是由—>左侧菜单、头部tabView页签、主体数据渲染页面(AppMain);而一般AppMain页面又分为: 搜索区域、table数据(分页),可能也会存在底部&a…

局域网 - 高速以太网(百兆、千兆、万兆)

文章目录 1 概述1.1 802.3 物理层规范1.2 以太网标准中后缀 -T、-F、-X 含义 2 分类2.1 快速以太网(802.3μ、百兆)2.2 千兆以太网(802.3z、802.3ab)2.3 万兆以太网(802.3ae) 3 扩展3.1 网工软考真题 1 概述…

Docker 部署 MySQL 一主多从

主从复制的原理: 1、主库: 创建一个有权访问binlog日志的从库账号,配置需要主从复制的库 有写操作时,可以将写操作或者写操作之后的数据记录到日志文件中(binlog) 通过一个线程通知需要同步数据…

设计模式:UML中的类图(6种关系)

一.UML图介绍 统一建模语言是用来设计软件的可视化建模语言。它的特点是简单、统一、图形化、能表达软件设计中的动态与静态信息。 UML 从目标系统的不同角度出发,定义了用例图、类图、对象图、状态图、活动图、时序图、协作图、构件图、部署图等 9 种图。 二.类图…

太阳的G2

我已经忘记是怎么喜欢上保罗的 入职腾讯的第一天,同事看到我的英文名cris,就笃信我应该是保罗的球迷。 是的,我是保罗的球迷「当然,不只是保罗的球迷」。 14-15赛季,保罗在的快船跟马刺鏖战7场,硬是在第7场…

4.24~25(总结)

第一周任务 - Virtual Judge 分析:这道题开始想错了,所以错了一次。后来又仔细读了一遍题,才发现,要是最长的那个排序子数组,所以第二次就做出来了,它其实应该分为两大块,第一块找左边的起点&a…

能源管理系统在电子厂房中的应用

摘要:以能耗管理系统在工业厂房的应用为例,介绍了系统架构及功能。重点分析能耗管理系统在工业厂房实施过程中遇到的难点,并对系统采集的数据进行分析,提出了相应的节能措施,帮助该业厂房达到节约能耗和运行费用的目的…

【Daily Share】没有域名怎么破?手把手教你如何通过hosts配置域名(假域名)

目录 ❌前言📄hosts文件🦉DNS解析步骤👌配置伪域名第一步 修改本机hosts配置第二步 配置服务器nginx 🔃流程图 ❌前言 ip记不住??? 域名不想买??? 每次当我…