0.背景
最近在金融人工智能领域进行了研究。由于金融领域数据集的欠缺,因此需要根据其领域中的各种数据的特征进行相应数据集的制作。
下图所示是一篇关于金融与预测的论文,题目为:《预测自动交易的财务信号:一个可解释的方法》。在这篇论文中我主要对其中使用的数据集比较感兴趣。
在上图所示的论文中,他们对市场5-h价格进行了聚类,以根据市场的下一个5-h时间框架找到每个时间t的代表性。然后,训练一个深度网络模型来学习48 × 11个输入向量之间的关系及其对应的25 × 1集群代表。这些集群代表最后被映射到一个可能的操作(买、卖和无操作)。为了找到每个代表的最佳行动,然后在优化时间间隔内计算每个可能行动的总利润,并选择实现最大总利润的行动作为该代表的最佳行动。关于最佳行动选择的重要一点是,它是针对每个股票代码分别进行的。表5显示了欧元/美元符号中集群代表选择的最佳行动。
所以从表5中我们可以看到他们聚类出了25种金融趋势曲线,这25种行为曲线又分别代表了买、卖和无动作。因此我可以根据他们聚类好的这25类金融趋势曲线,去制作属于自己的图像数据集然后进行预测。
那么图像数据集的话,最基础的也就是mnist数据集,mnist数据集是由黑白的手写数字组成的数据集,里面有60000张训练集和10000张测试集,每张图片都是28*28的。那么根据这个基本的数据集的思路可以制作一种仿mnist的金融趋势曲线数据集。