基于强化学习DQN的股票预测【股票交易】

强化学习笔记

第一章强化学习基本概念
第二章贝尔曼方程
第三章贝尔曼最优方程
第四章值迭代和策略迭代
第五章强化学习实例分析:GridWorld
第六章蒙特卡洛方法
第七章 Robbins-Monro算法
第八章多臂老虎机
第九章强化学习实例分析:CartPole
第十章时序差分法
第十一章值函数近似【DQN】
第十二章基于强化学习DQN的股票预测

文章目录

强化学习笔记
一、DQN
二、软更新
三、实验
四、参考资料

在金融决策问题中，如何制定有效的交易策略一直是一个重要且具有挑战性的问题。近年来，强化学习在这一领域的应用显示出了很大的潜力，比如，强化学习可以帮助我们在股票交易过程中进行决策。

在这里，我想先比较一下监督学习和强化学习在股票交易问题中的不同:

监督学习主要关注预测，即通过历史数据训练模型，然后对未来的数据进行预测。例如，我们可以通过监督学习预测股票的价格走势。如果要交易还得结合其他策略方法。
而强化学习不仅仅是预测，它可以进行交易决策。它不仅仅关注于预测未来的股票价格，更重要的是，它可以根据预测结果来制定买卖策略，以最大化我们的收益。

下图给出了强化学习在股票交易问题应用中的主要框架:

其核心问题有以下几点：

如何定义奖励函数，即Reward如何设置?
采用强化学习中的哪种模型，DQN、PPO、A2C、DDPG……
状态空间如何定义？

一、DQN

本文我们介绍用深度强化学习中最经典的模型——DQN来进行建模，完整代码放在GitHub上——DQN-for-Stock-Trading。在DQN模型中，采用了多个全连接线性层，其模型结构如下：

class QNetwork(nn.Module):
    """QNetwork (Deep Q-Network), state is the input, 
        and the output is the Q value of each action.
    """
    def __init__(self, state_size, action_size, fc1_units=128, fc2_units=128, fc3_units=64):
        super(QNetwork, self).__init__()
        self.fc1 = nn.Linear(state_size , fc1_units)
        self.fc2 = nn.Linear(fc1_units, fc2_units)
        self.fc3 = nn.Linear(fc2_units, fc3_units)
        self.fc4 = nn.Linear(fc3_units, action_size)
        self.dropout = nn.Dropout(0.1)  # Dropout with 20% probability

    def forward(self, state):
        x = F.relu(self.fc1(state))
        x = self.dropout(x)
        x = F.relu(self.fc2(x))
        x = self.dropout(x)
        x = F.relu(self.fc3(x))
        x = self.fc4(x)
        return x

其中：

输入也就是状态 $s$ ，建模为股票过去几天的波动情况，也就是相邻两天的差值，输入的维数由给定的一个滑动窗口大小决定；
输出则是 $q (s, a)$ ，其中 $|\mathcal{A}|=3$ ，也就是说action有三种0、1、2，分别代表买入，卖出或者不变.

DQN的一个核心思想是经验缓冲池，将数据都放入缓冲池内，训练网络时从这里面采样得到小批量数据，其主要代码如下：

class ReplayBuffer:
    def __init__(self, action_size, buffer_size, batch_size):
        self.action_size = action_size
        self.memory = deque(maxlen=buffer_size)  # initialize replay buffer
        self.batch_size = batch_size
        self.experience = namedtuple("Experience", field_names=["state", "action", "reward", "next_state", "done"])

    def add(self, state, action, reward, next_state, done):
        """Add a new experience to memory."""
        e = self.experience(state, action, reward, next_state, done)
        self.memory.append(e)

    def __len__(self):
        """Return the current size of internal memory."""
        return len(self.memory)

DQN另一个重要思想是用两个神经网络来交替更新参数，其代码如下：

class Agent:
    def __init__(self, state_size, action_size):
        self.state_size = state_size
        self.action_size = action_size

        # Q-Network
        self.qnetwork_local = QNetwork(state_size, action_size).to(device)
        self.qnetwork_target = QNetwork(state_size, action_size).to(device)
        self.optimizer = optim.Adam(self.qnetwork_local.parameters(), lr=LR)

二、软更新

在更新target network时，我们采用软更新的策略。软更新是一种在深度强化学习中更新目标网络参数的方法。目标网络（target network）用于稳定训练过程，其参数并不像本地网络（local network）那样在每一步都更新，而是以较慢的速率进行更新。软更新通过将目标网络的参数逐步向本地网络的参数靠拢来实现这种较慢的更新。具体来说，软更新的公式如下：
$\theta_{\text{target}} \leftarrow \tau \theta_{\text{local}} + (1 - \tau) \theta_{\text{target}}$ 其中：

$\theta_{\text{target}}$ 是目标网络的参数。
$\theta_{\text{local}}$ 是本地网络的参数。
$\tau$ 是软更新的比例系数，通常是一个非常小的值（例如 0.001）。

这个公式表示目标网络的参数是本地网络参数的 $\tau$ 倍加上目标网络自身参数的 $\tau)$ 倍。因此，目标网络参数的变化是渐进的，而不是像硬更新（hard update）那样直接将本地网络的参数复制到目标网络。

在代码中，软更新通过 soft_update 方法实现：

def soft_update(self, local_model, target_model, tau):
    for target_param, local_param in zip(target_model.parameters(), local_model.parameters()):
        target_param.data.copy_(tau * local_param.data + (1.0 - tau) * target_param.data)