DQN原理及PyTorch实现【强化学习】

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎

欢迎来到我们的强化学习系列的第三部分。 在上两篇博客中,我们介绍了强化学习中的一些基本概念,并研究了多臂bandit问题及其求解方法。 这篇博客会有点长,因为我们将首先学习一些新概念,然后应用深度学习来构建深度 RL 代理。 然后我们将训练该代理来平衡车杆。

可以在这里访问这篇博客对应的代码库。

1、车杆平衡问题

我们将使用 OpenAI GYM 提供的 CartPole-v0 环境。 为了完整起见,我仍然在此处包含完整的环境描述。

一根杆子通过非驱动接头连接到小车上,小车沿着无摩擦的轨道移动。 杆子开始时是直立的,目标是通过增加和降低小车的速度来防止杆子翻倒。

状态空间:对这个环境的观察是一个四元组:

uua

动作空间:只有两种可能的动作:向左或向右,对应于智能体可以推动车杆的方向。

奖励:每执行一步,包括终止步骤,奖励为 1。

起始状态:所有观测值都分配有 ±0.05 之间的统一随机值。

情节终止条件:

  • 极角大于±12°
  • 小车位置大于±2.4(小车中心到达显示屏边缘)
  • 情节长度大于 200(v1 为 500)

求解要求:当 100 次连续试验的平均奖励大于或等于 195.0 时,视为已解决。

2、随机代理的行为

我们将首先检查随机代理可以获得的平均奖励。 我所说的随机代理是指随机选择动作的代理,即不使用任何环境信息。 在我的例子中,运行此代码片段的平均奖励为 23.3。 根据你的情况,它可能会略有不同。 但问题仍然远未解决。

from torch import randint
import gym

rew_arr = []
episode_count = 100
env = gym.make('CartPole-v0')
for i in range(episode_count):
    obs, done, rew = env.reset(), False, 0
    while (done != True) :
        A =  randint(0,env.action_space.n,(1,))
        obs, reward, done, info = env.step(A.item())
        rew += reward
    rew_arr.append(rew)
    
print("average reward per episode :",sum(rew_arr)/ len(rew_arr))

输出结果如下:

average reward per episode : 20.38

3、真正的问题!

考虑代理和环境之间的以下交互:

根据从环境中收到的观察结果和奖励,代理选择一些操作。 代理必须有一些策略,根据它来选择操作。 仅仅有一个策略是不够的,代理必须有一个机制来改进这个策略,因为它与环境的交互越来越多。 现在(其中一些)问题是:

  • 如何表示策略?
  • 如何评价当前策略?
  • 如何改进当前策略?

4、深度学习的引入

理想情况下,我们应该首先用传统方法讨论这些问题,但这将使这篇博客变得很长。 总而言之,我们仍将使用传统方法,但使用深度神经网络作为函数逼近器。 在没有深度神经网络的情况下,要应用这些算法,我们需要存储一个尺寸为 S x A 的表,其中 S 是可能状态的数量,A 是在环境中可以采取的操作的数量。 即使有一个简单的环境,这个表也太大了,无法在实践中使用。

让我们看看如何使用深度学习来解决上述问题:

  • 在深度学习中,我们使用神经网络作为函数逼近器。 我们可以通过深度神经网络来表示我们的策略。 该神经网络将查看给定的观察结果,并告诉我们在当前状态下最好采取哪种行动。 我们将此类深度神经网络称为策略网络(Policy Network)。
  • 通过策略评估,我们的意思是检查当前的政策有多“好”或“有影响力”。 策略网络的损失值(Loss)可以用来检查这一点。 在本博客中,我们将使用预测回报和目标回报之间的均方误差来评估我们的策略网络。
  • 策略评估步骤为我们提供了当前策略网络的损失值。 有了这些信息,我们可以使用梯度下降来优化策略网络的权重,以最大限度地减少这种损失。 这样可以完善策略网络。

5、Deep Q-Network

DQN 是 Q 值函数逼近器。 在每个时间步,我们将当前环境观察结果作为输入传递。 输出是与每个可能的动作(action)相对应的 Q 值。

但是等等……基本事实在哪里???

在监督学习中,我们有一个与每个输入数据点相对应的基本事实(ground truth)。 可以将网络预测与相应的基本事实进行比较,以评估其性能。 但在这里我们没有基本事实,或者至少没有流行意义上的事实。

在大多数情况下,我们没有环境的确切动态。 这意味着即使环境动态已知,我们也不完全知道在某种状态下选择动作的价值,那么我们需要运行代理-环境交互足够长的时间,或者理想情况下直到情节(episode)结束。 然后我们可以返回并更新真实值。 请注意,这也意味着我们需要存储整个交互序列,这在大多数情况下是不可行的。

5.1 用奖励折扣作为基本事实

一种可行的方案是采用折扣奖励作为基本事实。在状态 s 采取动作 a的奖励值即 q(s, a) 可以写为:

q(s{t}, a{t} ) = R{t} + γ * R{t+1} + γ² * R{t+2} + γ³ * R{t+3} + …….

其中γ为折扣因子,其值属于区间[0,1]。 这里的想法是,我们不仅关心眼前的奖励,而且还关心采取此行动后可能产生的未来奖励。

折扣率决定了未来奖励的现值:未来 k 个时间步收到的奖励的价值仅为 pow(γ ,k-1) 乘以立即收到的奖励的价值。

通过稍微重新排列,上式可以简化为:

q(s{t}, a{t} ) = R{t} + γ * MAX-OVER-ACTION q( s(t+1), a)

5.2 DQN的训练方法

DQN的训练方法如下:

  1. 初始化游戏状态并获得初始观察结果。
  2. 将观测值(obs)输入到Q-network,得到每个动作对应的Q-value。 将 q 值的最大值存储在 X 中。
  3. 以一定的概率epsilon选择随机动作,否则选择与最大 q 值相对应的动作。
  4. 在游戏状态下执行选定的动作并收集生成的奖励(r{t})和下一个状态观察(obs_next)。
  5. 通过 Q 网络传递这些下一个状态观测值,并将这些 Q 值的最大值存储在变量 q_next_state 中。 如果折扣因子是 Gamma,则采用如下公式基本事实计算:
    Y = r{t} + Gamma * q_next_state
  6. X为当前状态的预测收益,Y为实际收益。 计算损失并执行优化步骤。
  7. 设置 obs = obs_next
  8. 步骤 2 到步骤 7重复 n 个情节。

5.3 平衡探索和利用

一开始,我们的代理不知道环境动态。 因此,我们应该让它探索,当它与环境互动时,它应该在探索的同时越来越多地利用其学习。 需要平衡这种探索和利用。 我们可以选择与最大 Q 值相对应的操作(exploitation),也可以选择小概率 epsilon 的随机操作(exploration)。 在该智能体的训练中,我们从 epsilon = 1 开始,即 100% 探索,然后慢慢将其减少到 0.05。

5.4 用重放缓冲区解决灾难性遗忘问题

上述训练过程存在严重问题。 在智能体与环境交互的每个步骤之后,我们都会执行优化步骤。 这可能会导致灾难性遗忘 :

当今的深度学习方法很难在增量在线环境中快速学习,而这对于本书强调的强化学习算法来说是最自然的。 该问题有时被描述为“灾难性干扰”或“相关数据”之一。 当学习新东西时,它往往会取代以前学到的东西,而不是增加它,结果是失去了旧学习的好处。 “重放缓冲区”等技术通常用于保留和重播旧数据,以便其优势不会永久丢失。

正如你现在可能已经猜到的,我们将使用重放缓冲区来解决这个问题。 代理将在重放缓冲区中收集经验,然后从此缓冲区中随机抽取一批经验。 该批次将用于使用小批量梯度下降来训练代理。

5.5 用两个相同的Q网络解决训练不稳定的问题

到目前为止,我们使用同一个 Q 网络用于预测当前状态和下一个状态的 Q 值。 然后使用下一个状态的 Q 值来计算基本事实。 简单来说,

我们执行优化步骤以使预测接近真实情况,但同时我们正在更改网络的权重,从而为我们提供真实情况。 这会导致训练不稳定。

解决方案是建立一个目标网络(target network),它是主网络的精确副本。 该目标网络用于生成目标值或基本事实。 该网络的权重在一定数量的训练步骤中保持固定,之后用主网络的权重进行更新。 通过这种方式,我们的目标奖励的分布对于一些固定的迭代也保持固定,从而提高了训练的稳定性。

另请注意,我们几乎互换使用术语策略网络(policy network)和 Q网络,但这是两种不同类型的网络。 给定一个状态,策略网络生成动作的概率分布,而 Q 网络生成与每个动作相对应的 Q 值。

5.6 DQN 代理实现代码

将我们的代理包装在一个类中似乎很自然。 代理从环境中接收状态观察和奖励。 然后它根据当前的观察对环境采取行动。 深度 Q 网络是我们智能体的大脑。 代理从交互中学习并相应地调整 Q 网络的权重。 让我们快速浏览一下代码:

init 函数构建两个相同的深度神经网络。 在此之前,我们首先设置torch随机生成器的种子。 这样,神经网络的权重就被确定性地初始化了。

如果你的计算机上不支持 Cuda,请从此代码中删除所有出现的 .cuda()。 变量 network_sync_freq 提供在使用主网络的权重更新目标网络之前要采取的训练步数。 变量 network_sync_counter 在 train() 函数中的每个训练步骤后递增,并在达到 network_sync_freq 时重置为 0。 变量 experience_replay 是一个双端队列。 在 train() 函数中,使用主 Q 网络估计当前状态的 Q 值。 使用目标网络计算下一个状态的 Q 值,然后使用该值计算目标回报。

代码的其余部分几乎是不言自明的:

class DQN_Agent:
    
    def __init__(self, seed, layer_sizes, lr, sync_freq, exp_replay_size):
        torch.manual_seed(seed)
        self.q_net = self.build_nn(layer_sizes)
        self.target_net = copy.deepcopy(self.q_net)
        self.q_net.cuda()
        self.target_net.cuda()
        self.loss_fn = torch.nn.MSELoss()
        self.optimizer = torch.optim.Adam(self.q_net.parameters(), lr=lr)
        
        self.network_sync_freq = sync_freq
        self.network_sync_counter = 0
        self.gamma = torch.tensor(0.95).float().cuda()
        self.experience_replay = deque(maxlen = exp_replay_size)  
        return
        
    def build_nn(self, layer_sizes):
        assert len(layer_sizes) > 1
        layers = []
        for index in range(len(layer_sizes)-1):
            linear = nn.Linear(layer_sizes[index], layer_sizes[index+1])
            act =    nn.Tanh() if index < len(layer_sizes)-2 else nn.Identity()
            layers += (linear,act)
        return nn.Sequential(*layers)
    
    def get_action(self, state, action_space_len, epsilon):
        # We do not require gradient at this point, because this function will be used either
        # during experience collection or during inference
        with torch.no_grad():
            Qp = self.q_net(torch.from_numpy(state).float().cuda())
        Q,A = torch.max(Qp, axis=0)
        A = A if torch.rand(1,).item() > epsilon else torch.randint(0,action_space_len,(1,))
        return A
    
    def get_q_next(self, state):
        with torch.no_grad():
            qp = self.target_net(state)
        q,_ = torch.max(qp, axis=1)    
        return q
    
    def collect_experience(self, experience):
        self.experience_replay.append(experience)
        return
    
    def sample_from_experience(self, sample_size):
        if(len(self.experience_replay) < sample_size):
            sample_size = len(self.experience_replay)   
        sample = random.sample(self.experience_replay, sample_size)
        s = torch.tensor([exp[0] for exp in sample]).float()
        a = torch.tensor([exp[1] for exp in sample]).float()
        rn = torch.tensor([exp[2] for exp in sample]).float()
        sn = torch.tensor([exp[3] for exp in sample]).float()   
        return s, a, rn, sn
    
    def train(self, batch_size ):
        s, a, rn, sn = self.sample_from_experience( sample_size = batch_size)
        if(self.network_sync_counter == self.network_sync_freq):
            self.target_net.load_state_dict(self.q_net.state_dict())
            self.network_sync_counter = 0
        
        # predict expected return of current state using main network
        qp = self.q_net(s.cuda())
        pred_return, _ = torch.max(qp, axis=1)
        
        # get target return using target network
        q_next = self.get_q_next(sn.cuda())
        target_return = rn.cuda() + self.gamma * q_next
        
        loss = self.loss_fn(pred_return, target_return)
        self.optimizer.zero_grad()
        loss.backward(retain_graph=True)
        self.optimizer.step()
        
        self.network_sync_counter += 1       
        return loss.item()

5.7 驱动实现代码

驱动程序代码非常简单。 我们首先初始化环境和代理。 然后重放缓冲区将被填满,在本例中为 256。 然后我们将其固定为 4 个训练步骤,并且在每个训练步骤期间,从该缓冲区中随机采样一批长度为 16 的样本。 然后,代理在接下来的 128 个时间步长内与环境进行交互,并在缓冲区中收集经验。 请注意,由于它在填满容量后是一个双端队列(我们在主训练循环之前执行此操作),因此每次插入新经验时,前面的一个元素也会被删除。

为了平衡探索和利用,我们使用 epsilon-greedy 策略。 我们首先通过设置 epsilon =1 来促进全面探索,并在每个情节后更新它以缓慢地将其减少到 0.05。

env = gym.make('CartPole-v0')
input_dim = env.observation_space.shape[0]
output_dim = env.action_space.n
exp_replay_size = 256
agent = DQN_Agent(seed = 1423, layer_sizes = [input_dim, 64, output_dim], lr = 1e-3, sync_freq = 5, exp_replay_size = exp_replay_size)

# initiliaze experiance replay      
index = 0
for i in range(exp_replay_size):
    obs = env.reset()
    done = False
    while(done != True):
        A = agent.get_action(obs, env.action_space.n, epsilon=1)
        obs_next, reward, done, _ = env.step(A.item())
        agent.collect_experience([obs, A.item(), reward, obs_next])
        obs = obs_next
        index += 1
        if( index > exp_replay_size ):
            break
            
# Main training loop
losses_list, reward_list, episode_len_list, epsilon_list  = [], [], [], []
index = 128
episodes = 10000
epsilon = 1

for i in tqdm(range(episodes)):
    obs, done, losses, ep_len, rew = env.reset(), False, 0, 0, 0
    while(done != True):
        ep_len += 1 
        A = agent.get_action(obs, env.action_space.n, epsilon)
        obs_next, reward, done, _ = env.step(A.item())
        agent.collect_experience([obs, A.item(), reward, obs_next])
       
        obs = obs_next
        rew  += reward
        index += 1
        
        if(index > 128):
            index = 0
            for j in range(4):
                loss = agent.train(batch_size=16)
                losses += loss      
    if epsilon > 0.05 :
        epsilon -= (1 / 5000)
    
    losses_list.append(losses/ep_len), reward_list.append(rew), episode_len_list.append(ep_len), epsilon_list.append(epsilon)

5.8 一些图表

下图显示了随着我们在训练中取得进展,奖励如何变化。 大约6500个情节后,绘制每个情节的最高得分:

奖励随情节的变化

下图显示了损失值随着训练进度的变化:

x 轴:epoch,y 轴:损失

下图显示了 epsilon 随训练进度的变化:

x 轴:epoch,y 轴:epsilon

5.9 动画时间!!!

下面的动画展示了我们的代理如何优雅地平衡车杆。 北极看上去几乎是静止的。 我每次尝试它都获得最高分。 尽管对大量情节取平均值是一个更好的主意:

上面的动画是由以下代码片段生成的:

env = gym.make('CartPole-v0')
env = gym.wrappers.Monitor(env, "record_dir")
for i in tqdm(range(2)):
    obs, done, rew = env.reset(), False, 0
    while (done != True) :
        A =  agent.get_action(obs, env.action_space.n, epsilon = 0)
        obs, reward, done, info = env.step(A.item())
        rew += reward
        sleep(0.01)
        env.render()  
    print("episode : {}, reward : {}".format(i,rew)) 

6、已知的局限性

我们的 DQN 代理有一些限制。 让我们看看其中的一些。

  • 用了太多黑技巧:你可以轻松观察到,获得正确的超参数值需要进行大量实验。 甚至神经网络的初始化方式也会对网络训练产生重大影响。
  • 不支持在线训练:由于需要目标网络来稳定训练并使用重放缓冲区来解决灾难性遗忘,因此我们的代理无法以在线方式进行训练。f
  • 泛化情况不好:我无法在其他环境中获得相同的代理工作。 原因是我们的代理是一个非常基本的代理。 然而,原始 DQN 论文中描述的代理能够在不同的环境中进行泛化。

7、结束语

深度学习和强化学习的结合非常令人着迷。 构建这个 DQN 并让它发挥作用是一次奇妙的经历。 但这种方法仍然存在很多限制。 DQN 于 2013 年推出。我们在本博客中实现的 DQN 是所提出的 DQN 的简单得多的版本。

2013年之后,深度强化学习取得了很大的进展。 此链接提供了丰富的资源汇编。 通过这个博客,我只是试图触及表面。 距离这里还有很长的路要走。 所以我们会继续探索!!!


原文链接:DQN原理及PyTorch实现 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/212037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++算法入门练习——最短路径-多路径

现有一个共n个顶点&#xff08;代表城市&#xff09;、m条边&#xff08;代表道路&#xff09;的无向图&#xff08;假设顶点编号为从0到n-1&#xff09;&#xff0c;每条边有各自的边权&#xff0c;代表两个城市之间的距离。求从s号城市出发到达t号城市的最短路径条数和最短路…

Gitee 之初体验(上)

我们在项目开发或者自己学习的时候&#xff0c;总会存在这样的问题&#xff1a; 在一台电脑上编写完代码&#xff0c;想要再另外一台电脑上再去写&#xff0c;再或者和其他人一起协作等等场合&#xff0c;代码传来传去很麻烦。 这个时候&#xff0c;我们就可以去使用代码管理工…

想进国家电网,电气类专业都有哪些就业方向呢?

电气工程及自动化专业的主干课程都有哪些&#xff0c;笔者跟你分享一下就业方向都有哪些主要课程呢&#xff1f;包含电路原理、模拟电子技术、数字电子技术工程、电磁场、微机原理与接口技术、自动控制原理、电机学、电力电子技术、电力系统分析等等。 电气类专业都有哪些就业方…

MySQL 8.2 Command Line Client闪退

原因一 服务没有打开 原因二 找不到my.ini文件 原因一的解决方法 操作1进入管理 操作2选择服务 1 2 3 操作3选择MySQL服务并打开 原因二的解决方法 查找目录中是否有my.ini文件 C:\Program Files\MySQL\MySQL Server 8.2&#xff08;一般在这个目录下&#xff09; 有时…

C指针介绍(1)

文章目录 每日一言指针的简单介绍内存和地址指针在内存中的存储指针的定义和声明泛型指针 指针的关系运算算数运算关系运算 结语 每日一言 ⭐「 一声梧叶一声秋&#xff0c;一点芭蕉一点愁&#xff0c;三更归梦三更后。 」–水仙子夜雨-徐再思 指针的简单介绍 C语言指针是C语…

wvp如果确认音频udp端口开放成功

用到工具 在服务器上开启端口监听 选中udp server&#xff0c;点击创建按钮 设置服务器监听端口 在客户端连接服务器端口 选中udp客户端&#xff0c;点击创建 输入服务器地址 远程端口和本地端口&#xff0c;本地端口只要没被占用都可以使用 &#xff0c;点击确认 发送数据 …

万界星空科技智能工厂主要建设模式

由于各个行业生产流程不同&#xff0c;加上各个行业智能化情况不同&#xff0c;智能工厂有以下几个不同的建设模式。 第一种模式&#xff1a;是从生产过程数字化到智能工厂 在石化、钢铁、冶金、建材、纺织、造纸、医药、食品等流程制造领域&#xff0c;企业发展智能制造的内在…

代码随想录刷题题Day4

刷题的第四天&#xff0c;希望自己能够不断坚持下去&#xff0c;迎来蜕变。&#x1f600;&#x1f600;&#x1f600; 刷题语言&#xff1a;C / Python Day4 任务 ● 24. 两两交换链表中的节点 ● 19.删除链表的倒数第N个节点 ● 面试题 02.07. 链表相交 ● 142.环形链表II 1 …

使用 OpenFunction 在任何基础设施上运行 Serverless 工作负载

作者&#xff1a; 霍秉杰&#xff1a;KubeSphere 可观测性、边缘计算和 Serverless 团队负责人&#xff0c;Fluent Operator 和 OpenFunction 项目的创始人&#xff0c;还是多个可观测性开源项目包括 Kube-Events、Notification Manager 等的作者&#xff0c;热爱云原生技术&am…

Spring MVC学习随笔-控制器(Controller)开发详解:控制器跳转与作用域(一)

学习视频&#xff1a;孙哥说SpringMVC&#xff1a;结合Thymeleaf&#xff0c;重塑你的MVC世界&#xff01;&#xff5c;前所未有的Web开发探索之旅 第五章、SpringMVC控制器开发详解 三 5.1 核心要点 3.流程跳转 5.2 JavaWeb中流程跳转的核心回顾 5.2.1 JavaWeb中流程跳转的核…

【教学类-06-12】20231202 0-9数字分合-房屋样式(一)-下右空-升序-抽7题

作品展示-屋顶分合&#xff08;0-9之间随机抽取7个不重复分合&#xff09; 背景需求&#xff1a; 大班幼儿学分合题&#xff0c;通常区角里会设计一个“房屋分合”的样式 根据这种房屋样式&#xff0c;设计0-9内的升序分合题模板 素材准备 WORD样式 代码展示&#xff1a; 2-9…

vue3请求代理proxy中pathRewrite失效

问题引入 在vue3配置请求代理proxy的时候pathRewrite失效。 有这样一个例子&#xff0c;作用是为了把所有以/api开头的请求代理到后端的路径和端口上&#xff0c;在vue.config.js配置文件中 设置了代理跨域和默认端口。但是重新运行之后发现端口是改了&#xff0c;但是路径仍然…

fl studio21.2最新汉化中文完整版网盘下载

fl studio 21中文版是Image-Line公司继20版本之后更新的水果音乐制作软件&#xff0c;很多用户不太理解&#xff0c;为什么新版本不叫fl studio 21或fl studio2024&#xff0c;非得直接跳到21.2版本&#xff0c;其实该版本是为了纪念该公司22周年&#xff0c;所以该版本也是推出…

认知觉醒(二)

认知觉醒(二) 内观自己&#xff0c;摆脱焦虑 第一章 大脑——一切问题的起源 第一节 大脑&#xff1a;重新认识你自己 我猜很多人并不真正了解自己&#xff0c;甚至从未了解过&#xff0c;所以才会对自身的各种问题困惑不已。这里我说的“自己”&#xff0c;特指自己的大…

自定义类型:结构体(自引用、内存对齐、位段(位域))

目录 一. 结构体类型的声明和定义 1.1结构体相关概念 1.11结构的声明 1.12成员列表 1.2定义结构体类型变量的方法 1.21先声明结构体类型再定义变量名 ​​​​1.22在声明类型的同时定义变量 1.23直接定义结构类型变量 二、结构体变量的创建、初始化​和访问 2.1结构体…

VS安装QT VS Tools编译无法通过

场景&#xff1a; 项目拷贝到虚拟机内部后&#xff0c;配置好相关环境后无法编译&#xff0c;安装QT VS Tools后依旧无法编译&#xff0c;查找资料网上说的是QT工具版本不一致导致的&#xff0c;但反复试了几个版本后依旧无法编译通过。错误信息如下&#xff1a; C:\Users\Ad…

【动态规划】LeetCode-64.最小路径和

&#x1f388;算法那些事专栏说明&#xff1a;这是一个记录刷题日常的专栏&#xff0c;每个文章标题前都会写明这道题使用的算法。专栏每日计划至少更新1道题目&#xff0c;在这立下Flag&#x1f6a9; &#x1f3e0;个人主页&#xff1a;Jammingpro &#x1f4d5;专栏链接&…

第九节HarmonyOS 常用基础组件4-Button

一、Button Button组件主要用来响应点击操作&#xff0c;可以包含子组件。 示例代码&#xff1a; Entry Component struct Index {build() {Row() {Column() {Button(确定, { type: ButtonType.Capsule, stateEffect: true }).width(90%).height(40).fontSize(16).fontWeigh…

大数据技术之Flume(超级详细)

大数据技术之Flume&#xff08;超级详细&#xff09; 第1章 概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的&#xff0c;高可靠的&#xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构&#xff0c;灵活简单。 1.2 Flume组成架构 Flume组成架构如…

C# WPF上位机开发(计算器界面设计)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 c# wpf最大的优势就是开发业务软件比较快、效率比较高。一般来说&#xff0c;它的界面和逻辑部分可以同时开发。界面的部分用xaml编写即可&#xf…