强化学习的产业界探索

RL China 2024的会议上,赵鉴博士发表了一个有关强化学习的产业界探索的Topic,我看完之后结合他的ppt和我的看法谈下强化学习的应用落地。

强化学习在很多领域都有应用,据我所知,在好几个热点中都有强化学习的身影,而且这些RLer工资是相当的高,不过相对于其他AI从业者,RLer的就业机会确实要少很多。

但是RL属于决策,决策在现实中太多了,为什么真正能够提供给RLer的机会这么少。其中主要是目前很多RL的应用架构在与仿真交互学习训练之上,而仿真及其的耗费人力和资源,并有各种的问题。

遇到这种问题怎么办?这里有离线RL可以通过数据学模型。

不过,这里模型学习的好坏,也取决于数据的质量和数据的分布是不是较广。如果数据的分布很窄,那么最后的模型效果会大打折扣。这种方式,最适合于人家积累了大量历史数据,但是仿真又及其不好建立的场景。这里,很多工业场景正好完美的符合这一点。

南栖在水务领域形成了自己的一整套控制方案,能够为水务行业的控制节约成本,而且效果比传统控制在很多场景要好不少。但是由于神经网络模型去控制对于客户来讲,从传统控制转变,需要一个认知过程。另外,强化控制模型也动了很多人的蛋糕,除非给用户提升效益巨大,不然确实市场阻力很大。

目前的控制领域,很少看到强化学习能够强绑定一个行业。强化做AI原生产品和和平台软件显然不那么合适。最好的归宿还是能够深度绑定一个行业,服务好其用户。

这里回到工业场景的案例,最开始,RL+行业,这个行业一定要传统控制很难控的领域,比如说PID、MPC或者APC都控制不好的场景,一定有不少,聚焦发力于这些场景。而不是在PID、MPC或者APC也能控的红海市场,说强化的控制模型能够锦上添花。依据人家控制不好的做切入,做的不错,有了一些用户单位的信任之后,再帮助人家锦上添花。

行业智能化改造意愿低,是因为不是刚需,以及原始供应商的把控和强化模型现在是不是在所在行业的效果是颠覆性的,显然在很多的行业人家传统控制已经做的很好了。解决这个问题的方式,就是传统控不好的领域去发力,找到相对蓝海的场景去做。

智能蒸镀机就是一个很好的案例。

总结:目前很多行业实际上都在尝试做一些强化学习的结合,但是最终的落地还是要看效果。如果强化在这个上面的落地,不是刚需,那么推广势必难度极高。所以必须能够找到刚需行业,传统控制做不到的领域去发力。sim2real的方式依赖于精准的仿真,而很多仿真都仿不真,真能仿的真的仿真也造价高昂,并依赖大量的CPU算力去做并行,所以可能不是一种很好的落地方式。只通过历史数据的离线强化学习方法更有可能在工业场景中实际落地。

原版的视频地址:【RLChina 2024】 专题报告 赵鉴 强化学习的产业化探索_哔哩哔哩_bilibili

课件下载:http://rlchina.org/rlchina_2024

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/939228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【RAG实战】Prompting vs. RAG vs. Finetuning: 如何选择LLM应用选择最佳方案

在构建基于大型语言模型(LLM)的应用时,通常不可能立即使用模型而无需任何调整。为了保持高实用性,我们可以选择以下几种方法之一: Prompt Engineering(提示工程)Fine-tuning(微调&a…

小白入门 · 腾讯云轻量服务器部署 Hadoop 3.3.6

1. 安装JDK1.8 官网下载安装包,上传至服务器,解压tar包 http://planetone.online/downloads/java/jdk/jdk-8u221-linux-x64.tar.gz上传安装包至服务器并解压到指定目录: tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt/module/2. 配置java…

sql-labs 练习笔记

简介# 这个节不涉及过多原理,而主要是靶场练习,想获得更多原理请见上篇博客。 基础知识# 如何闭合括号# 如果有报错则直接利用报错信息进行,否则尝试常见的闭合形式,简单的可以直接使用 bool 探测,而困难一点的可以…

NOTEBOOK_11 汽车电子设备分享(工作经验)

汽车电子设备分享 摘要 本文主要列出汽车电子应用的一些实验设备和生产设备,部分会给予一定推荐。目录 摘要一、通用工具:二、测量与测试仪器2.1测量仪器2.2无线通讯测量仪器2.3元器件测试仪2.4安规测试仪2.5电源供应器2.6电磁兼容测试设备2.7可靠性环境…

10.1k高星 GitHub 库:告别JSON错误:Outlines如何提升大模型的结构化输出

在人工智能和大语言模型(LLM)的应用中,如何高效、可靠地从模型输出中提取结构化数据,成为了一个至关重要的课题。本篇文章将介绍 GitHub 高星开源库 Outlines,并分析它如何帮助开发者解决大模型在生成结构化数据时面临的挑战。我们将探讨大模型的非结构化输出给 AI 应用带…

【计算机毕设】基于Python预制菜可视化数据分析预测推荐系统(完整系统源码+数据库+详细部署教程)✅

目录 【计算机毕设】基于Python预制菜可视化数据分析预测推荐系统(完整系统源码数据库详细部署教程)✅源码获取方式在文章末尾 一、项目背景 二、研究目的 三、项目意义 四、项目功能 五、项目创新点 六、开发技术介绍 七、数据库设计 八、项目…

设计模式期末复习

一、设计模式的概念以及分类 二、设计模式的主题和意图 三、面向对象程序设计原则,记住名字,还要理解它的使用场景以及如何用? 四、松耦合、紧耦合、强关联、弱关联、静态复用、动态复用的概念,还有静态委派,动态委…

ELK系列-(六)Redis也能作为消息队列?(上)

一、前文回顾 🔍 在前面的ELK系列中,我们已经搭建了ELK的核心组件,包括: ELK系列-(一)Docker部署ELK核心组件ELK系列-(二)LogStash数据处理的瑞士军刀ELK系列-(三&…

二进制分析的新兴趋势:塑造安全的移动应用

在当今快速发展的数字世界中,保障移动应用的安全性变得尤为重要。随着移动技术的广泛应用,安全性需求也日益增强。二进制分析作为确保移动应用安全和合规性的重要手段,通过对已编译的应用进行深入分析,能够发现源代码中难以察觉的…

Pikachu-XXE靶场(注入攻击)

1.攻击测试 <?xml version"1.0"?> <!DOCTYPE foo [ <!ENTITY xxe "a" > ]> <foo>&xxe;</foo> 2.查看文件 <?xml version"1.0"?> <!DOCTYPE foo [ <!ENTITY xxe SYSTEM "file:///E:/ph…

CSS学习记录12

CSS浮动 CSSfloat属性规定元素如何浮动 CSSclear属性规定哪些元素可以在清除的元素旁边以及在哪一侧浮动。 float属性 float属性用于定位和格式化内容&#xff0c;例如让图像向左浮动到容器的文本那里。 float属性可以设置以下值之一&#xff1a; left - 元素浮动到其容器…

概率论得学习和整理30: 用EXCEL 描述泊松分布 poisson distribution

目录 1 泊松分布的基本内容 1.1 泊松分布的关键点 1.1.1 属于离散分布 1.1.2 泊松分布的特点&#xff1a;每个子区间内概率相等 &#xff0c; λ就是平均概率 1.2 核心参数 1.3 pmf公式 1.4 期望和方差 2 例1&#xff1a;用EXCEL计算泊松分布的概率 3 比较λ不同值时…

leetcode212. 单词搜索 II

给定一个 m x n 二维字符网格 board 和一个单词&#xff08;字符串&#xff09;列表 words&#xff0c; 返回所有二维网格上的单词 。 单词必须按照字母顺序&#xff0c;通过 相邻的单元格 内的字母构成&#xff0c;其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一…

Y20030009基于Java+springboot+MySQL+uniapp框架的待办事项提醒微信小程序的设计与实现 源码 文档 PPT

待办事项提醒小程序 1.摘要2.开发目的和意义3.系统功能设计4.系统界面截图5.源码获取 1.摘要 随着现代人的工作和生活压力越来越大&#xff0c;人们的精力和时间也越来越有限。在这样的情况下&#xff0c;很容易忘记一些很重要的行程&#xff0c;有时会导致严重的后果&#xf…

实践环境-docker安装mysql8.0.40步骤

一、docker安装mysql 8.0.40版本 1、检索镜像版本 docker search mysql:8.0.40 NAME DESCRIPTION STARS OFFICIAL mysql MySQL is a widely used, open-source relation… …

测试工程师八股文05|功能测试、业务测试

一、基础概念 1、软件测试分类 1️⃣按照软件产生的阶段划分 单元测试&#xff1a;针对程序源代码进行测试【开发自测】集成测试&#xff1a;针对模块之间功能交互进行测试系统测试&#xff1a;对整个系统&#xff08;功能、非功能&#xff09;进行全面测试验收测试&#xff…

【Java】:lambda 表达式

&#x1f4c3;个人主页&#xff1a;island1314 &#x1f525;个人专栏&#xff1a;java学习 ⛺️ 欢迎关注&#xff1a;&#x1f44d;点赞 &#x1f442;&#x1f3fd;留言 &#x1f60d;收藏 &#x1f49e; &#x1f49e; &#x1f49e; 1. 背景 &#x1f680; &#x1f…

低级计算机网络知识总结

1 应用层 1.1 HTTP(TCP) 浏览器访问WWW服务器过程&#xff1a;首先进行域名解析&#xff0c;然后通过TCP向服务器发送连接请求 HTTP本身是无连接&#xff0c;无状态的。无状态特性使服务器能够支持大量的并发HTTP请求。实际应用中&#xff0c;通常使用Cookie加数据库跟踪用户…

【OSS】php使用oss存储

阿里云oss官方文档&#xff1a;文档 1、前期工作 创建阿里云账号&#xff0c;登录创建bucket&#xff0c;注意修改权限&#xff0c;要不然可能读取不到 申请accessKeyId和accessKeySecret accessKey 2、项目中安装OSS扩展 composer require aliyuncs/oss-sdk-php3、基础使…

基线检查:Windows安全基线.【手动 || 自动】

基线定义 基线通常指配置和管理系统的详细描述&#xff0c;或者说是最低的安全要求&#xff0c;它包括服务和应用程序设置、操作系统组件的配置、权限和权利分配、管理规则等。 基线检查内容 主要包括账号配置安全、口令配置安全、授权配置、日志配置、IP通信配置等方面内容&…