RL China 2024的会议上,赵鉴博士发表了一个有关强化学习的产业界探索的Topic,我看完之后结合他的ppt和我的看法谈下强化学习的应用落地。
强化学习在很多领域都有应用,据我所知,在好几个热点中都有强化学习的身影,而且这些RLer工资是相当的高,不过相对于其他AI从业者,RLer的就业机会确实要少很多。
但是RL属于决策,决策在现实中太多了,为什么真正能够提供给RLer的机会这么少。其中主要是目前很多RL的应用架构在与仿真交互学习训练之上,而仿真及其的耗费人力和资源,并有各种的问题。
遇到这种问题怎么办?这里有离线RL可以通过数据学模型。
不过,这里模型学习的好坏,也取决于数据的质量和数据的分布是不是较广。如果数据的分布很窄,那么最后的模型效果会大打折扣。这种方式,最适合于人家积累了大量历史数据,但是仿真又及其不好建立的场景。这里,很多工业场景正好完美的符合这一点。
南栖在水务领域形成了自己的一整套控制方案,能够为水务行业的控制节约成本,而且效果比传统控制在很多场景要好不少。但是由于神经网络模型去控制对于客户来讲,从传统控制转变,需要一个认知过程。另外,强化控制模型也动了很多人的蛋糕,除非给用户提升效益巨大,不然确实市场阻力很大。
目前的控制领域,很少看到强化学习能够强绑定一个行业。强化做AI原生产品和和平台软件显然不那么合适。最好的归宿还是能够深度绑定一个行业,服务好其用户。
这里回到工业场景的案例,最开始,RL+行业,这个行业一定要传统控制很难控的领域,比如说PID、MPC或者APC都控制不好的场景,一定有不少,聚焦发力于这些场景。而不是在PID、MPC或者APC也能控的红海市场,说强化的控制模型能够锦上添花。依据人家控制不好的做切入,做的不错,有了一些用户单位的信任之后,再帮助人家锦上添花。
行业智能化改造意愿低,是因为不是刚需,以及原始供应商的把控和强化模型现在是不是在所在行业的效果是颠覆性的,显然在很多的行业人家传统控制已经做的很好了。解决这个问题的方式,就是传统控不好的领域去发力,找到相对蓝海的场景去做。
智能蒸镀机就是一个很好的案例。
总结:目前很多行业实际上都在尝试做一些强化学习的结合,但是最终的落地还是要看效果。如果强化在这个上面的落地,不是刚需,那么推广势必难度极高。所以必须能够找到刚需行业,传统控制做不到的领域去发力。sim2real的方式依赖于精准的仿真,而很多仿真都仿不真,真能仿的真的仿真也造价高昂,并依赖大量的CPU算力去做并行,所以可能不是一种很好的落地方式。只通过历史数据的离线强化学习方法更有可能在工业场景中实际落地。
原版的视频地址:【RLChina 2024】 专题报告 赵鉴 强化学习的产业化探索_哔哩哔哩_bilibili
课件下载:http://rlchina.org/rlchina_2024