人工智能AIGC培训讲师叶梓介绍及AI强化学习培训提纲

叶梓，上海交通大学计算机专业博士毕业，高级工程师。主研方向：数据挖掘、机器学习、人工智能。历任国内知名上市IT企业的AI技术总监、资深技术专家，市级行业大数据平台技术负责人。个人主页：大数据人工智能AI培训讲师叶梓_新浪博客 (sina.com.cn)

长期负责城市信息化智能平台的建设工作，开展行业数据的智能化应用研发工作，牵头多个省级、市级行业智能化信息系统的建设，主持设计并搭建多个省级、市级行业大数据平台。参与国家级人工智能课题，牵头上海市级人工智能示范应用课题研究。

带领团队在相关行业领域研发多款人工智能创新产品，成功落地多项大数据、人工智能前沿项目，其中信息化智能平台项目曾荣获：“上海市信息技术优秀应用成果奖”。带领团队在参加国际NLP算法大赛，获得Top1%的成绩。参与国家级、省级大数据技术标准的制定，曾获省部级以上的科技创新一等奖。

项目经历：

上海市城市信息化人工智能项目项目负责人

研发智能服务系统，包括：元宇宙与虚拟数字人、基于人工智能的内容生成（AIGC）、基于NLP技术的对话系统、基于深度学习的图像识别系统、基于智能推理的行业推荐系统。

相关工作：

作为项目总负责，负责项目管理、产品研发、系统分析、技术指导、算法指导等。

上海市城市智能信息化工程总工程师

采用大数据技术，建设市级信息平台，完成试点单位接入并采集居民相关信息，实现市级平台档案等服务，并实现所有单位的全面接入。
为解决超量数据的存储与计算的问题，搭建了存储全市数据的云计算平台，并在其上进行了基于大数据的分析和挖掘工作。

相关工作：

作为总工程师，负责技术管理、系统分析、云平台数据存储设计、数据分析与挖掘指导、开发指导。

上海市城市信息化领域智能联网工程技术经理

建设内容包括：接入单位的联网；智能卡的实现；城市信息化智能平台的升级；科研平台的扩展与升级；建立决策支持系统；评估体系的展示设计；短信平台的实现；违规操作的提醒；协同智能服务平台的实现等。

相关工作：

作为技术经理负责总体架构设计、接口设计、大数据平台设计、AI技术指导等。

3. 主攻方向

具有扎实的数据挖掘、机器学习、深度学习等人工智能理论基础；了解AIGC等技术前沿动态。

精通机器学习、深度学习的理论、模型、算法、调优等；精通算法设计；

熟悉深度学习在自然语言处理、计算机视觉两大核心领域的实用技巧；

15年以上的程序开发经验，熟悉常用程序开发架构，独立完成多个产品级软件的设计与开发。

4.授课风采

日立电梯 (中国) 有限公司

中国管理科学研究院合作单位系列课程

中国电信云公司上海研发中心

SONY

强化学习与深度强化学习

前言：

强化学习是当前最热门的研究方向之一，广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习（深度强化学习）的基本理论和关键算法，包括：马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法，策略梯度法等；以及该领域的最新前沿发展，包括：DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等；同时也介绍大量的实际案例，包括深度强化学习中最著名的工程应用：Alpha Go。

第一天强化学习

第一课强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验（Gym，TensorFlow等）

5.Gym环境的基本使用方法

第二课马尔科夫决策过程

1.基本概念：马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例：构建机器人找金币和迷宫的环境

第三课基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例：实现基于模型的强化学习算法

第四课蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例：利用蒙特卡罗方法实现机器人找金币和迷宫

第五课时序差分方法

1.DP，MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法：Sarsa 方法

4.异策略TD方法：Q-learning 方法

案例：Q-learning和Sarsa的实现

第二天从强化学习到深度强化学习

第一课基于值函数逼近方法（强化学习）

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

第二课基于值函数逼近方法（深度学习与强化学习的结合）

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN 方法介绍

4.DQN变种：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戏——flappy bird

第三课策略梯度方法（强化学习）

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法，修改估计值函数法

案例：利用gym和tensorflow实现小车倒立摆系统等

第四课 Alpha Go（深度学习与强化学习的结合）

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课 GAN（深度学习）

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例：生成手写数字的GAN

第三天深度强化学习进阶

第一课 AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

第二课 AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例：AC类方法的案例

第三课信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例：TRPO方法的案例

第四课信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例：PPO方法的案例

第五课多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例：MADDPG的案例等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/231831.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

人工智能AIGC培训讲师叶梓介绍及AI强化学习培训提纲

强化学习与深度强化学习

相关文章

栈和队列的互相实现

Qexo博客后台管理部署

Python 中检查一个数是不是另一个数的整数次幂

算数运算符和算数表达式

【QED】小樱的问题

唱响主旋律——建行江门市分行推动服务实体经济高质量发展

异步回调模式

C/C++之输入输出

python爬虫学习-批量爬取图片

有什么进销存软件能对接微信小程序？

Python Cupy 模块：加速大规模数值计算

Java数据结构06——树

基于Python的前程无忧、51job、智联招聘等招聘网站数据获取及数据分析可视化大全【代码+演示】

软件科技成果鉴定测试需提供哪些材料?

高项备考葵花宝典-项目进度管理输入、输出、工具和技术(下，很详细考试必过)

Bash脚本处理ogg、flac格式到mp3格式的批量转换

unity 2d 入门飞翔小鸟 Cinemachine 镜头跟随小鸟多边形碰撞器解决镜头不会穿模问题（十二)

课堂练习3.3：进程的调度

文件重命名：轻松高效，批量重命名文件只需掌握一点技巧

华为ensp实验——基于全局地址池的DHCP组网实验