人工智能AIGC培训讲师叶梓介绍及AI强化学习培训提纲

叶梓,上海交通大学计算机专业博士毕业,高级工程师。主研方向:数据挖掘、机器学习、人工智能。历任国内知名上市IT企业的AI技术总监、资深技术专家,市级行业大数据平台技术负责人。个人主页:大数据人工智能AI培训讲师叶梓_新浪博客 (sina.com.cn)

长期负责城市信息化智能平台的建设工作,开展行业数据的智能化应用研发工作,牵头多个省级、市级行业智能化信息系统的建设,主持设计并搭建多个省级、市级行业大数据平台。参与国家级人工智能课题,牵头上海市级人工智能示范应用课题研究。

带领团队在相关行业领域研发多款人工智能创新产品,成功落地多项大数据、人工智能前沿项目,其中信息化智能平台项目曾荣获:“上海市信息技术优秀应用成果奖”。带领团队在参加国际NLP算法大赛,获得Top1%的成绩。参与国家级、省级大数据技术标准的制定,曾获省部级以上的科技创新一等奖。

项目经历:

  1. 上海市城市信息化人工智能项目 项目负责人
  • 研发智能服务系统,包括:元宇宙与虚拟数字人、基于人工智能的内容生成(AIGC)、基于NLP技术的对话系统、基于深度学习的图像识别系统、基于智能推理的行业推荐系统。

相关工作:

作为项目总负责,负责项目管理、产品研发、系统分析、技术指导、算法指导等。

  1. 上海市城市智能信息化工程 总工程师
  • 采用大数据技术,建设市级信息平台,完成试点单位接入并采集居民相关信息,实现市级平台档案等服务,并实现所有单位的全面接入。
  • 为解决超量数据的存储与计算的问题,搭建了存储全市数据的云计算平台,并在其上进行了基于大数据的分析和挖掘工作。

相关工作:

作为总工程师,负责技术管理、系统分析、云平台数据存储设计、数据分析与挖掘指导、开发指导。

  1. 上海市城市信息化领域智能联网工程 技术经理
  • 建设内容包括:接入单位的联网;智能卡的实现;城市信息化智能平台的升级;科研平台的扩展与升级;建立决策支持系统;评估体系的展示设计;短信平台的实现;违规操作的提醒;协同智能服务平台的实现等。

相关工作:

作为技术经理负责总体架构设计、接口设计、大数据平台设计、AI技术指导等。

3. 主攻方向

具有扎实的数据挖掘、机器学习、深度学习等人工智能理论基础;了解AIGC等技术前沿动态。

精通机器学习、深度学习的理论、模型、算法、调优等;精通算法设计;

熟悉深度学习在自然语言处理、计算机视觉两大核心领域的实用技巧;

15年以上的程序开发经验,熟悉常用程序开发架构,独立完成多个产品级软件的设计与开发。

4.授课风采

  • 日立电梯 (中国) 有限公司

  • 中国管理科学研究院合作单位系列课程

  • 中国电信云公司上海研发中心

 

  • SONY

         

强化学习与深度强化学习

前言:

强化学习是当前最热门的研究方向之一,广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习(深度强化学习)的基本理论和关键算法,包括:马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法,策略梯度法等;以及该领域的最新前沿发展,包括:DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等;同时也介绍大量的实际案例,包括深度强化学习中最著名的工程应用:Alpha Go。

第一天 强化学习

第一课 强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验(Gym,TensorFlow等)

5.Gym环境的基本使用方法

第二课 马尔科夫决策过程

1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例:构建机器人找金币和迷宫的环境

第三课 基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例:实现基于模型的强化学习算法

第四课 蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例:利用蒙特卡罗方法实现机器人找金币和迷宫

第五课 时序差分方法

1.DP,MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法:Sarsa 方法

4.异策略TD方法:Q-learning 方法

案例:Q-learning和Sarsa的实现

第二天 从强化学习到深度强化学习

第一课 基于值函数逼近方法(强化学习)

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

第二课 基于值函数逼近方法(深度学习与强化学习的结合)

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN 方法介绍

4.DQN变种:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戏——flappy bird

第三课 策略梯度方法(强化学习)

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法,修改估计值函数法

案例:利用gym和tensorflow实现小车倒立摆系统等

第四课 Alpha Go(深度学习与强化学习的结合)

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课 GAN(深度学习)

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例:生成手写数字的GAN

第三天 深度强化学习进阶

第一课 AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

第二课 AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例:AC类方法的案例

第三课 信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例:TRPO方法的案例

第四课 信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例:PPO方法的案例

第五课 多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例:MADDPG的案例等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/231831.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

栈和队列的互相实现

用队列实现栈 OJ链接 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 实现 MyStack 类: void push(int x) 将元素 x 压入栈顶。int pop() 移除并返…

Qexo博客后台管理部署

Qexo博客后台管理部署 个人主页 个人博客 参考文档 https://www.oplog.cn/qexo/本地部署 采用本地Docker部署管理本地Hexo 下载代码包 若无法下载使用科学工具下载到本地在上传到服务器 wget https://github.com/Qexo/Qexo/archive/refs/tags/3.0.1.zip# 解压 unzip Qexo…

Python 中检查一个数是不是另一个数的整数次幂

更多资料获取 📚 个人网站:ipengtao.com 在数学和计算中,确定一个数是否为另一个数的整数次幂是一个常见而重要的问题。例如,我们可能需要判断一个数是否是某个数的平方、立方或其他幂次。本文将探讨在Python中如何实现这一功能&…

算数运算符和算数表达式

基本算数运算符 算数运算符: (加法运算符或正值运算符)、-(减法运算符或负值运算符)、*(乘)、/(除)、%(求余数) 双目运算符: 双目…

【QED】小樱的问题

目录 题目描述输入格式输出格式 测试样例样例说明 思路核心代码 题目描述 在 f u f u fufu fufu乐园,每天都会有各种各样精彩的内容发生。就比如说,今天,小樱的米饭店开张啦! 为了吸引 f u f u fufu fufu们前来购买小樱的大米&a…

唱响主旋律——建行江门市分行推动服务实体经济高质量发展

建行江门市分行主动对接当地战略部署,在侨乡热土踏歌而行,全力当好服务实体经济的主力军和维护金融稳定的压舱石,在助力再造一个现代化新江门上贡献建行力量。 输血实体 为实体经济服务是金融的天职。建行江门市分行积极发挥在重大基建领域…

异步回调模式

异步回调 所谓异步回调,本质上就是多线程中线程的通信,如今很多业务系统中,某个业务或者功能调用多个外部接口,通常这种调用就是异步的调用。如何得到这些异步调用的结果自然也就很重要了。 Callable、Future、FutureTask publi…

C/C++之输入输出

文章目录 一.C语言的输入输出1.printfi. 输出整数ii. 浮点数iii.字符 & 字符串 2.scanfi.整数ii.浮点数iii. 字符 & 字符串 3.特殊用法i. * 的应用ii. %n 的应用iii. %[] 的应用 二.C中的输入输出1.couti. 缓冲区(buffer)ii. cout之格式化输出 2…

python爬虫学习-批量爬取图片

python爬虫学习-批量爬取图片 爬虫步骤爬取前十页图片到本地根据页码获取网络源码使用xpath解析网页解析网页并下载图片主函数如下 爬取的网站为站长素材(仅做学习使用) 爬取的目标网站为 https://sc.chinaz.com/tupian/qinglvtupian.html如果爬取多页&…

有什么进销存软件能对接微信小程序?

有什么进销存软件能对接微信小程序? 据我所知,很多进销存软件都有配套的微信小程序吧。 以我们现在用的这个为例,这也是同行推荐过来的,很好用,而且性价比很高—— 在线平台,无需下载APP,搭载…

Python Cupy 模块:加速大规模数值计算

更多资料获取 📚 个人网站:ipengtao.com Cupy是一个基于NumPy的库,专门设计用于在GPU上进行高性能计算。它提供了与NumPy相似的API,因此用户可以很容易地将现有的NumPy代码迁移到Cupy上,从而充分利用GPU的并行计算能力…

Java数据结构06——树

1.why: 数组&链表&树 2. 大纲 2.1前中后序 public class HeroNode {private int no;private String name;private HeroNode left;//默认为nullprivate HeroNode right;//默认为nullpublic HeroNode(int no, String name) {this.no no;this.name name;}public int …

基于Python的前程无忧、51job、智联招聘等招聘网站数据获取及数据分析可视化大全【代码+演示】

需要本项目的可以私信博主,获取,或者文末卡片获取 import pandas as pd import glob import warnings warnings.filterwarnings("ignore")# 指定目录 directory ./data/# 使用glob来获取所有.xlsx文件 excel_files glob.glob(directory *.x…

软件科技成果鉴定测试需提供哪些材料?

为了有效评估科技成果的质量,促进科技理论向实际应用转化,所以需要进行科技成果鉴定测试。申请鉴定的科技成果范围是指列入国家和省、自治区、直辖市以及国务院有关部门科技计划内的应用技术成果,以及少数科技计划外的重大应用技术成果。   …

高项备考葵花宝典-项目进度管理输入、输出、工具和技术(下,很详细考试必过)

项目进度管理的目标是使项目按时完成。有效的进度管理是项目管理成功的关键之一,进度问题在项目生命周期内引起的冲突最多。 小型项目中,定义活动、排列活动顺序、估算活动持续时间及制定进度模型形成进度计划等过程的联系非常密切,可以视为一…

Bash脚本处理ogg、flac格式到mp3格式的批量转换

现在下载的许多音乐文件是flac和ogg格式的,QQ音乐上下载的就是这样的,这些文件尺寸比较大,在某些场合使用不便,比如在车机上播放还是mp3格式合适,音质这些在车机上播放足够了,要求不高。比如本人就喜欢下载…

unity 2d 入门 飞翔小鸟 Cinemachine 镜头跟随小鸟 多边形碰撞器 解决镜头不会穿模问题(十二)

1、安装 window->package manager 2、创建Cinemachine 右键->Cinemachine->2D Carmera 3、创建空对象和多边形控制器如图 记得勾选 is Trigger 空对象位置记得要和小鸟保持一致,不然等下写完脚本后,镜头一开始会移动一下 4、将多边形触…

课堂练习3.3:进程的调度

3-6 课堂练习3.3:进程的调度 在内存中一般存放着数目远大于计算机 CPU 个数的进程,进程调度的作用是选择合适的进程来使用CPU,进程调度器对系统性能有重要影响。本实训分析Linux 0.11的进程调度算法,该操作系统采用了一种时间片与…

文件重命名:轻松高效,批量重命名文件只需掌握一点技巧

在日常工作和生活中,经常要对文件进行重命名。有时候可能要对一批文件进行重命名,如果一个个手动重命名,不仅费时费力,还容易出错。如何掌握一些文件重命名的技巧,那就能轻松高效地完成这项任务。接下来就讲解云炫文件…

华为ensp实验——基于全局地址池的DHCP组网实验

目录 前言实验目的实验内容实验结果 前言 该实验基于华为ensp,版本号是1.3.00.100 V100R003C00SPC100,只供学习和参考,不作任何商业用途。 具体的DHCP命令可以看系列文章链接,计算机网络实验(华为eNSP模拟器&#xff…