2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。
清华大学胡事民院士做了大会主旨报告《以深度学习框架为牵引促进自主AI生态发展》,以下是详细介绍。文中的图片均来自该报告。
1.报告人简介
胡事民院士,清华大学计算机系教授,可视媒体研究中心主任,现为国家自然科学基金委创新群体项目学术带头人,主要从事计算机图形学、虚拟现实、智能信息处理和系统软件等方面的教学与研究工作。
2.报告概览
首先,胡院士介绍人工智能发展的现状和挑战,其次介绍了清华大学团队自主研发的开源深度学习框架“计图”,以及基于这个框架打造的AI编程助手,也展示了“计图”作为一个灵活高效的深度学习平台,如何促进人工智能的研究和应用,赋能人工智能产业。
3.内容整理
首先,胡事民院士探讨了我国AI生态的发展现状与挑战,主要有以下几个方面:
(1)计算硬件方面的挑战
1)国外芯片具有绝对优势,其中面向人工智能的AI芯片,NVIDIA、AMD等占比超过99%,其中在面向传统服务器CPU,Intel、AMD等占比超过91%;
2)国产芯片融入既有生态难:a)国产芯片发展迅速,技术路线多样,高性能芯片却面临着“买不到”或者“有设计,却无法流片”的发展困境;b)国产芯片因为性能差距大、软件生态不够完善、适配周期长、可靠性需要验证等问题,很难直接融入既有生态,迭代更新慢。
(2)框架方面的挑战
1)国外深度学习框架占据主导,从目前市场占有情况看,产业界以TensorFlow为主,学术界以PyTorch为主,PyTorch和Tensorflow的下载安装占比合计达到98%,远高于其他框架。
2)国产深度学习框架面临生态屏障,正是因此,急需降低框架的学习成本,还要完善软件生态,从而实现对下层硬件和上层算法/应用的良好支持等。
(3)模型与算法方面的挑战
1)CNN的突破性发展,其中ResNet的提出解决了梯度消失的问题;DenseNet的提出改善了信息流和梯度,从而使模型易于训练;Res2Net的提出改善了多尺度能力,从而实现了增强鲁棒性和参数效率等目标。
2)Transformer的异军突出,其中ViT(Vision Transformer)的提出将Transformer引入到CV图像分类任务中;PVT(Pyramid Vision Transformer)中提出的金字塔结构支持稠密预测任务(检测、分割、跟踪等);Swin Transformer中提出的窗口“移动”,达到了高效注意力建模。
随后,胡事民院士介绍了计图人工智能生态框架,该框架如图1所示。
图1 计图人工智能生态框架
然后,针对计图框架的算法和模型提出了一些可能的创新方向,如SubdivNet、VAN等。除此之外,还提出了一种外部注意力机制,通过引入全局特征矩阵刻画数据集的特征分布,并能改变注意力的计算。最后介绍了相关的应用。