宋绪杰：我的大数据成长之旅 | 提升之路系列（三）

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

两年前，我成为了清华大学车辆学院的一名硕士生，随着对专业认识的不断深入，我发现车辆领域的前沿研究逐渐走向了智能化，以自动驾驶为代表的前沿技术将彻底重塑未来生活。置身于智能化的浪潮之中，我意识到必须顺应时代潮流，“大数据能力提升项目”的培养方案使我眼前一亮，于是在入学之初便完成了报名，开始了我的“大数据成长之旅”。

图1生活照

一、勤思好学，夯实学科基础

为筑牢大数据与人工智能学科基础，我选择了4门课程：深度学习(A-)、统计学习理论与应用(A)、大数据分析(A)以及大数据实践课(A-)。在硕士期间，包括这4门课程在内的所有课程均获A-及以上成绩，GPA达到4.0满绩，GPA排名院系第一。大数据项目的课程使我系统性地掌握了大数据与人工智能的学科知识，为后续的研究打下了坚实基础。

基于深度学习、统计学习课程学习到的知识，我们在大数据分析、大数据实践课程中分别参加了两项竞赛——天池-淘宝穿衣搭配挑战赛、中国高校计算机大赛-微信大数据挑战赛。在淘宝穿衣搭配挑战赛中，最终排名21/3408；在微信大数据挑战赛中，获得了全国三等奖。也正是大数据项目中扎实的实践和理论学习，让我顺利在商汤科技、旷视科技、阿里巴巴进行了三段实习，给了我继续深耕数据科学和AI领域的底气。

二、不负韶华，学科交叉创新

大数据项目也让激发了我的研究思路。以自动驾驶为代表的工业决控任务急需智能化改进，强化学习正是智能决控方法的代表，然而强化学习输出的控制动作通常具有波动性，不能真正满足现实世界中高精度决控任务的需求。为解决这一问题，我开始了以强化学习动作平滑性为主题的研究，希望为强化学习在工业场景的真正落地添砖加瓦。

对于强化学习的动作震荡问题，我曾在深度学习的课间休息时间请教过龙明盛老师，而后基于深度学习课程中系统性讲授过的神经网络设计思路，我设计了具有Lipschitz连续性的Actor网络——LipsNet，使强化学习的动作震荡问题得到了很好的改善。在这项工作中，我们与滴滴出行进行了深度合作，研究问题真正来源于实际、应用于实际。在自动驾驶轨迹跟踪任务中，LipsNet相比MLP的动作震荡率降低了90.2%，极大增强了强化学习决控的动作稳定性；在MuJoCo等控制任务中也有显著改善。且LipsNet可以适用于任何Actor-Critic构架的强化学习算法，具有极强的适用性。

这篇文章最终发表在了2023年的ICML会议（CCF-A）中。这次会议在风景优美的夏威夷举办，在参会过程中，我被大数据和AI领域的快速发展深深震撼到了，更加坚定了投身大数据与AI领域的决心。值得一提的是，在夏威夷竟然遇到了当年深度学习课程的助教学长，我在与学长和全球各地学者的交流中，增长了友谊和见识，仿佛感觉我与大数据领域的纽带更深了。

图2在ICML会议中讲解海报

在会议结束后，我参加了车辆学院的博士生论坛，在“智能出行与智慧交通”分论坛中用英文汇报了论文成果，以硕士生的身份获得了分论坛的唯一一名口头报告一等奖。随后，我们还持续创新，将LipsNet应用在了扫地机器人等真实工业任务场景中，并产出一篇EI期刊论文，实现了用大数据和AI技术对工业对象赋能。

图3博士生论坛口头报告

三、勇攀高峰，挑战科学极限

在上述成果发表之后，导师与我进行了长谈，告诉我发表论文不是最终目的，并鼓励我在数据科学和AI领域做更加深刻、更有意义的研究，在芯片禁运的大背景下，要服务于国家战略、研究突破性技术方案。随后，在导师的支持下，我迈向了数据科学更加纵深和基础的领域，开始研究如何用量子计算加速神经网络的训练，希望以QPU（量子计算机）的高速计算能力破“GPU禁运之局”。

我们选择了最有可能在近些年商业化和规模化的量子计算机——伊辛机（Isingmachine），而当时鲜有在伊辛机上训练神经网络的方法，我们在研发过程中遇到了不小的困难。在科研过程中，我时常翻出深度学习课程的PPT查阅，反复细致地理解神经网络的传播结构，并尝试找到合适的训练方案。可以说，在大数据项目中学到的知识，对我每一个阶段的研究都产生了极其重大的助力。

经过不懈努力，我们发明了一种在伊辛机上训练前馈神经网络的算法——Isinglearningalgorithm，在简化版MNIST数据集中，仅需0.7秒便可完成训练，并且测试集准确率可以达到98.3%。而后，在导师的支持下，我们同时申请了中美两国专利。仅仅在论文上传arXiv的两周后，便有来自硅谷的伊辛机创业公司主动联系到我们，表达了对论文的强烈认可，以及对寻求合作的希望；此外，我们还与玻色量子等科技创业公司建立了深度合作。虽然目前的训练算法十分初级，但我认为它具有足够大的发展空间和前景，或许可成为继GPU之后的下一代训练范式。

最后，作为大数据项目的一名学生，我非常感谢有机会参与其中。作为一名硕士生，两年多短暂的科研时光转瞬即逝，我与各位博士学长相比成果并不多，但是大数据项目让我有足够的信息面对未来的科研之路，从大数据项目汲取的知识贯彻了我学习和研究的始终，可以说带领我走过了无数个人生的十字路口，真正使我受益一生！

编辑：于腾凯

校对：王欣