6月24日,2023年度国家科学技术奖励大会在京召开,金链盟理事单位、开源工作组成员单位、FISCO BCOS产业应用合作伙伴科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目获得国家科学技术进步奖一等奖。
这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。
科大讯飞作为AI行业的领跑企业,近年来深度参与FISCO BCOS底链、隐私计算、开源组件等模块建设,探索AI+区块链创新应用。
国家科学技术进步奖创办于1984年9月,是国务院设立的国家科学技术奖5大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖)之一。因2021年、2022年国家科技奖暂停的缘故,2023年度国家科技奖积累了大量的优秀成果,竞争激烈。
关键技术取得四大突破,达到国际领先水平
语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体,还是民族团结和国际合作的基础。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。
持续攻关多年,科大讯飞攻克了多个技术难题,并打破技术封锁,提出了四个方面的技术创新。
创新点一,复杂语音信号解耦建模关键技术突破。
语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。
科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使得复杂场景下语音识别准确率得到重大突破。
在这些技术的支撑下,科大讯飞连续4届获得国际多通道语音分离和识别比赛CHiME冠军;连续8届获得国际语音合成大赛Blizzard Challenge冠军。2015年,相关技术首次在大会演讲场景实现语音转写超过人类速记员水平;2019年起连续六年服务全国两会;个性化语音合成首次应用于中央电视台节目配音(《创新中国》),并在新华社、人民日报、学习强国等广泛应用。
创新点二,多语种共享建模关键技术突破。
为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。
科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。
相关技术在2021年国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。2024年,结合语音属性解耦表征、多语种多任务共享建模等关键技术成果发布星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3。
在奇瑞、一汽等的交互评测中,科大讯飞的技术效果全面领先国际车载语音技术竞品赛伦思(原Nuance车载公司),在华为的评测中也领先谷歌。
创新点三,语音语义联合建模关键技术突破。
复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。
科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
相关技术于2018年在业内首次达到CATTI考试英语二级《口译实务(交替传译类)》合格标准;并在2021-2023年连续三届获得国际权威机器口语翻译评测比赛IWSLT冠军,覆盖同传、离线、方言翻译等多类任务。
技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累计服务超8亿人,多行业对话成功率超90%。
创新点四,国产异构硬件平台训练及推理加速关键技术突破。
使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。
科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。
目前,已建成5个国产化集群,语音合成、识别、翻译、交互等国产化能力日服务8.73亿次。2023年,科大讯飞与华为联合攻关大模型国产化算力底座核心难题,建设首个万卡全国产算力平台“飞星一号”,填补了国产超大模型训练平台空白。
基于这些关键技术的持续攻关和突破,该项目获批牵头建设4个国家级创新平台:语音产业界唯一的国家级研究开放平台语音及语言信息处理国家工程研究中心,智能语音国家新一代人工智能开放创新平台,首批20家标杆全国重点实验室之一的认知智能全国重点实验室,智能语音领域唯一的国家技术标准创新基地;并主导编制11项国际和国家标准,获授权发明专利257项;近五年累计获得国际权威评测冠军20余项,持续保持技术引领。
实现规模化产业立地,有效支撑国家战略
科大讯飞一直坚持“技术顶天、应用立地”的战略,围绕多语种智能语音技术构建了自主可控的产业生态。
第一,语音是万物互联时代人机交互的关键入口,项目开创引领我国语音产业,支撑智能制造产业升级和出海。
智能手机方面,项目支持各主流手机厂商累计激活设备超10亿台,有效解决华为等厂商出海的多语种“卡脖子”问题;智能汽车方面,车载智能化产品累计前装超5300万套,支持奇瑞、一汽、长安等车企超200万套订单出海;智能软硬件方面,开创智能翻译机、智能办公本、智能录音笔等智能硬件新品类,连续三年获得京东&天猫双平台销售冠军,其中,讯飞翻译机目前能支持85个语种的翻译,覆盖全球200多个国家和地区,连续8年获得京东618、连续7年获得天猫双11销售冠军;在会议、办公等场景,讯飞听见系列产品服务遍及全球50多个国家和地区,支持了超过40万场会议,触及超过4亿观众;面向更多用户,讯飞输入法月活跃用户超1.4亿人,日语音交互次数超10亿次。
第二,项目助力民族团结,促进全球语言互通和“一带一路”建设。
发布“多语种语音云”平台,月服务超过5.46亿人次;每年提供翻译服务51.5亿次,语音同传服务全球50余个国家超4亿观众;多语种技术有效服务北京冬奥会和冬残奥会、中国国际进口博览会、博鳌论坛等国家重大活动。
第三,项目还构建了自主可控的多语种智能语音技术及全球产业生态。
2017年开始承建的智能语音国家新一代人工智能开放创新平台,已聚集平台开发者数700.7万,终端设备数40.5亿;构建全球多语种技术生态,目前平台聚集海外开发者数超过40万。
第四,让科技更有温度,项目持续助力公益,关爱弱势群体和特殊人群。
“听见AI的声音”公益行动,为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长,截至2024年6月,累计捐赠时长超一亿分钟;发起“三声有幸”项目,累计服务1368万人,助力公益团队创建无障碍应用超3万个;进行推普脱贫攻坚,累计助力超115万少数民族群众,成为《国家通用语言文字法》施行22年来首次表彰活动中的企业先进集体。
项目产业生态繁荣、成效显著。近三年,多语种智能语音技术产业化项目累计实现直接经济效益521.28亿元,并带动由工信部和安徽省政府共建、以科大讯飞为核心的“中国声谷”产业集聚发展,并上升为中部崛起的国家战略。
未来:智能语音+认知大模型,用人工智能建设美好世界
通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。
语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。
大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。
文章来源:科大讯飞官方账号