祝贺!FISCO BCOS伙伴科大讯飞获国家科学技术进步奖一等奖

6月24日,2023年度国家科学技术奖励大会在京召开,金链盟理事单位、开源工作组成员单位、FISCO BCOS产业应用合作伙伴科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目获得国家科学技术进步奖一等奖。

这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。

科大讯飞作为AI行业的领跑企业,近年来深度参与FISCO BCOS底链、隐私计算、开源组件等模块建设,探索AI+区块链创新应用。

国家科学技术进步奖创办于1984年9月,是国务院设立的国家科学技术奖5大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖)之一。因2021年、2022年国家科技奖暂停的缘故,2023年度国家科技奖积累了大量的优秀成果,竞争激烈。

图片


关键技术取得四大突破,达到国际领先水平

语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体,还是民族团结和国际合作的基础。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。

持续攻关多年,科大讯飞攻克了多个技术难题,并打破技术封锁,提出了四个方面的技术创新。

创新点一,复杂语音信号解耦建模关键技术突破。

语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。

科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使得复杂场景下语音识别准确率得到重大突破。

在这些技术的支撑下,科大讯飞连续4届获得国际多通道语音分离和识别比赛CHiME冠军;连续8届获得国际语音合成大赛Blizzard Challenge冠军。2015年,相关技术首次在大会演讲场景实现语音转写超过人类速记员水平;2019年起连续六年服务全国两会;个性化语音合成首次应用于中央电视台节目配音(《创新中国》),并在新华社、人民日报、学习强国等广泛应用。

创新点二,多语种共享建模关键技术突破。

为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。

科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。

相关技术在2021年国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。2024年,结合语音属性解耦表征、多语种多任务共享建模等关键技术成果发布星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3。

在奇瑞、一汽等的交互评测中,科大讯飞的技术效果全面领先国际车载语音技术竞品赛伦思(原Nuance车载公司),在华为的评测中也领先谷歌。

创新点三,语音语义联合建模关键技术突破。

复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。

科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。

相关技术于2018年在业内首次达到CATTI考试英语二级《口译实务(交替传译类)》合格标准;并在2021-2023年连续三届获得国际权威机器口语翻译评测比赛IWSLT冠军,覆盖同传、离线、方言翻译等多类任务。

技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累计服务超8亿人,多行业对话成功率超90%。

创新点四,国产异构硬件平台训练及推理加速关键技术突破。

使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。

科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。

目前,已建成5个国产化集群,语音合成、识别、翻译、交互等国产化能力日服务8.73亿次。2023年,科大讯飞与华为联合攻关大模型国产化算力底座核心难题,建设首个万卡全国产算力平台“飞星一号”,填补了国产超大模型训练平台空白。

基于这些关键技术的持续攻关和突破,该项目获批牵头建设4个国家级创新平台:语音产业界唯一的国家级研究开放平台语音及语言信息处理国家工程研究中心,智能语音国家新一代人工智能开放创新平台,首批20家标杆全国重点实验室之一的认知智能全国重点实验室,智能语音领域唯一的国家技术标准创新基地;并主导编制11项国际和国家标准,获授权发明专利257项;近五年累计获得国际权威评测冠军20余项,持续保持技术引领。

实现规模化产业立地,有效支撑国家战略

科大讯飞一直坚持“技术顶天、应用立地”的战略,围绕多语种智能语音技术构建了自主可控的产业生态。

第一,语音是万物互联时代人机交互的关键入口,项目开创引领我国语音产业,支撑智能制造产业升级和出海。

智能手机方面,项目支持各主流手机厂商累计激活设备超10亿台,有效解决华为等厂商出海的多语种“卡脖子”问题;智能汽车方面,车载智能化产品累计前装超5300万套,支持奇瑞、一汽、长安等车企超200万套订单出海;智能软硬件方面,开创智能翻译机、智能办公本、智能录音笔等智能硬件新品类,连续三年获得京东&天猫双平台销售冠军,其中,讯飞翻译机目前能支持85个语种的翻译,覆盖全球200多个国家和地区,连续8年获得京东618、连续7年获得天猫双11销售冠军;在会议、办公等场景,讯飞听见系列产品服务遍及全球50多个国家和地区,支持了超过40万场会议,触及超过4亿观众;面向更多用户,讯飞输入法月活跃用户超1.4亿人,日语音交互次数超10亿次。

第二,项目助力民族团结,促进全球语言互通和“一带一路”建设。

发布“多语种语音云”平台,月服务超过5.46亿人次;每年提供翻译服务51.5亿次,语音同传服务全球50余个国家超4亿观众;多语种技术有效服务北京冬奥会和冬残奥会、中国国际进口博览会、博鳌论坛等国家重大活动。

第三,项目还构建了自主可控的多语种智能语音技术及全球产业生态。

2017年开始承建的智能语音国家新一代人工智能开放创新平台,已聚集平台开发者数700.7万,终端设备数40.5亿;构建全球多语种技术生态,目前平台聚集海外开发者数超过40万。

第四,让科技更有温度,项目持续助力公益,关爱弱势群体和特殊人群。

“听见AI的声音”公益行动,为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长,截至2024年6月,累计捐赠时长超一亿分钟;发起“三声有幸”项目,累计服务1368万人,助力公益团队创建无障碍应用超3万个;进行推普脱贫攻坚,累计助力超115万少数民族群众,成为《国家通用语言文字法》施行22年来首次表彰活动中的企业先进集体。

项目产业生态繁荣、成效显著。近三年,多语种智能语音技术产业化项目累计实现直接经济效益521.28亿元,并带动由工信部和安徽省政府共建、以科大讯飞为核心的“中国声谷”产业集聚发展,并上升为中部崛起的国家战略。

未来:智能语音+认知大模型,用人工智能建设美好世界

通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。

语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。

大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。

文章来源:科大讯飞官方账号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/750715.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

多路h265监控录放开发-(14)通过PaintCell自定义日历控件继承QCalendarWidget的XCalendar类

首先创建一个新类XCalendar继承QCalendarWidget类&#xff0c;然后在UI视图设计器中把日历提升为XCalendar&#xff0c;通过这个函数自己设置日历的样式 xcalendar.h #pragma once #include <QCalendarWidget> class XCalendar :public QCalendarWidget { public:XCal…

“一站式企业服务平台”全景解析

在当今市场竞争日益激烈、商业环境瞬息万变的大经济环境下&#xff0c;企业在经营过程中常常面临政策不知道摸不清、资源获取困难、融资渠道狭窄、市场开拓不畅、政务办理繁琐等诸多问题&#xff0c;为了解决这些问题&#xff0c;帮扶企业发展&#xff0c;同时优化区域营商环境…

【Spring】SpringCloudAlibaba学习笔记

Nacos Nacos是一个更易于构建云原生应用的动态服务发现/服务配置和服务管理平台核心功能: 服务注册: Nacos Client会通过发送REST请求向Nacos Server注册自己的服务, 提供自己的元数据, 如ip地址/端口等信息; Nacos Server收到注册请求后, 就会把这些信息存储在Map中服务心跳:…

前端基础--Vue2

前端技术发展史(了解) 1.前端历史 1.1.静态网页 1990 html 1.2.异步刷新-操作dom 1995 javascript 1.3.动态网站 Asp/jsp&#xff08;java&#xff09;,php等&#xff0c;后台臃肿 1.4.Ajax成为主流 异步请求 1.5.Html5 被认为是互联网的核心技术之一。HTML产生于19…

12,SPI

Flash芯片&#xff1a;W25Q64&#xff0c;可以看成一个储存器 W25Q64芯片和单片机之间的通信方式是SPI SPI:串行同步全双工&#xff0c;主从通信 判断一个设备是不是SPI通信&#xff0c;看是否有这几个线&#xff1a;SCK&#xff0c;CS&#xff0c;MISO&#xff0c;MOSI SCK…

探索Android架构设计

Android 应用架构设计探索&#xff1a;MVC、MVP、MVVM和组件化 MVC、MVP和MVVM是常见的三种架构设计模式&#xff0c;当前MVP和MVVM的使用相对比较广泛&#xff0c;当然MVC也并没有过时之说。而所谓的组件化就是指将应用根据业务需求划分成各个模块来进行开发&#xff0c;每个…

Three.js鼠标拖动设置骨骼姿态

实现 根据SkinnedMesh生成Mesh 作为射线检测的目标&#xff08;射线检测SkinnedMesh存在不足 无法应用骨骼形变的顶点 &#xff09;点击模型 获取点击位置对应的骨骼拖拽鼠标设置骨骼旋转角度&#xff08;使用TransformControl选中点击的骨骼 设置轴为XYZE 并隐藏控件 主动触发…

马面裙的故事:汉服如何通过直播电商实现产业跃迁

【潮汐商业评论/原创】 波澜壮阔的千里江山在马面裙的百褶上展开&#xff0c;织金花纹在女性的步伐之间若隐若现&#xff0c;从明清到现代&#xff0c;如今马面裙又流行了回来&#xff0c;成为女性的流行单品&#xff0c;2024年春节期间&#xff0c;马面裙更是成为华夏女孩们的…

仓库管理系统14--仓库设置

1、添加窗体 <UserControl x:Class"West.StoreMgr.View.StoreView"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:mc"http://schemas.openxmlformats.…

Str.format()方法

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 在Python2.6之后&#xff0c;提供了字符串的format()方法对字符串进行格式化操作。format()功能非常强大&#xff0c;格式也比较复杂&…

选择第三方软件测试机构做验收测试的好处简析

企事业单位在自行开发完软件系统或委托软件开发公司生产软件之后&#xff0c;有一个必经流程就是验收测试&#xff0c;以验证该产品是否符合用户需求、是否可以上线。为了客观评估所委托生产的软件质量&#xff0c;第三方软件测试机构往往成为企事业单位做验收测试的首选&#…

Bad owner or permissions on C:\\Users\\username/.ssh/config > 过程试图写入的管道不存在。

使用windows连接远程服务器出现Bad owner or permissions 错误 问题&#xff1a; 需要修复文件权限 SSH 配置文件应具有受限权限以防止未经授权的访问 确保只有用户对该.ssh/config文件具有读取权限 解决方案&#xff1a; 在windows下打开命令行&#xff0c;通过以下命令打开文…

PS使用批量脚本生成海报实践

前言 设计朋友有需求做一批邀请函&#xff0c;有几十个人名&#xff0c;需要把人名加到海报中&#xff0c;PS里一个一个添加人名很麻烦&#xff0c;于是来问我有没有什么办法能够批量去添加。 希望把人名加到红框区域内 尝试用ps的脚本进行处理 准备 PS(版本2021&#xff0c;…

HTML静态网页成品作业(HTML+CSS)——企业摄影网介绍网页(3个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有3个页面。 二、作品演示 三、代…

Micro-ROS是什么?

Micro-ROS是ROS&#xff08;Robot Operating System&#xff0c;机器人操作系统&#xff09;生态系统的一个重要组成部分&#xff0c;专为微控制器&#xff08;Microcontrollers&#xff09;设计的轻量级ROS版本。它的目标是在资源有限的嵌入式平台上实现ROS 2的功能&#xff0…

各省药品集中采购平台-地方药品集采分析数据库

国家第十批药品集中采购的启动时间暂未明确&#xff0c;但即将到来&#xff0c;在5月&#xff0c;国家医保局发布了《关于加强区域协同做好2024年医药集中采购提质扩面的通知》&#xff0c;其中明确指出将“开展新批次国家组织药品和医用耗材集中带量采购&#xff0c;对协议期满…

转转游戏MQ重构:思考与心得之旅

文章目录 1 背景1.1 起始之由1.2 重构前现状1.3 问题分析 2 重构2.1 目标2.2 制定方案2.2.1 架构设计2.2.2 实施计划2.2.3 测试计划 2.3 部分细节设计 3. 总结 1 背景 游戏业务自 2017 年启航&#xff0c;至今已近乎走过七个春秋&#xff0c;历经漫长岁月的发展&#xff0c;不…

应用图扑 HT for Web 搭建拓扑关系图

拓扑结构在计算机网络设计和通信领域中非常重要&#xff0c;因为它描述了网络中的设备&#xff08;即“点”&#xff09;如何相互连接&#xff08;即通过“线”&#xff09;。这种结构不仅涉及物理布局&#xff0c;即物理拓扑&#xff0c;还可以涉及逻辑或虚拟的连接方式&#…

C++ ─── vector模拟实现的扩容拷贝问题

扩容拷贝问题 源代码使用memcpy拷贝&#xff0c;在使用vector<int>存储内置类型时没有问题&#xff0c; 但是如果存储的是含有指针的类型&#xff0c;如string&#xff0c;就会发生浅拷贝问题 //3、容量相关void reserve(size_t n){if (n > capacity()){size_t old_si…

数字水产养殖中的鱼类追踪、计数和行为分析技术

随着全球人口增长和生态环境退化&#xff0c;传统捕捞已无法满足人类对水产品的需求&#xff0c;水产养殖成为主要的鱼类来源。数字水产养殖利用先进技术和数据驱动方法&#xff0c;对提高生产效率、改善鱼类福利和资源管理具有显著优势。 1 数字水产养殖的重要性 1.1 提高生…