文章目录
- 前言
- 阿里巴巴:推出Qwen1.5-32B 模型
- 文心一言:定制自己的 AI 声音
- 动画线条图自动填色
- SWE-agent:AI程序员
- OpenAI:收集高质量训练数据
- Stability AI 发布 Stable Audio 2.0
- OpenAI:开放GPT3.5,无需注册
- GRM:0.1秒内从少量图片构建3D模型
- Cohere 推出 Command R+ 企业级大模型
前言
大家好,我是翼同学。这里是【每周精选资讯】的第四期内容。
阿里巴巴:推出Qwen1.5-32B 模型
Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,致力于在性能、效率和内存占用之间找到理想的平衡。Qwen1.5-32B拥有大约300亿参数,采用了分组查询注意力机制,具有强大的对话能力,并在多项基准测试中表现出竞争性能。
此外,该模型在12种不同语言上进行了测试,展现了其在多语言理解和生成方面的能力。与具有更多参数的模型相比,Qwen1.5-32B的内存占用更少,运行速度更快。
文心一言:定制自己的 AI 声音
百度文心一言近日上线了新功能,用户只需几秒钟就可以定制自己的AI声音。用户只需打开文心一言App,按照系统提示读出一段话,系统就能在大约两秒的时间内捕捉到用户的声音特点,生成一个独特的“语音助手”。确认声音质量后,用户的专属“语音库”即可立即构建完成。此外,用户还可以点击对话框上的通话按钮,与自己构建的数字分身实时对话,音色和音调都与用户本人完全一致。
动画线条图自动填色
南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术,通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。这一过程极大地简化了动画制作中繁琐的手动上色步骤,即使是人物在转身阴影或者被遮挡部分也能完美解决。
该方法采用了一种新的基于学习的包含匹配流程,使网络理解段落之间的包含关系,而不仅仅依赖于直接的视觉对应关系。为了方便这个网络的训练,他们开发了一个独特的数据集,称为PaintBucket-Character,包括渲染的线条艺术和他们的彩色对应物,具有各种3D角色。大量的实验证明了该方法相比现有技术的有效性和优越性。
Learning Inclusion Matching for Animation Paint Bucket Colorization
SWE-agent:AI程序员
SWE-agent,一种基于GPT-4的软件工程代理,已经能够修复GitHub存储库中的实际错误和问题。在SWE-bench测试集上,其得分仅次于Devin和Claude3 opus。
SWE-agent的特性包括:在执行编辑指令时运行代码检查器,提供专门的文件查看器和全目录字符串搜索命令,以及在没有输出的情况下返回提示信息。
SWE-Agent
OpenAI:收集高质量训练数据
据《纽约时报》报道,OpenAI已经使用其Whisper音频转录模型转录了超过一百万小时的YouTube视频,以训练其GPT-4模型。OpenAI总裁Greg Brockman亲自参与了这项工作。报道指出,OpenAI在2021年就已经耗尽了所有可获取的有用数据,并在耗尽其他资源后开始讨论转录YouTube视频、播客和有声读物。
此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。OpenAI发言人Lindsay Held表示,公司为每个模型策划了“独特”的数据集,以帮助它们理解世界并保持其全球研究竞争力。
Stability AI 发布 Stable Audio 2.0
Stability AI推出了新型模型Stable Audio 2.0,能从单一的自然语言提示生成高质量、具有连贯音乐结构的完整音轨,最长可达三分钟,音质为44.1 kHz立体声。
与之前的版本相比,Stable Audio 2.0不仅支持文本到音频的转换,还新增了音频到音频的功能,允许用户上传音频样本并将其转换为各种声音。此外,该模型还扩展了声效生成和风格转换功能,提供了更大的灵活性和控制权。
OpenAI:开放GPT3.5,无需注册
OpenAI宣布开放GPT3.5功能,任何人都可以立即免费使用ChatGPT,无需注册,可以直接与GPT进行对话聊天。
但是,如果不注册使用ChatGPT,用户将无法保存和回顾聊天历史、分享聊天,以及体验一些高级功能,如语音对话和自定义指令。
GRM:0.1秒内从少量图片构建3D模型
GRM(Gaussian Reconstruction Model)是一个基于高斯模型的3D重建工具,它能够利用多视角信息,在大约0.1秒内重建出精确的3D模型。
GRM技术的核心在于其高效的信息整合能力。通过分析从不同角度拍摄的少量图片,GRM能够迅速构建出物体的三维模型,甚至可以复原整个场景的三维结构。同时也它支持将文本或图像直接转换成3D模型。
GRM: Large Gaussian Reconstruction Model
for Efficient 3D Reconstruction and Generation
Cohere 推出 Command R+ 企业级大模型
Cohere,一家领先的企业级人工智能解决方案提供商,近日推出了其最新、可扩展的大型语言模型Command R+。这款新模型是专为实际业务应用程序设计的,建立在其前身Command R的优势之上,同时提供增强的性能、多语言支持和高级检索增强生成(RAG)功能。
根据Cohere提供的评估结果,Command R+在ToolTalk和Berkeley Function Calling等关键企业AI基准测试中,优于Claude 3、GPT-4 Turbo和Mistral Large等大模型。