AI又有啥进展?一起看看吧
Apple进军个人家用机器人
Apple在放弃自动驾驶汽车项目并推出混合现实头显后,正在进军个人机器人领域,处于开发家用环境机器人的早期阶段
报告中提到了两种可能的机器人设计。一种是移动机器人,可以跟随用户在房子里四处走动。另一种是固定式机器人,配备屏幕,可以在视频通话时模仿人的头部动作。苹果还考虑长期内推出用于家务劳动的机器人
https://the-decoder.com/apple-sets-its-sights-on-personal-robots-as-next-frontier-after-vision-pro-debut/
SWE-agent:93秒内解决GitHub问题的AI编码器
普林斯顿大学的研究人员开发了SWE-agent,能够将诸如GPT-4之类的语言模型转化为自主软件工程代理。SWE-agent能够在93秒内识别并修复真实世界GitHub仓库中的漏洞和问题!它通过与一个专用的终端进行交互来实现这一目标,该终端允许它打开、滚动和搜索文件,使用自动语法检查编辑特定行,编写和执行测试
在SWE-Bench基准测试中,SWE-agent解决了呈现问题的12.29%,几乎与Cognition AI开发的闭源2100万美元商业AI程序员Devin所达到的13.86%相匹配
https://swe-agent.com/
Stability AI的Stable Audio 2.0来了
Stability AI发布了Stable Audio 2.0,这是一款全新的AI模型,能够生成高质量、全长度的音频轨道。基于其前身,最新模型引入了三项突破性功能:
-
能够生成长达3分钟的音轨,具有连贯的音乐结构
-
启用音频到音频的生成功能,允许用户使用自然语言提示转换上传的样本
-
增强音效生成和风格迁移能力,为艺术家提供更大的灵活性和控制力
Stable Audio 2.0的架构结合了高度压缩的自编码器(autoencoder)和扩散转换器(diffusion transformer,DiT),以生成具有连贯结构的完整音轨。自编码器将原始音频波形压缩成更短的表示形式,捕获关键特征,而DiT则擅长在长序列上操作数据
https://stability.ai/news/stable-audio-2-0
马斯克认为AI可能毁灭人类,但值得冒险
在Abundance Summit的AI辩论研讨会上,马斯克分享了他对AI潜在危险的看法,他估计AI可能对人类构成生存威胁的可能性为10-20%
尽管存在风险,但马斯克认为AI的好处超过了潜在的危险。他强调教会AI保持真实和好奇的重要性,尽管没有具体说明他是如何得出风险评估结论的
https://www.indiatoday.in/technology/news/story/elon-musk-says-there-is-around-10-to-20-percent-chances-of-ai-destroying-humanity-2521670-2024-04-01
OpenAI推出即时访问ChatGPT功能
OpenAI 现在允许用户无需创建账户即可使用 ChatGPT。每周的用户超过 1 亿,遍布 185 个国家,现在任何对其功能好奇的人都可以立即访问它
虽然此举使AI更加易于访问,但OpenAI的其他产品,如DALL-E 3,仍然需要用户创建账户。此外,该公司还引入了新的内容保护措施,并允许用户选择不参与模型训练,即使他们没有账户也可以这样做
https://openai.com/blog/start-using-chatgpt-instantly
Siri能理解用户屏幕上的内容
苹果研究人员开发了一个名为ReALM的AI系统,该系统能够让Siri等语音助手理解屏幕上元素的上下文引用。通过将复杂的引用解析任务转化为语言建模问题,ReALM在理解模糊引用和上下文方面甚至超过了GPT-4
这项创新的关键在于使用解析后的屏幕实体及其位置重建屏幕,以生成能够捕捉视觉布局的文本表示。这种方法与专门用于引用解析的语言模型的微调相结合,使ReALM实现了显著的性能提升
https://arxiv.org/pdf/2403.20329.pdf
微软与OpenAI计划斥资1000亿美元打造超级计算机
微软和OpenAI计划建造一台价值高达1000亿美元的超级计算机“星际之门”(Stargate),以快速推进OpenAI的AI模型开发。知情人士透露,该项目将于2028年启动,2030年完成扩展,将成为计算史上最大的投资之一
Stargate的大部分成本将用于采购数百万个专用AI芯片,资金主要来自微软。同时,微软还计划于2026年推出一个规模较小的价值100亿美元的前置项目“第四阶段”。是否继续推进Stargate项目,将在很大程度上取决于OpenAI在AI能力方面取得的显著进步
https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer
OpenAI最新技术仅需15秒即可克隆你的声音
OpenAI最新技术——Voice Engine已经初露端倪,这款AI模型仅需15秒的音频样本和文本输入,即可生成令人惊叹的逼真声音克隆。这项技术能够复制原始说话者的声音,为改进教育材料提供了可能性
尽管该模型具有多种应用,但公司对其可能的滥用保持警惕,尤其是在敏感时期。他们为合作伙伴制定了严格的规则,包括禁止未经授权的冒充行为、对合成声音进行明确标注,以及采取水印和监控等技术措施
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
Cohere推出“企业最强大的LLM”
Cohere宣布推出其迄今为止最强大且可扩展的LLM——Command R+。这款模型专为企业用例设计,拥有几大关键功能:
-
先进的检索增强生成(RAG)功能,能够访问和处理大量信息,提高响应的准确性和可靠性
-
支持十种商业语言,确保在全球组织中的无缝运行
-
通过与各种软件工具的交互实现复杂工作流程的自动化
此外,Command R+在关键指标上表现优于其他可扩展模型,同时以更低的成本提供强大的准确性
该LLM现已通过Cohere的API提供,并可以部署在包括Microsoft Azure和Oracle Cloud Infrastructure在内的各种云平台上
https://txt.cohere.com/command-r-plus-microsoft-azure/
Higgsfield用AI颠覆视频营销
前Snap AI首席Alex Mashrabov推出了名为Higgsfield AI的新创业公司,旨在让创作者和营销人员能够轻松使用AI驱动的视频创作。该公司的首款应用Diffuse允许用户根据文本描述生成原创视频片段,或编辑现有视频以将自己插入场景中
Higgsfield正在与Sora视频生成器竞争,凭借其移动端、用户友好的工具,它的目标受众更为广泛。尽管有关数据使用和滥用可能性的问题仍然存在,但Higgsfield相信,凭借其逼真且易于使用的视频生成功能,它能在社交媒体营销领域开辟一片天地
https://techcrunch.com/2024/04/03/former-snap-ai-chief-launches-higgsfield-to-take-on-openais-sora-video-generator/