1 3天把Llamaill成Mamba, 性能不降,推理更快!
新智元 丨阅读原文
康奈尔和普林斯顿的研究人员成功将大型Transformer模型Llama提炼成Mamba模型,并设计了新的推测解码算法,显著提高了模型的推理速度。研究团队采用了渐进式蒸馏、监督微调和定向偏好优化等方法,将zephyr-7B、Llama-38B转化为线性RNN模型,性能与从头开始训练的Mamba模型相当,且训练过程仅使用了20B的token。
2 阿里大模型被Github一度404,负责人紧急回应:没跑路,平台故障误伤
量子位丨阅读原文
近日,阿里Qwen的GitHub页面出现404错误,引发开发者关注。负责人林俊肠回应称,问题为平台故障,并非团队问题。此次事件意外提高了Qwen國队的知名度。阿里Qwen2-VL多模态模型在视觉理解基准 上取得新SOTA,支持多种功能,如图像和视频理解、多语言支持等。尽管在医生处方测试中未能成功,但整体表现受到好评。Qwen國队计划发布更大的72B模型,并利用阿里魔搭开放平台进行宣传。
3 大模型走向物理世界,,TeleAl 发布大模型驱动的具身智能综述,覆盖300篇文献
机器之心 |阅读原文
TeleAl 发布的综述 《大模型驱动的具身智能:发展与挑战》 深入分析了大模型与具身智能结合的前沿技术,探讨了其在感知、规划、策略、奖动函效和数据生成方面的应用。综述通过300篇文献的分类解读,揭示了大模型在提升机器人智能水平和推动人工智能技术进入物理世界的潜力,同时指出了该领域面临的挑战和未来的研究方向。
4 腾讯云升级Al全家桶,混元对标 GPT-40
极客公园 |阅读原文
在2024腾讯全球数字生态大会上,腾讯云宣布了一系列A1领域的进展。发布了性能显著提升的新一代大模型“混元Turbo”,并推出了A基础设施品牌“腾讯云智算”和RAG解決方案,以支持企业定制Al大模型应用。腾讯集囫高级执行副总栽汤道生提出了企业应对“内卷式竞争”的三个增长方向:以数提效、顺势而为、扬帆出海。
对此,你怎么看?
详情查看参与互动赢蚂蚁周边
支付宝开放平台-开发者社区
「AGI 之路」 内容库
欢迎你的投稿!戳我进群
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。