刚刚,字节版GPTs「扣子」上线了
https://mp.weixin.qq.com/s/efNjbeK8Zul39nLzQuawCg
在持续一年的大模型热潮之后,「智能体」成为了科技公司们新的押注方向之一。近日,字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot,且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。当然,除了可以创建自己的 Chatbot,Coze 官方还提供了 Bots 商店和插件。链接:https://www.coze.cn/
最强开源多模态生成模型MM-Interleaved:首创特征同步器
https://mp.weixin.qq.com/s/-MpwnoqH1_vA3QGHq0M1NQ
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
https://mp.weixin.qq.com/s/WKWD3cBR7X0r57CwS3rvxA
去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。
无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
https://mp.weixin.qq.com/s/7XTonFIy-olDuBPUMqxqZQ
在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。与大模型相比,小模型具有很多优点,比如对算力的要求低、可在端侧运行等。近日,又有一个新的语言模型出现了,即 7.52B 参数 Eagle 7B,来自开源非盈利组织 RWKV,其具有以下特点:
•基于 RWKV-v5 架构构建,该架构的推理成本较低(RWKV 是一个线性 transformer,推理成本降低 10-100 倍以上);
•在 100 多种语言、1.1 万亿 token 上训练而成;
•在多语言基准测试中优于所有的 7B 类模型;
•在英语评测中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
•英语评测中与 MPT-7B (1T) 相当;
•没有注意力的 Transformer。
小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜
https://mp.weixin.qq.com/s/Etl0HUVRdxwsgcM0ErqHjA
最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。
智源研究院院长交接:前快手技术副总裁王仲远加盟,接替黄铁军
https://mp.weixin.qq.com/s/2_a2uFpBKLDtNopr_I-IIQ
智源研究院院长交接班了。前快手技术副总裁王仲远博士接任智源研究院院长,全面负责研究院各项工作。自此,黄铁军将不再兼任院长的身份。去年(2023年)6月,他接任智源研究院理事长,负责领导智源的整体战略布局和创新生态构建。
OpenAI:正在构建一个针对LLM辅助生物威胁创建的早期预警系统
https://x.com/OpenAI/status/1752758698991354317?s=20
我们正在构建一个早期预警系统,用于辅助识别大型语言模型(LLMs)在生物威胁创建方面的能力。目前的模型被证明在这种误用上最多只是轻微有用,我们将继续发展我们未来的评估蓝图。
Codellama-70b在VSCode Copilot上线,在VSCode中直接利用最新模型
https://x.com/dani_avila7/status/1752813610240200924?s=20
终于来了!Codellama-70b 作为 VSCode 中的 Copilot!😱
你现在可以在 Visual Studio Code 中直接利用最先进的代码生成模型,Code Llama 70B 的力量,通过 @perplexity_ai 这个模型在代码编写方面甚至已经超越了 GPT-4,并且现在已经无缝集成到我们的编辑器中🥳
你是否预期会出现更多超越 GPT-4 的开源模型?
OpenArt
https://openart.ai/
OpenArt 是一个为每个人提供 AI 图像生成工具的平台。他们致力于打开 AI 图像生成的黑匣子,让人们可以通过简单的文本提示来实现他们的创意。OpenArt 与其他 AI 图像平台不同,它策划了由世界各地独立开发者构建的应用程序,包括动画 GIF 生成器、草图到图像、RPG 人像制作者、逼真的图像转换器、换脸、AI 漫画店、AI 标志生成器、AI 贴纸生成器等。用户可以免费在 OpenArt 上创建令人惊叹的图像,并且还可以训练自己的自定义模型。
Faith
https://namastefaith.com/
Faith 是一个 AI 提供支持的心灵导师,通过各种宗教和非宗教精神作品的深刻见解来提供指导和智慧。它的目标是为人们提供对各种信仰和观点的理解和指导,无论他们是虔诚的宗教信仰者、休闲的灵性追求者,还是只是对生活中更大的问题感到好奇。 Faith 在宗教层面为用户提供心灵指引。
MobileAgent
https://github.com/X-PLUG/MobileAgent
Mobile-Agent 是一种自主的多模态移动设备 Agent,利用视觉感知工具来准确识别和定位应用程序前端界面中的视觉和文本元素。它能够根据感知到的视觉上下文自主规划和分解复杂的操作任务,并逐步引导移动应用程序完成操作。与以前依赖应用程序的文件或移动系统元数据的解决方案不同,Mobile-Agent 以视觉为中心的方式允许在不同的移动操作环境中具有更大的适应性。
AutoMathText
https://huggingface.co/datasets/math-ai/AutoMathText
AutoMathText 是一个包含 200GB 数学文本数据集的资源,它支持文本生成和问答等任务,适合用于开发和测试能够理解和生成数学相关内容的模型。包含来自不同来源的数据,经过特定的过滤和处理,以适应数学推理、推理训练和微调等多种应用场景。
GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构
https://zhuanlan.zhihu.com/p/669987669?utm_medium=social&utm_oi=56635854684160&utm_psn=1736330574372118528&utm_source=wechat_timeline
本篇文章讨论了GPU在深度学习性能中的三个关键因素:Tensor Core、内存带宽与内存层次结构。Tensor Core对于矩阵乘法运算至关重要,可以大幅提升性能。由于矩阵乘法是深度神经网络中计算量最大的部分,因此这种计算核心显得格外重要。内存带宽的大小直接影响Tensor Core的数据获取速度,进而影响整体性能;而内存层次结构,尤其是二级缓存的大小,决定着训练过程中数据加载的次数。了解这些性能指标有助于选用合适GPU、优化深度学习应用的运行效率。