OpenAI 最大的对手 Anthropic ,深夜发布了他们迄今为止最智能的模型:Claude 3.5 Sonnet。
这俩家公司的竞争愈演愈烈,Anthropic 声称新 Claude AI 超越了 GPT-4o。
通过 Anthropic 发布的测试报告来看,新模型在推理、知识储备、代码、数学的方面都超越了竞争对手的模型,并且新发布的模型速度是 Claude 3 Opus 的两倍,成本只有其五分之一。
非常惊艳的功能:Artifacts
除了各个任务上的评估指标表现更好,最让我感觉到惊艳的是 Artifacts 能力。
开启 Artifacts 后,Claude 会为你开辟一个新的空间,你在左边和 AI 对话交互,右侧就能实时的去根据你的反馈生成文档、代码、 SVG 、游戏等等。
这是一种新的交互方式,打破了之前聊天式对话你来我往的模式。你可以随时查看 AI 创作的东西,并且不断快速、效率的进行迭代。
① 能力展示:边聊天边做游戏
看一下放出的官方视频:首先让 Claude 绘制了一个像素风格的螃蟹 SVG ,随后让他模仿这种风格画一些贝壳、云彩。
然后基于刚刚 Claude 生成的螃蟹、云彩、贝壳等,做了一个一个简单的 HTML5 游戏,通过一些基本的动画让他们动了起来、可玩了起来。
② 能力展示:解释图表、图形或从不完美的图像中转录文本
该模型可以准确地从不完美的图像中提取文本 - 这是零售、物流和金融领域经常会用到的能力。现在 AI 可以从图像、图形或插图中获取更多的见解了。
可以看上演示视频,给 AI 两张图,一张是关于人类基因组测序里程碑的时间轴图表,另外一个是时间和测序成本的图表。
因为这两张表都是时序的,有时间维度和另外的指标维度,是结构化信息的图形化展示。现在使用 AI 就能提取这种不完美图片中数据,并且转化成 JSON。
随后让 AI 将两个图表合并,做成一个可以交互的图表,当你的鼠标悬停到某一个时间点,就能看到这个时间点汇聚的两张表中的信息。
③ 能力展示:推理能力、复杂指令
如下视频展示了让 Claude 写一篇好玩有趣的小说,并使用流程图把小说中的人物关系画出来,而且还能基于小说的内容进行各种推理和模拟。
Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 表现优秀。它在理解细微差别、幽默和复杂指令方面有显著的进步,同时还能以自然的语气写作。
推荐阅读
1. GitHub 上有什么好玩的项目?
2. 推荐 5 个本周很火的 GitHub 项目
3. 推荐 5 个近期火火火的 GitHub 项目
4. 推荐 5 个令人惊艳的 GitHub 项目