每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
我们很高兴介绍Grok-1.5V,这是我们的首款多模态模型。除了强大的文本处理能力外,Grok现在还能处理各种视觉信息,包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。
能力介绍
Grok-1.5V在多个领域与现有的前沿多模态模型相媲美,这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中,Grok在真实世界空间理解方面表现优于同类,该基准测试衡量真实世界的空间理解能力。在所有数据集中,我们都在零样本设置中评估Grok,不使用思维链提示。
基准对比
真实世界理解
为了开发有用的真实世界AI助手,推进模型对物理世界的理解至关重要。为此,我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易,但它们常常对前沿模型构成挑战。下载试验数据集:https://data.x.ai/realworldqa.zip
根据流程图生成代码
未来展望
推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月,我们预计将在图像、音频和视频等各种模式上,显著提高这些能力。