昨晚的Google I/O 发布会主要聚焦于AI模型和应用的更新与扩展,特别在生成模型领域取得了显著进步。以下是模型层面内容的简要总结:
DeepMind官网链接:https://deepmind.google/
Google Veo官方:https://deepmind.google/technologies/veo/
Google Gemini官方:https://deepmind.google/technologies/gemini/
详细报道请前往:AI人工智能行业动态,aigc应用领域资讯 (heehel.com)
Gemini模型家族:
Gmini 1.5 Pro:支持高达200万的上下文长度,并在多个关键用例中进行了质量改进,包括翻译、编码和推理。
Gemini Flash:针对高频或特定任务优化的轻量级模型,特别关注模型响应速度,其百万Token的价格较GPT-3.5更低。
模型家族构成:包括Ultra(最大模型)、Pro(最佳总体性能)、Flash(轻量级模型)和Nano(设备上模型)。
视频生成模型Veo:
旨在帮助用户(无论经验水平)创建和编辑视频,为教育和讲故事等场景提供新可能性。
初期功能将通过VideoFX实验工具向选定的创作者开放。
阿斯特拉计划(Project Astra):
基于Gemini模型,旨在探索AI助手的未来。
能够快速处理多模式信息,理解上下文,并以对话速度回答问题。
Gemini Gems:
类似于GPTs的自定义互动方式,允许用户自定义与Gemini的交互。
Gemini Live:
提供了使用声音进行双向深入对话的能力,支持实时视频理解的个人助理应用。
Gemma 2:
6月发布的模型,规模为27B,提供接近Llama-3-70B的性能,但模型尺寸更小。
PaliGemma:
谷歌首个视觉语言开放模型,基于PaLI-3的灵感。
Imagen 3:
图像生成模型,能理解自然语言的提示,生成高质量、逼真的图像,特别是在文本渲染方面表现卓越。
Music AI Sandbox:
旨在彻底改变音乐创作方式的AI工具套件,使用户能够全新创作乐器部分,轻松转换不同风格。
Trillium:
谷歌最新的TPU,相比上一代TPU v5e,每颗芯片的计算性能实现了高达4.7倍的显著提升。
这次发布展示了Google在AI领域的广泛布局和深厚实力,通过一系列模型和应用更新,进一步推动了AI技术的边界,为开发者、创作者和用户提供了更强大的工具和平台。