1. OpenAI发布GPT4o,能实时语音视频交互
今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。
性能方面,GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,同时API的速度比GPT-turbo快2倍,价格便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。
在Demo展示中,GPT4o能够与用户进行自然地对话。OpenAI CEO Sam Altman还在推特上提到了电影《Her》中的女性语音助手,暗示了GPT4o的进化方向。
GPT-4的文本和图像功能将开始在ChatGPT中推出,并且将在免费套餐中提供GPT-4o,并为Plus用户提供高达5倍的消息限制。未来几周内ChatGPT Plus中将推出带有GPT-4o的语音模式新版本。开发者现在也可以通过API访问GPT-4o作为文本和视觉模型。
https://openai.com/index/hello-gpt-4o/
2. 2人AI团队被收购,一半代码由GPT4编写
欧洲生成式AI企业Freepik宣布收购AI图像生成团队Magnific。Freepik致力于开发GenAI工具,帮助用户更快地创建出色的设计。Magnific团队则开发了一款AI图像放大、增强和风格转换的产品,大幅提高了图像质量和分辨率,同时还允许用户通过创建新细节来调整图像,除了用于个人用户,还可用于广告制作、视频游戏、室内设计和动画电影制作等领域。
Magnific由西班牙的两位开发者在五个月前推出,显著提高了用户的工作效率,可以在几秒钟内进行图像增强,其实时增强能力比竞争对手快得多——以前在Adobe Photoshop中需要几天才能实现的效果,现在可以在几秒钟内完成。此外,借助Magnific的全新风格转换功能,用户现在可以转换任何图像,控制转换的风格和结构完整性。
Magnific的两位创始人Javi和Emilio从头开始使用AI构建了该工具,其中一半代码由GPT4辅助编写,并且在推出后的24小时内就有超过 30000 人注册加入等待名单,现在注册用户超过725000 名,在X平台上实现了爆炸式的产品增长。Freepik声称拥有600名员工,70万活跃的订阅用户,每天生成100万张人工智能图像。
通过这次收购,Freepik将通过Magnific的一流AI技术丰富其AI产品,不过,收购后的Magnific将继续作为一个独立的子公司运营。
https://magnific.ai/
https://www.freepikcompany.com/newsroom/freepik-magnific/
3. 3款不同的AI搜索引擎
AI搜索引擎之战已经打响,除了OpenAI即将上线ChatGPT搜索,不少新贵欲要挑战传统搜索厂商。
不同于传统搜索,AI搜索就像是用户拥有一个智能助手,可以破译用户查询的潜在意图和上下文,从而提供更加个性化和精确的结果。形式上,相比后者只提供内容链接列表,AI搜索引擎提供的是更为直接且相关的答案。
Perplexity(http://perplexity.ai/)是AI搜索引擎领域的当红炸子鸡。它可以针对用户提出的任何问题给出有用的答案摘要,让你可以专注于内容本身,而不是筛选数十个链接试图来找出可能有用的内容,从而节省时间。
定价:基础能力免费,对大部分搜索需求足够了。每月20美元的订阅可以获得额外的四项好处,包括更强大的Copliot模式和访问更强大的AI模型。
Dexa(http://dexa.ai/)专注于播客内容的搜索,这对想搜索播客上特定内容的用户非常有用。
为了响应任何查询,Dexa会识别几个相关的播客剧集,并链接到你所查询内容的相关的精确时刻,从而很快观看或收听原始内容,或阅读摘要。这对于寻找与自我提升或技术相关的主题的见解很有用。目前,每月有50000人访问Dexa,该公司刚刚获得了600万美元的融资。
平台和定价:适用于任何设备。暂时免费。
P.S.:Listen Notes(https://www.listennotes.com/)网站对于搜索数百万播客剧集非常有用,它的搜索内容比Dexa的更全面,但结果的呈现方式对用户并不那么友好。
Arc Search(https://arc.net/blog/arc-search)可以用AI来浏览大量与用户输入的查询相关的网站。你可以在简洁的页面上立即获得其输出结果的摘要。该应用列出了源网址,以便更深入地了解内容。如果你点击进入某个网站,Arc会阻止其cookie、跟踪工具和广告。
相比Google这样的传统搜索引擎,Arc Search更适合寻找潜在的的旅行活动或其他量身定制的建议,它从多个来源汇总了主要建议,从而产生了更强有力的响应。除了摘要之外,Arc Search还允许用户访问想深入了解的内容链接,就像在Google上搜索内容那样。
平台和定价:目前仅适用于iOS。免费。
https://wondertools.substack.com/p/the-best-new-ai-search
4.生成式AI产品构建的思考
过去的六个月里,LinkedIn团队一直在努力开发新的AI产品体验。他们正在重新构想会员如何进行求职和浏览专业内容。
生成式人工智能的爆炸式增长让他们开始思考,与一年前相比,现在可以实现的可能性有多大。他们尝试了很多想法,但都没有真正被采纳,最终发现将每个信息源和职位发布转化为以下产品想法:
更快地获取信息,例如从帖子中获取要点或了解公司的最新动态。
将这些要点联系起来,例如评估你是否适合某个职位。
接受建议,例如改善个人资料或准备面试。
比如,当会员浏览LinkedIn信息流,偶然发现了一篇关于设计中的可访问性的有趣帖子。除了这篇文章之外,你还会遇到一些入门问题,以便更深入地研究该主题。你很好奇,然后点击“科技公司的可访问性推动商业价值的一些例子是什么?”
这些产品思路中的大部分由于大型语言模型 (LLM) 的出现而成为可能。这是Linkedin系统后台发生的事情:
选择合适的智能体:系统在收到这个问题后会决定哪个AI智能体最适合处理它。在这种情况下,它会识别你对科技公司内部可访问性的兴趣,并将你的查询路由到专门从事一般知识搜索问题的AI智能体。
收集信息:是时候进行一些跑腿工作了。AI智能体调用内部API和Bing浏览器的组合,搜索具体示例和案例研究,突出设计的可访问性如何为技术领域的商业价值做出贡献(他们正在创建一份档案来支持系统的响应)。
制定回复:有了必要的信息,AI客服现在可以撰写回复。它将数据过滤并合成为连贯、信息丰富的答案,为你提供清晰的示例,说明可访问性计划如何为科技公司带来商业价值。为了避免生成文本墙并使体验更具交互性,系统会调用内部API来使用文章链接或帖子中提到的人员简介等附件来完善响应。
你可能会接着问“我如何转行到这个领域?”系统会重复这个过程,但现在会将你路由到职业和工作AI智能体。只需点击几下,你就可以深入研究任何主题,获得可行的见解或找到下一个重大的职业机会。
https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product
5. AlphaFold 3预测所有生命分子的结构和相互作用
AlphaFold 3 是Deepmind发布的一个极具突破性的大模型,可以高精度预测所有生命分子的结构和相互作用,帮助科学家了解生物过程并加速药物发现。AlphaFold Server是一款免费工具,全世界的研究人员都可以轻松访问其功能。该模型的预测能力超越了现有系统,并有可能彻底改变科学研究。
从技术角度看,有意思的是,AlphaFold 3使用Diffusion网络来完成预测,类似于AI图像生成中使用的模型。扩散过程从原子云开始,经过许多步骤汇聚成最终的、最准确的分子结构。
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model
6. 其他最新应用
生成式AI进入CRISPR基因编辑领域
伯克利初创公司Profluence开发了一种新的人工智能系统,通过分析大量生物数据,包括现有的基于CRISPR的机制,Profluence的技术可以生成全新的基因编辑器,可能比当前模型更有效、更精确。
这些创新体现在该公司的第一个开源的AI生成工具OpenCRISPR-1上,允许各个领域免费研究和开发。这一突破可以为遗传疾病提供更有针对性的治疗方法并提高医学研究生产力。
Moderna和OpenAI合作加速开发挽救生命的治疗方法
Moderna与OpenAI合作,将ChatGPT Enterprise技术集成到公司运营中,旨在提高效率和促进创新。此次合作使数千名Moderna员工能够开发定制的 GPT,以适应各种业务需求,从而加速决策过程并优化工作流程,其应用涵盖从法律事务到制造和研究的各个领域。
Moderna正利用GPT开发mRNA药物的平台,在未来5年内将多达15种新产品推向市场——从RSV疫苗到个体化癌症治疗。目前,基于OpenAI的API构建的内部AI聊天机器人mChat的初始部署达到了超过80%的采用率。mChat帮助提高了Moderna在临床试验、合规性和企业沟通方面的数据分析能力。
Udio,打造音乐领域的ChatGPT
人工智能音乐生成器 Suno 火爆几周后,一个新的竞争对手 Udio 出现了。一些早期用户表示,平均而言,Udio的输出可能比Suno的输出更清脆,并且声音模糊性更小。
OpenAI与Stack Overflow合作,让模型更擅长编码
OpenAI宣布与Stack Overflow合作,提高其模型处理编程相关任务的能力。
GitHub发布Copilot Workspace,以提供构建软件的全新方式
Copilot Workspace是一个AI驱动的开发环境,旨在减少开发人员在代码入门和协作方面的摩擦,允许开发者使用自然语言来测试和调试代码。
Amazon Q企业AI聊天机器人已全面推出
Amazon Q是AWS推出的以工作为中心的生成式AI助手,现已全面上市。Q对标的是Microsoft Copilot,很像OpenAI的ChatGPT。它以对话形式工作,并为企业用户提供他们工作所需的答案。
Adobe Photoshop功能更新
Adobe Photoshop最新引入了新的应用内图像生成器、增强的生成填充功能以及其他用于优化照片编辑能力的新功能。
7. 方法论
产品驱动增长(PLG)成功的3个基本要素
为什么以用户为中心不足以获胜?令人惊讶的是,在B2B PLG工作的产品和增长团队过度关注用户的情况很常见。这种偏见本身并不是一件坏事,在传统销售主导方法的背景下,不懈地专注于为最终用户提供服务确实能在PLG中取得成功,不过,这种方法优先考虑为买家服务。一般可以分为三类:
产品主导的增长要求为最终用户提供出色的服务;
以销售为主导的增长需要为买家提供出色的服务;
以产品为主导的销售需要弥合差距,为买家和用户提供出色的服务。
这个分类虽然有用,但这是一维视角。它忽略了B2B中的一个关键动态:服务对象是一个团队。
最成功的B2B PLG公司拥有三个基本要素:
一个能有效解决更高价值问题的产品;
及时向正确的人有效传达产品价值的能力;
有效减少高价值采纳障碍的能力。
为了使这些要素良好运作,你必须超越仅仅为用户提供卓越服务的范畴。你需要将团队和账户级别的思考融入到你所做的一切中,从定价策略、信息传递、用户引导和新用户体验,到如何分析产品使用数据、如何定义指标、产品状态模型,到如何接近产品驱动销售等更多方面。
来源:
Udio:https://www.udio.com/
Profluence:https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html
Moderna:https://openai.com/customer-stories/moderna
OpenAI与StackOverflow合作:https://stackoverflow.co/company/press/archive/openai-partnership
Copilot workspace:https://github.blog/2024-04-29-github-copilot-workspace/
Amazon Q:https://venturebeat.com/ai/amazon-q-enterprise-ai-chatbot-is-now-generally-available/
Adobe Photoshop:https://www.zdnet.com/article/the-new-and-improved-adobe-photoshop-gets-an-in-app-image-generator-major-generative-fill-upgrades/
PLG:https://www.plg.news/p/plg-the-user-isnt-enough?utm_source=%2Finbox&utm_medium=reader2
【OneDiff v1.0发布(生产环境稳定加速SD&SVD)】本次更新包含以下亮点,欢迎体验新版本:github.com/siliconflow/onediff
OneDiff质量评估
重复利用编译图
改进对Playground v2.5的支持
支持ComfyUI-AnimateDiff-Evolved
支持ComfyUI_IPAdapter_plus
支持Stable Cascade
提高了VAE的性能
为OneDiff企业版提供了量化工具
(SDXL E2E Time)
(SVD E2E Time)
(OneDiff Demo)
其他人都在看
800+页免费“大模型”电子书
LLaMA 3:大模型之战的新序幕
Stable Diffusion XL优化终极指南
LLM推理入门指南③:剖析模型性能
OneDiff 1.0发布!稳定加速SD/SVD模型