大模型+影像:智能手机“上春山”

250f7f37d8cbf31199e0577e0aecf99d.jpeg

这个春节假期,一首《上春山》火了。吃瓜群众热热闹闹学了一个假期的“春山学”,了解了抢占C位的各种技巧。

假期过去,开工大吉,手机行业开始抢占今年的C位。那么问题来了,今年智能手机最大的机会点在哪里?答案呼之欲出,当然是AI大模型。去年下半年,手机厂商陆续推出端侧大模型。春节刚过,OPPO发布了全新的AI战略,宣布进入AI时代。魅族宣布不再生产“传统智能机”,全面拥抱AI时代。显然,大模型就是手机行业的那座“春山”。

但根据“春山学”相关知识,跟着大家一起上山是不够的,必须更上一层才能稳站C位。在大模型+手机的众多结合点中,有一项能力是C位中的C位,妥妥的“真·春山无双”——大模型+手机影像。

ce245db1dd2eab8921b5701597c39d7e.png

据说在这个春节,一线城市的写真店纷纷转变了商业模式。原本大家都是去拍写真,店家负责拍摄和修图。现在都是去拍AIGC照片,店家摇身一变为AI提示工程师,用各种AIGC平台来实现用户种种匪夷所思的需求。

回来对比照片,也不是比你这张光打得不错,你这张P得更自然,而是你这张照片用的什么提示词,你这张一看就模型泛化性比较强……

bec4c5d7be89b1e7136c4173d0855b69.png

总之,AI之风正经由照相馆、写真店、小程序、APP,强烈地吹拂着我们的影像生活。

但是问题来了,这些强烈的AIGC影像需求,真的必须去线下店才能完成吗?为什么不能在手机端一键搞定?最近手机新品动辄搭载几十亿参数的端侧大模型,它们闲着干嘛呢?

事实上,手机里的大模型肯定是闲不住的。目前拥抱AI大模型的手机,基本情况是大模型是大模型,影像是影像,但这种分裂局面必然会很快得到改变。

“大模型与移动影像”的融合赛道,是2024年智能手机行业最为清晰的风口,也是手机厂商急切想要上,也必须上了就不能下来的,具有战略意义的那座“春山”。

大模型+手机影像,这座春山怎么上?我们来弄清其中的“春山学”问题吧。

六年之后

AI影像再上山

b3b7d55fc7c2cab0724c1f68436cb998.png

首先我们需要明确一点,那就是AI+影像绝不是什么新鲜事物,甚至很多人都已经习惯了AI与影像的结合。

这个概念开始受到业界重视,是早在2018年的时候。那一年4月,华为发布了P20手机。这款手机利用麒麟芯片的NPU端侧算力,首次在拍照中搭载了AI功能,能够识别包括宠物、人像、风景、美食等19种场景,覆盖500多个识别目标。在AI识别这些目标物后,会自动调整摄影模式和参数设置。

随后,这种AI摄影模式一度爆火,成为当时最具热度的手机技术升级,并且逐渐为全行业所接受。随着几年发展,AI影像变得越来越复杂,可识别物越来越多,并且加入了动态抓取、去除反光等AI能力,还与此后流行的计算摄影概念结合,成为手机影像系统中的基础能力之一。

但到这个层面,AI摄影的能力依旧有显著的局限性。它对图片的作用集中于“美化”,而不是“修改”和“生成”。我们也探访过一些AI摄影相关赛道的开发者,他们很希望能够利用手机的AI能力做出更具创意的应用,但端侧算力和模型能力是主要的限制。

523ac53f4f19d7c9c9bd205821b12474.png

而伴随着AI大模型的爆火,模型能力的关隘被突破了。在大模型的加持下,用户可以对影像系统提出复杂的指令,影像系统也能够更完整理解用户交互逻辑与意图指向。在能力上,大模型可以帮助完成高精度的图像元素替换,甚至加入AI生成的影像。

或许可以这样说,最初用户听闻AI影像概念的时候,脑海中设想的影像能力,其实是在今天才有可能实现的大模型影像。

伴随着大模型能力落地手机,AI影像终于可以完成关键一跃,实现那些早就许下的诺言。

大模型,就是AI影像的必须上的那座山。

8144847872d918e534682f9c54983bdc.png

春山上,风景如何?

春节还没过去,世界就感受到了来自Sora的视觉震撼。AI行业有句话,叫语言模型为打榜,视觉模型能赚钱。机器视觉能力是让用户感受到AI魅力最快速也最有效的方案。

长期以来,手机影像可谓一卷再卷,卷无可卷,但用户始终能做的只是拍摄图片。AI大模型能力的加入,可以让用户获得无门槛修改图片,以及将AIGC影像与手机拍摄影像结合的能力。AI大模型+手机AI计算能力+手机影像系统的组合,极大拓展了手机影像的边界,既继承了手机厂商多年来的技术与供应链布局,同时还获得了新的增长空间。

目前阶段,这条赛道已经迅速铺开。比如三星就通过图片助手功能,让用户实现了移动图片中目标,自动填充空缺,生成新图片的能力,从而让手机影像具备更大的构图自由。

6633f7dd2e4a35321f05964a9df21584.png

而OPPO Find X7系列则实现了通过AI大模型来提供AIGC消除功能。就像我们最近在广告里看到的那样,用户可以把春节聚会时不想看到的人从合影中消除,同时依靠AIGC补齐背景。目前,Find X7已经可以支持最多6个主体单独提取。除此之外,OPPO还更新了AI超清合影功能,可以智能识别并增强合影中人脸的清晰度。

26b79d4bb18cb0ddd01094c6255498dd.png

可以预见的是,接下来我们会看到大量基于AI大模型实现的影像功能,比如AI抠图,AI替换,AI扩图等。整体而言,大模型+手机影像会呈现三大发展趋势:

1.AIGC内容与拍摄内容结合。AIGC的文生图平台,在过去一年快速赢得了用户青睐,将这种能力与手机本身影像能力融合,是AI手机赛道上最关键的争夺战。

2.AI能力从应用侧上移,与手机本身的影像系统结合。目前,AI大模型带来的视觉能力,更多还是单独的软件应用。接下来,手机厂商会将这些能力上移到系统侧,成为产品本身的差异化卖点。

3.手机影像能力可以OTA。AI大模型的加入,一定程度上让手机自身的影像能力成为可升级,可迭代的软件。让手机自身的系统级能力也可以持续更新,持续运营,是AI大模型带给手机的一种新变化。

总体来看,大模型与手机影像的结合,有着非常充沛的创意发挥空间,有源源不断的可能性。想要抓住这个机会,客观上将带来手机厂商之间新一轮的技术竞赛。

6ff7db2f2b22489e609fe0b23746ea92.png

那座山

就是下一个战略高地

目前阶段,还没有厂商将“大模型+影像”这个概念旗帜鲜明地提出来,但这个概念以各种不同的名称落地,应该已经为期不远。

需要注意的是,在端侧部署大模型,以及发展出一些创意性的AI影像玩法都很容易,但要将AI大模型+影像真正发展为长期赛道,构成品牌的用户心智支点,那还需要厂商投入巨大的精力,来展开一场全新的智能手机行业竞赛。

其原因在于,大模型+手机影像是一场名副其实的综合考验。它需要硬件侧的算力配合,需要影像系统的支撑,同时也需要模型侧的算法加持,更需要应用开发创意以及AIGC专属的视觉审美。从务实到务虚,从底层硬件到顶层应用,大模型+手机影像的竞赛近乎覆盖了手机行业的每个层级。

3ecd97b15c3d7767a3a13e66250c2584.png

而重点来看,抢占大模型+影像的战略高地,需要手机厂商在三个方面集结重兵:

1.AI基础设施更新。这个基础设施包括了AI算力与AI算法两个部分。涉及芯片能力,端云协同能力,以及基础算法能力。手机的AI基础设施更新需求,也将带动产业链展开新一轮洗牌。

2.AI应用的准确把握。AI大模型能够手机影像带来的可能性不是太少,而是太多了。如何在有限的算力条件下,给用户最准确,最吸引人的AI影像应用,将成为手机厂商面对的头一道考题。

3.AI审美能力的建设。最近很多人注意到Sora团队有专门的艺术人才加入。艺术与审美能力在AIGC时代非常重要。随着产业发展,算法能力会趋同,审美能力的差异化则会暴露出来。手机厂商过去更重视的是设计能力,这与艺术表达、审美判断等能力是存在一定差异的。构建属于AI手机的新审美能力,是一项全新的赛事。

最后,说一个有点反常识的判断:大模型+手机影像这座“春山”,其实还是很容易上的。其门槛远没有手机厂商宣传得那么夸张,但如果你最近用心学习了“春山学”教材,就会知道真正困难的不是上山,而是赖在山上不下来。

如何把大模型+手机影像从一个年度噱头,变成可以多年发展的长期赛道,甚至变成改写产业格局的锚点,那才是真正的考验。

不过好消息是,有春山可上至少证明了一件事:包裹手机行业的坚冰正在技术暖风的吹拂下开裂、消融。能否就此别冬入春,选择权在从业者手中。

66b72d11d38cf32b9b91f72c19d9a723.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/405829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud(16)之SpringCloud OpenFeign和Ribbon

一、Spring Cloud OpenFeign介绍 Feign [feɪn] 译文 伪装。Feign是一个轻量级的Http封装工具对象,大大简化了Http请求,它的使用方法 是定义一个接口,然后在上面添加注解。不需要拼接URL、参数等操作。项目主页:GitHub - OpenFeign/feign: Feign makes w…

leetcode刷题日志-98.验证二叉搜索树

思路:根据二叉搜索树的性质,中序遍历满足升序。那么我们就可以使用中序dfs,并且记录每个节点的前一个节点的值,如果前一个节点值比后一个大,返回false。 class Solution {Integer pre null; //记录前序节点boolean …

[NCTF2019]True XML cookbook --不会编程的崽

题目的提示很明显了&#xff0c;就是xxe攻击&#xff0c;直接抓包。 <?xml version "1.0"?> <!DOCTYPE ANY [ <!ENTITY xxe SYSTEM "file:///etc/passwd" > ]> <user><username> &xxe; </username><passwor…

如何将新标注的三元组数据转换成unicoqe可以处理的格式

目录 问题描述&#xff1a; 问题解决&#xff1a; 问题描述&#xff1a; 原始的标注的三元组格式如下&#xff1a; 需要转换的格式如下&#xff1a; tips:有一个小的难点&#xff1a; 1. 针对多三元组的情况&#xff0c;需要额外考虑 2. 最后一个样本&#xff0c;也记得需要…

python程序设计基础:字符串与正则表达式

第四章&#xff1a;字符串与正则表达式 4.1字符串 最早的字符串编码是美国标准信息交换码ASCII&#xff0c;仅对10个数字、26个大写英文字母、26个小写英文字母及一些其他符号进行了编码。ASCII码采用1个字节来对字符进行编码&#xff0c;最多只能表示256个符号。 随着信息技…

SpringBoot和SpringCloud的区别,使用微服务的好处和缺点

SpringBoot是一个用于快速开发单个Spring应用程序的框架&#xff0c;通过提供默认配置和约定大于配置的方式&#xff0c;快速搭建基于Spring的应用。让程序员更专注于业务逻辑的编写&#xff0c;不需要过多关注配置细节。可以看成是一种快速搭建房子的工具包&#xff0c;不用从…

2023年12月CCF-GESP编程能力等级认证C++编程三级真题解析

一、单选题(共15题,共30分) 第1题 下面C++数组的定义中,会丢失数据的是( )。 A:char dict_key[] = {‘p’,‘t’,‘o’}; B:int dict_value[] = {33,22,11}; C:char dict_name[]={‘chen’,‘wang’,‘zhou’}; D:float dict_value[]={3,2,1}; 答案:C 第2题 在下…

通过北辰以太网模块BCnet-FX实现与FX3U系列PLC进行以太网通信的具体方法

通过北辰以太网模块BCnet-FX实现与FX3U系列PLC进行以太网通信的具体方法 首先,在电脑的网络和Internet设置中,找到自己当前使用的网卡,如下图所示,设置该网卡的IP地址和子网掩码,(和想要连接的FX3U PLC设置在同一网段即可), 如下图所示,点击下方的连接目标,然后双击当…

Java学习笔记2024/2/23

今日内容 多态 包 final 权限修饰符 代码块 教学目标 能够说出使用多态的前提条件理解多态的向上转型理解多态的向下转型能够知道多态的使用场景包的作用public和private权限修饰符的作用描述final修饰的类的特点描述final修饰的方法的特点描述final修饰的变量的特点 第…

QEMU之CPU虚拟化

概述 KVM是由以色列初创公司Qumranet在CPU推出硬件虚拟化之后开发的一个基于内核的虚拟机监控器。 KVM是一个虚拟化的统称方案&#xff0c;除了x86外&#xff0c;ARM等其他架构也有自己的方案&#xff0c;所以KVM的主体代码位于内核树virt/kvm目录下面&#xff0c;表示所有CP…

音频常用测试参数(一)

一、总谐波失真&#xff08;THDN&#xff09; 总谐波失真指音频信号源通过功率放大器时&#xff0c;由于非线性元件所引起的输出信号比输入信号多出的额外谐波成份。谐波失真是由于系统不是完全线性造成的&#xff0c;我们用新增加总谐波成份的均方根与原来信号有效值的百分比来…

【更新】ARCGIS之成片区开发方案报备坐标txt格式批量导出工具(定制开发版)

序言 之前开发的成片区开发方案报备格式是按湖北省的标准定制的&#xff0c;目前&#xff0c;自然资源部又有了新的格式要求&#xff0c;现在新增国标版的成片区开发方案报备格式导出。 之前版本软件详见&#xff1a;软件介绍 一、软件简介 本软件是基于arcgis二次开发的工具&…

如何避免软件测试的遗漏或重复?

在实际软件测试中&#xff0c;经常遇到遗漏测试点&#xff0c;测试不充分&#xff1b;或者重复测试&#xff0c;造成资源浪费的情况。因此如何避免软件测试遗漏或重复&#xff0c;非常重要。 1、实施过程 首先&#xff0c;通过梳理某个领域的相关项目&#xff0c;分析相关业务规…

第九届大数据与计算国际会议 (ICBDC 2024) 即将召开!

2024年第九届大数据与计算国际会议&#xff08;ICBDC 2024&#xff09;将于2024年5月24至26日在泰国曼谷举行。本次会议由朱拉隆功大学工程学院工业工程系主办。ICBDC 2024的宗旨是展示大数据和计算主题相关科学家的最新研究和成果&#xff0c;为来自不同地区的专家代表们提供一…

TSL四次握手

HTTPS 常用的密钥交换算法有两种&#xff0c;分别是 RSA 和 ECDHE 算法。 其中&#xff0c;RSA 是比较传统的密钥交换算法&#xff0c;它不具备前向安全的性质&#xff0c;因此现在很少服务器使用的。而 ECDHE 算法具有前向安全&#xff0c;所以被广泛使用。 1. ECDHE算法 1.…

台式电脑电源功率越大越费电吗?装机选购多少W电源

要组装一台电脑&#xff0c;我们首先需要选择硬件。 硬件搭配最关键的一点就是CPU和主板的兼容性。 硬件、电源等之间的平衡都需要仔细考虑。 那么台式电脑电源多大功率合适呢&#xff1f; 下面分享组装电脑电源瓦数选购指南&#xff0c;教您正确选择合适的电源瓦数。 让我们来…

备战蓝桥杯————双指针技巧巧解数组1

利用双指针技巧来解决七道与数组相关的题目。 两数之和 II - 输入有序数组&#xff1a; 给定一个按升序排列的数组&#xff0c;找到两个数使它们的和等于目标值。可以使用双指针技巧&#xff0c;在数组两端设置左右指针&#xff0c;根据两数之和与目标值的大小关系移动指针。 …

C++的queue容器->基本概念、常用接口

#include<iostream> using namespace std; #include <queue> #include <string> //队列 queue class Person { public: Person(string name, int age) { this->m_Name name; this->m_Age age; } string m_Name; int…

基于Tomcat+MySQL+JAVA开发的酒店管理信息系统(无须Eclipse直接可在Tomcat中运行)

基于TomcatMySQLJAVA开发的酒店管理信息系统 项目介绍&#x1f481;&#x1f3fb; 介绍思路 1 《酒店管理系统》 资源目录介绍 2 安装配置 1&#xff09;前期准备 a、安装好MySQL数据库&#xff0c;用户名root&#xff0c;密码root b、安装配置java环境&#xff08;JDK1.7&…

【Docker 的安装:centos】

文章目录 1 :peach:各版本平台支持情况:peach:2 :peach:CentOS 安装:peach:2.1 :apple:安装依赖:apple:2.2 :apple:安装 Docker:apple:2.3 :apple:实战经验:apple:2.3.1 :lemon:Docker 镜像源修改:lemon:2.3.2 :lemon:Docker 目录修改:lemon: 1 &#x1f351;各版本平台支持情况…