黑8说
月黑风高,乌云密布,树木低垂,黯淡沉闷。这黎明前的风暴,预示着新时代的变革即将到来。 在一个8线小城市的办公室中
黑8对主任说: 世界上有男人、女人、人妖,米国有1/3男,2/3女…,以后会增加一个非常重要的人种,他就像孙悟空拔毫毛,变化出拥有各种本事的自己。如果咱们不懂驾驭他,做他的师傅,咱们可就被统治了。
革委会梁主任好奇的问: 这是什么妖怪啊?
黑8郑重的说: 人工智能大模型
主任不屑的说: 哪有那么夸张,离咱们远了去了,你小子是不是疯了,危言耸听,自以为是。
黑8顺着主任说: 梁主任啊,这妖怪来头还不小呢,正以一日千里的速度赶来。咱们非常有必要提升对他的了解和认知。您知道吗?他比咱们看的真,听的细,想的快,说的准,未来他能让机器人不知疲倦的用双手、双脚进行精细劳作,简直就是要把我们替了。他可不同于智能手机、电脑的应用功能,还有siri、小度、小艺什么的,这些都太Low了。他才是真正的“超人”
主任质问到: 这么牛,不能落地不还是等于0吗?
黑8认真的说: 能落地啊,主任您要是不信,今天我立个Flag,做不到我请您吃大餐,您看行吗?
主任着急的问: 你倒是说说他能干什么呀?
黑8这下可来了劲头,心有成竹的说: 您看啊,我老婆是老师,经常收文后写摘要通知,我让大模型替她写了。
我儿子学翻译,让他记录难点和错题,我让大模型以听、说、读、写的方式,使他强化学习,直至掌握。
我女儿爱跳舞、画画,让她指出主题、音乐和动作类型,我让大模型给她编舞;让她指出主题、线条、色彩,我让大模型给她画画。
我一哥们是搞开发的,我让大模型给他出产品PPT、技术方案、架构设计、前后端代码和测试用例,一条龙,流水线完成。
还能做医生、老师、律师、会计师、画家、作家、心理医生等等,很多很多,先做这些案例,您看怎么样?
梁主任“哼”了一声,将信将疑,心里盘算,说的这么悬,看来我真得了解一下,这也是我们革委会的使命啊。正当梁主任转身刚要走时。
被黑8叫住: 主任,您看我这有篇文章,您可以先了解了解。黑8是多聪明的人,一眼就看出主任的心思。
主任会心的笑了,心想: 黑8就是黑8,你个棒槌。
之后,可想而知,梁主任确实认真看了这篇文章。收获很大,为之一振,从心里认识到,他真不是什么妖怪,确实是个【新新人类】
OpenAI 首席科学家 Ilya Sutskever 说过:
数字神经网络和人脑的生物神经网络,在数学原理上是一样的
1.AI是什么
AI(人工智能)是指通过计算机系统模拟、复制和执行人类智能行为的技术和方法。
AI的实现方式包括机器学习、深度学习、自然语言处理、计算机视觉等技术。
AI在各个领域,包括医疗、金融、制造、交通等,都有着广泛的应用,并对社会和经济产生深远的影响。
2.大模型能干什么
大模型,全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。
国家 | 对话产品 | 大模型 | 链接 |
---|---|---|---|
美国 | OpenAI ChatGPT | GPT-3.5、GPT-4 | https://chat.openai.com/ |
美国 | Microsoft Copilot | GPT-4 和未知 | https://copilot.microsoft.com/ |
美国 | Google Bard | Gemini | https://bard.google.com/ |
中国 | 百度文心一言 | 文心 4.0 | https://yiyan.baidu.com/ |
中国 | 讯飞星火 | 星火 3.5 | https://xinghuo.xfyun.cn/ |
中国 | 智谱清言 | GLM-4 | https://chatglm.cn/ |
中国 | 月之暗面 Kimi Chat | Moonshot | https://kimi.moonshot.cn/ |
中国 | MiniMax 星野 | abab6 | https://www.xingyeai.com/ |
2.1 按格式输出
2.2 分类
2.3 聚类
2.4持续互动
2.5技术相关问题
2.6解决问题
大模型把语言描述作为输入,有输入就能输出结果
但如何发挥大模型的现有能力呢?最大的障碍是没有形成认知对齐
找落地场景的思路:
- 从最熟悉的领域入手
- 让AI学最厉害员工的能力,再让他辅助其他员工,实现降本增效
- 找[文本进、文本出]的场景
- 别求大而全。将任务拆解,先解决小任务、小场景
3.认知
3.1 目标
懂AI、懂编程、懂业务你就是AGI(artificial general intelligence 通用人工智能)SuperStar。
要懂原理、重实践、提认知
不懂原理就不会举一反三,走不了太远。
不懂实践就只能纸上谈兵,做事不落地。
认知不高就无法做对决策,天花板太低。
目前行业共识:两个确定和一个不确定
- 确定未来,AI必定重构世界
- 确定进入,收获红利
- 不确定落地,解决需求,技术路线,产品策略
只等不确定 确定了,巅峰即来
3.2 知识体系
3.3 学习方法
- 至少懂一门语言
- 有真实的项目经验
- 原理一定用心学
- 认知一定用心领悟
- 实践一定要多
4.大模型是怎么工作的
其实它只是根据上文,猜下一个词(的概率)
通俗理解
- 大模型阅读了人类曾说过的所有话。这就是机器学习,也叫训练
- 大模型将输入文字转化为一串编码,并计算后面跟着的不同编码的概率,存入神经网络,并保存数据参数(权重)
- 大模型用之前输入的文字编码加上现在输入的文字编码,并计算出下一个最高概率的编码。这个过程就是生成(推理)
- 步骤3循环反复,生成更多的文字
这套生成机制的内核叫「Transformer 架构」。但其实,transformer 已经不是最先进的了。
架构 | 设计者 | 特点 | 链接 |
---|---|---|---|
Transformer | 最流行,几乎所有大模型都用它 | OpenAI 的代码 | |
RWKV | PENG Bo | 可并行训练,推理性能极佳,适合在端侧使用 | 官网、RWKV 5 训练代码 |
Mamba | CMU & Princeton University | 性能更佳,尤其适合长文本生成 | GitHub |
5.用好AI的关键
OpenAI 首席科学家 Ilya Sutskever 说过:
数字神经网络和人脑的生物神经网络,在数学原理上是一样的
我们要把 [AI当人看] ,来理解、控制和看待,其有优点也有不足。
6.大模型应用架构
大模型技术分两个部分:
- 基础大模型的训练
- 开发大模型的应用
大模型应用技术特点:门槛低,天花板高
6.1典型业务架构
Agent 还太超前,Copilot 值得追求
6.2技术架构
prompt(提词) 一问一答方式
Agent + Function Calling (代理+函数调用)
- Agent:AI主动提要求
- Function Calling: AI要求执行某个函数
- 场景举例:你问水果好吃吗?他反问你哪种水果
RAG(Retrieval-Augmented Generation 检索增强生成)
- Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
- 向量数据库:把向量存起来,方便查找
- 向量搜索:根据输入向量,找到最相似的向量
- 场景举例:考试时,看到一道题,到书上找相关内容,再结合题目组成答案。然后,就都忘了
Fine-tuning (精调)
6.3如何选择技术路线
值得尝试Fine-Tuning的情况:
- 提高大模型的稳定性
- 用户量大,降低推理成本的意义很大
- 提高大模型的生成速度
6.4基础模型选型
合规和安全是首要考量因素。使用测试数据选择最优的模型。
需求 | 国外大模型 | 国产大模型 | 开源大模型 |
---|---|---|---|
国内 2C | 🛑 | ✅ | ✅ |
国内 2G | 🛑 | ✅ | ✅ |
国内 2B | ✅ | ✅ | ✅ |
出海 | ✅ | ✅ | ✅ |
数据安全特别重要 | 🛑 | 🛑 | ✅ |