0基础跟德姆(dom)一起学AI 机器学习01-机器学习概述

【知道】人工智能

- Artificial Intelligence  人工智能

- AI is the field that studies the synthesis and analysis of  computational agents that act intelligently 

- AI is to use computers to analog and instead of human brain

- 释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟人类

- 释义:是一个系统,像人那样思考 像人那样理性思考  

- 释义:是一个系统,像人那样活动 像人那样合理系统

【知道】机器学习

- Machine Learning   释义:机器学习

- Field of study that gives computers the ability to learn without being explicitly programmed

- 释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程)

- 人类识别车:根据车的特征归纳出车的规律;来了一个新的图片,判断预测是否是车

- 机器学习识别车: 从数据中获取规律;来了一个新的数据,产生一个新的预测

【知道】深度学习

深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

【知道】三者之间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

【了解】学习方式

【了解】基于规则的学习

•基于规则的预测 : 程序员根据经验利用手工的if-else方式进行预测

但是有好多问题, 无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:

- 图像和语音识别
- 自然语言处理

举例:我们尝试通过基于规则的学习方式让计算机识别大象,下图中的大象千差万别, 有的是实物,有的是雕塑,有的是画,我们无法通过创建一套规则的方式让计算机准确识别下面每一头大象, 此时我们需要一种新的方法来解决这类问题。

【了解】基于模型的学习

基于模型的学习就是通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型:

案例巩固

比如房价预测,数据如下图

* 我们可以使用一条直线尽可能多的通过这些点,不通过的点尽量分布在直线的两侧,利用这条直线所表示的线性关系,我们就可以预测房价。
* 直线可以写成y=ax+b,若a,b已知,我们就能够预测房价。机器学习中a,b称为 **参数** ,y=ax+b称为 **模型** 。通常a,b未知,是我们需要求解的量。

人工智能应用领域和发展史

**学习目标:**

1.了解机器学习的应用领域

2.了解机器学习的发展史

【了解】应用领域

用户分析:社交网络、影评、商品评论

搜素引擎:网页、图片、规频、新闻、学术、地图

信息推荐:新闻、商品、游戏、书籍

图片识别:人像、用品、劢物、交通工具

机器翻译、摘要生成 … …

生物信息学习 … … 多模态 AR/VR

【了解】发展史

1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。

> 1956 年被认为是人工智能元年

**1950-1970**
符号主义流派:专家系统占主导地位

1950:图灵设计国际象棋程序

1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)

**1980-2000**

统计主义流派:主要用统计模型解决问题

1993:Vapnik提出SVM

1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)

**2010-2017**

神经网络、深度学习流派

2012:AlexNet深度学习的开山之作

2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)

**2017-至今**

大规模预训练模型

2017年,自然语言处理NLP的Transformer框架出现

2018年,Bert和GPT的出现

2022年,chatGPT的出现,进入到大规模模型AIGC发展的阶段

【知道】机器学习发展三要素

- 数据、算法、算力三要素相互作用,是AI发展的基石

1.  CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务
2. GPU:更加适合矩阵运算;主要适合计算密集型任务
3. TPU:Tensor,专门针对神经网络训练设计一款处理器

【掌握】样本,特征,标签/目标值

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资

就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系

特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息  eg:房价预测、车图片识别

【掌握】数据集划分

数据集可划分两部分:训练集、测试集  比例:8 : 2,7 : 3 

训练集(training set) :用来训练模型(model)的数据集

测试集(testing set):用来测试模型的数据集

算法分类

【掌握】有监督学习

- 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的

- 数据集:需要人工标注数据

【掌握】分类

- 目标值(标签值)是不连续的

- 分类种类:二分类、多分类任务、

【掌握】回归

目标值(标签值)是连续的

【熟悉】无监督学习

- 定义:输入数据没有被标记,即样本数据类别未知,**没有标签**,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。

- 数据集:不需要标注数据

**无监督学习特点:**

 **1** 训练数据无标签

 2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

【了解】半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就

  是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,

   从而对模型做进一步改善和提高

半监督学习方式可大幅降低标记成本

【了解】强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:基本原理:通过构建四个要素:agent,环境状态,行动,奖励,

 agent根据环境状态进行行动获得最多的累计奖励。。

小孩子学走路:

​    (1) 小孩就是 **agent**,他试图通过采取**行**(即行走)来操纵**环境**(地面),

​    (2) 并且从**一个状态转变到另一个状态**(即他走的每一步),

​    (3) 当他完成任务的子任务(即走了几步)时,孩子得到**奖励**(给巧克力吃),

​    (4) 并且当他不能走路时,就不会给巧克力。

总结

【知道】机器学习的建模流程

特征工程

【知道】特征工程

从数据集角度来看:    一列一列的数据为特征。

从模型训练角度来看: 对预测结果有用的属性为特征

特征工程是:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程

Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

释义:特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程                             

【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

【理解】特征提取

从原始数据中提取与任务相关的特征,构成特征向量

对于文本、图片这种非行列形式的数据行列形式转换,

一旦转换成行列形式一列就是特征

【理解】特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

将不同的单位的特征数据转换成同一个范围内

使训练数据中不同特征对模型产生较为一致的影响

【了解】特征降维

将原始数据的维度降低,叫做特征降维

会丢失部分信息。降维就需要保证数据的主要信息要保留下来

原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息

【了解】特征选择

原始数据特征很多,但是对任务相关是其中一个特征集合子集。

从特征中选择出一些重要特征(选择就需要根据一些指标来选择)

特征选择不会改变原来的数据

【了解】特征组合

把多个的特征合并成一个特征。

通过加法、乘法等方法将特征值合并


【掌握】模型拟合问题

拟合:用来表示模型对样本点的拟合情况

欠拟合:模型在训练集上表现很差、在测试集表现也很差

原因:模型过于简单

过拟合:模型在训练集上表现很好、在测试集表现很差

原因:模型太过于复杂、数据不纯、训练数据太少

泛化:模型在新数据集(非训练数据)上的表现好坏的能力

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取


【实操】机器学习开发环境

基于Python的 scikit-learn 库:

1. 简单高效的数据挖掘和数据分析工具
2. 可供大家使用,可在各种环境中重复使用
3. 建立在NumPy,SciPy和matplotlib上
4. 开源,可商业使用-获取BSD许可证

pip install scikit-learn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/884664.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在线翻译器工具横评:性能、准确率大比拼

无论是旅行者在异国他乡探寻风土人情,学者研究国外的前沿学术成果,还是商务人士与国际伙伴洽谈合作,都离不开一种高效、准确的语言沟通工具。而翻译器在线翻译能很好的帮我们解决这个问题。今天我们一起来探讨有那些好用的翻译工具。 1.福昕…

玄机--蚁剑流量

木马的连接密码是多少 黑客执行的第一个命令是什么 id 黑客读取了哪个文件的内容,提交文件绝对路径 /etc/passwd 黑客上传了什么文件到服务器,提交文件名 黑客上传的文件内容是什么 黑客下载了哪个文件,提交文件绝对路径 蚁剑流量特征总结 …

单调递增/递减栈

单调栈 单调栈分为单调递增栈和单调递减栈 单调递增栈:栈中元素从栈底到栈顶是递增的 单调递减栈:栈中元素从栈底到栈顶是递减的 应用:求解下一个大于x元素或者是小于x的元素的位置 给一个数组,返回一个大小相同的数组&#x…

4. 数据结构: 对象和数组

数字、布尔值和字符串是构建数据结构的原子。不过,许多类型的信息需要不止一个原子。对象允许我们对值(包括其他对象)进行分组,从而构建更复杂的结构。到目前为止,我们所构建的程序都受到限制,因为它们只能…

maven安装教程(图文结合,最简洁易懂)

前提 所有的Maven都需要Java环境,所以首先需要安装JDK,本教程默认已安装JDK1.8 未安装JDK可看JDK安装教程:JDK1.8安装教程 主要分为两个大步骤:安装、配置 一、下载和安装Maven 1、将maven解压后的文件夹复制到D盘根目录 (最好…

努比亚 Z17 NX563J Root 教程三方REC刷写工具教程

教程:1,自用成功 正常链接列表 adb devices 检查fastboot链接列表 fastboot devices 解锁设备fastboot oem nubia_unlock NUBIA_NX563J 我用的解锁设备是:fastboot flashing unlock 1.打开开发者选项。将OEM解锁的按钮打开 2.下载附件努…

苹果更新过时产品:三款 Mac 成“古董”,九款 Mac 彻底“停产”

9 月 24 日消息苹果今天更新了“过时产品”名单,新增加了三款 Mac 型号,并将另外九款 Mac 型号从“过时产品”归为“停产产品”。 新入列的 Mac 过时产品: MacBook Air(视网膜显示屏,13 英寸,2018 年&…

物联网迎来下半场,国产 IoTOS 打造企业级智能硬件云服务平台

如有需求,文末联系小编 氦氪云 IoTOS 是一套先进的企业级物联网解决方案平台,为万物互联提供可靠安全稳定的终端接入、协议适配、消息路由、数据存储和分析、应用使能等核心功能。面向物联网领域中的终端设备商、系统集成商、应用服务商、能力提供商等&a…

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 目录 Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 一、简单介绍 二、中介者模式(Mediator Pattern) 1、什么时候使用中介者模式 2、使用…

CICD 持续集成与持续交付

一 、CICD是什么 CI/CD 是指持续集成(Continuous Integration)和持续部署(Continuous Deployment)或持续交付(Continuous Delivery) 1.1 持续集成(Continuous Integration) 持续集…

卸载WSL(Ubuntu),卸载linux

禁用 WSL 功能 打开 Windows 功能: 按下 Windows R 打开运行对话框,输入 optionalfeatures,然后按回车。 禁用 WSL: 在弹出的 Windows 功能窗口中,找到 适用于 Linux 的 Windows 子系统(Windows Subsystem…

FTP 服务器 linux安装

文章目录 前言一、了解二、安装启动匿名连接 三、创建用户1. 创建系统用户2. 连接3. 连接不上? 5004. 还是连接不上? 5005. 还还还是连不上?530 补充关于创建用户useradd 命令如何设置用户不能登录shell不用系统指定的家目录 vsftpd 配置chro…

深刻理解Redis集群(上):RDB快照和AOF日志

RDB快照 save同步阻塞 客户端 服务端 .conf配置文件 # The filename where to dump the DB dbfilename dump.rdb# rdb-del-sync-files是Redis配置文件中的一个选项,它的作用是在主节点上执行BGSAVE或AOF持久化操作时,删除同步锁文件,以释放磁…

git工具指令

下面是常用的Git命令清单,几个专用名称的译名如下: Workspace :工作区 Index /Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库新建代码库 在当前目录新建一个Git代…

java初识

目录 1.命名规范 2.数据类型 3.数据类型转换(就是见识一下) 4.java里面的输入输出 4.1判断是不是偶数 4.2判断是不是闰年 4.3其他的输入输出 4.4顺序的问题 5.分支语句补充 5.IDEA里面的调试 6.continue的一个案例 1.命名规范 这个命名规范就…

【Java SE】初遇Java,数据类型,运算符

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 1. Java 概述 1.1 Java 是什么 Java 是一种高级计算机语言,是一种可以编写跨平台应用软件,完全面向对象的程序设计语言。Java 语言简单易学…

Java基于easyExcel的自定义表格格式

这里用的到easyExcel版本为3.3.4 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.4</version></dependency> 效果 代码部分 package com.tianyu.test;import com.alibaba.exc…

57 长短期记忆网络(LSTM)_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录长短期记忆网络&#xff08;LSTM&#xff09;门控记忆元输入门、忘记门和输出门候选记忆元 (相当于RNN中计算 H t H_t Ht​)记忆元隐状态 从零开始实现初始化模型参数定义模型训练和预测 简洁实现小结练习 长短期记忆网络&#xff08;LSTM&a…

【d53】【Java】【力扣】24.两两交换链表中的节点

思路 定义一个指针cur, 先指向头节点&#xff0c; 1.判断后一个节点是否为空&#xff0c;不为空则交换值&#xff0c; 2.指针向后走两次 代码 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}*…