《机器学习》周志华-CH1(绪论)

1.1引言

机器学习(Matchine-Learning)所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。可以说机器学习(Matchine-Learning)是研究关于“学习算法”的学问。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2基本术语

  1. 一组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature),属性上的取值称为“属性值”(attribute value),属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
  2. 由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个“特征向量”(feature vector)。每个示例由d个属性描述,则d称为样本的“维数”(dimensionality)。
  3. 从数据中学得模型的过程称为“学习”(learning)或“训练”(training)。训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。
  4. 关于示例结果的信息称为“标记”(label),拥有了标记信息的示例称为“样例”(example),所有标记的集合称为“标记空间”(label space)或“输出空间”。
  5. 若预测的是离散值,此类学习任务称为“分类”(classification),如“好瓜”,“坏瓜”;若预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。
  6. 对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。
  7. 学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。
  8. “聚类”(clustering)有助于我们了解数据的内在规律,能为更深入地分析数据建立模型。
  9. 根据训练数据是否拥有标记信息,学习任务大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
    10.学得模型适用于新样本的能力,称为“泛化”(generalization)能力。

1.3假设空间

归纳与演绎是科学推理的两大基本手段。前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性的规律;后者则是从一般到特殊的“特化”(speacialization)过程,即从基础原理推演出具体状况。

1.4归纳偏好

  1. 机器学习(Matchine-Learning)算法在学习过程中对某种类型的偏好,称为“归纳偏好”,或称为“偏好”。任何一个有效的机器学习(Matchine-Learning)算法必有其归纳偏好。
  2. “奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
  3. 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
    在这里插入图片描述
    **

1.5发展历程

  1. 机器学习(Matchine-Learning)是人工智能(AI)研究发展到一定阶段必然的产物。
  2. 决树学习技术由于简单易用,到今天仍是最常用的机器学习(Matchine-Learning)技术之一。事实上,BP算法一直是应用的最广泛的机器学习(Matchine-Learning)之一。
  3. 连接主义学习的最大局限性是其“试错性”,简单地说,其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”,夸张一点说,参数调节差之毫,学习结果可能失之千里。
  4. 以往机器学习(Matchine-Learning)技术在应用中取得好性能,对使用者的要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下功夫“调参”,把参数调节好,性能往往就好。因此,深度学习虽然缺乏严格的理论基础,但它显著降低了机器学习(Matchine-Learning)应用者的门槛,为机器学习(Matchine-Learning)技术走向工程实践带来了便利。
  5. 深度学习火起来原因有二:
  • 数据大了
  • 计算能力强了

1.6应用现状

  1. 今天,在技术科学的主动分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系结构、芯片设计都能找到机器学习(Matchine-Learning)技术的身影,尤其是在计算机视觉、自然语言处理(NLP)等“计算机应用技术”领域,机器学习(Matchine-Learning)已成为最重要的技术进步源泉之一。
  2. “计算”的目的往往是数据分析,而数据科学的核心也恰恰是通过分析数据来获得价值。
  3. 若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支,那么机器学习(Matchine-Learning)必居其中。
  4. 美国国家科学基金会在加州大学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三个关键技术:机器学习(Matchine-Learning)、云计算、众包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871414.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能菜谱推荐系统_ct3p7

TOC springboot575智能菜谱推荐系统_ct3p7--论文 第一章 概述 1.1 研究背景 近些年,随着中国经济发展,人民的生活质量逐渐提高,对网络的依赖性越来越高,通过网络处理的事务越来越多。随着智能菜谱推荐管理的常态化&#xff0c…

PYQT实现上传图片,保存图片

代码如下 from PyQt5.QtWidgets import * from PyQt5.QtGui import * from PyQt5.QtCore import * import sysclass MyWindow(QMainWindow):def __init__(self):super(MyWindow, self).__init__()self.setWindowTitle("图片处理")self.setGeometry(200, 200, 500, …

最全海外广告库大合集,建议收藏!

在当今数字营销的世界中,广告投放的精准性和创意性变得越来越重要。而“海外广告库”作为一种强大的工具,正在被越来越多的广告主和营销专家所使用。本文将深入探讨几大主流的海外广告库,并探讨如何利用它们来提升广告效果。 什么是海外广告…

推荐一个开源的kafka可视化客户端GUI工具(Kafka King)

大佬的博客地址: https://blog.ysboke.cn/posts/tools/kafka-king Github地址: https://github.com/Bronya0/Kafka-King Kafka-King功能清单 查看集群节点列表(完成)支持PLAINTEXT、SASL PLAINTEXT用户名密码认证(完…

[C语言]-基础知识点梳理-文件管理

前言 各位师傅们好,我是qmx_07,今天给大家讲解文件管理的相关知识,也就是常见的 读取,删除一类的操作 文件 为什么要使用文件? 程序的数据是存储在电脑的内存中,如果程序退出,内存回收&…

[Leetcode 61][Medium]-旋转链表

目录 一、题目描述 二、整体思路 三、代码 一、题目描述 原题链接 二、整体思路 首先发现这样的规律:当k大于等于链表中节点总数n时,会发现此时旋转后的链表和kk%n时的旋转后的链表一样。同时对于特殊情况n0和n1时,无论k的值为多少都可以…

认识Mongodb及其Java的连接

什么是Mongodb? MongoDB是一个介于关系数据库和非关系数据库(nosql)之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 优点 1.MongoDB的提供了一个面向文档存储,操作起来比较简单和容易。 2.如果负载的增加&#x…

Python中matplotlib使用4

在matplotlib中,可以通过绘制“饼图”来展示各类别在总体中所占的比例。 1 绘制基本“饼图” 通过matplotlib中的pie()函数绘制饼图,代码如图1所示。 图1 绘制基本“饼图”的代码 从图1中可以看出,pie()函数的参数y即为要绘制的数据&#…

使用SSMS连接和查询 SQL Server 实例

简介 SQL Server Management Studio 是用于管理SQL Server基础架构的集成环境。Management Studio提供用于配置、监视和管理SQL Server实例的工具。 此外,它还提供了用于部署、监视和升级数据层组件(如应用程序使用的数据库和数据仓库)的工具以生成查询和脚本。 官方…

现代RTK测量设备的高速发展及其应用前景

RTK(实时动态定位,Real-Time Kinematic)测量设备是利用GNSS(全球导航卫星系统,Global Navigation Satellite System)技术,通过引用基准站与移动站的数据传输机制,实现高精度的位置信…

基于spring boot的小型诊疗预约平台的设计与开发

TOC springboot262基于spring boot的小型诊疗预约平台的设计与开发 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进…

打靶记录12——Fawkes

靶机: https://download.vulnhub.com/harrypotter/Fawkes.ova这是个哈利波特系列的靶机,作者和本人都非常喜欢这个系列,因为它的漏洞和利用点都设计得很巧妙。 难度: 高 目标: 取得2个root权限 3 个flag 涉及攻…

Linux中的exec族函数

exec 系列函数用于替换当前进程的用户空间代码和数据,从而执行一个新的程序。调用 exec 系列函数不会创建新的进程,但会用新程序的代码和数据替换当前进程,因此调用 exec 后,进程的 ID 保持不变,但进程的行为变为执行新…

前端基础4

本节内容: 1.CSS的弹性布局,也称Flex布局 2.Vue2的生命周期 一、Flex布局 弹性布局是前端页面布局最常用的方式之一,通常使用四个属性。 1.创建盒子 先创建一个盒子并为其添加一些样式可以更直观的体验弹性布局,代码如下&#…

keepalived保活nginx1,nginx2

1 下载两个小玩意 yum -y install keepalived yum install psmisc -y 2 配置nginx1,2自启脚本 vim /root/shell/check-nginx.sh 我的脚本放在root/shell里 #!/bin/bash #获取nginx正在运行的进程数 npsnumps -C nginx --no-header | wc -lif [ $n…

企业级WEB应用服务器TOMCAT攻略

目录 一 WEB技术 1.1 HTTP协议和B/S 结构 二 WEB框架 2.1 web资源和访问 2.2 后台应用架构 三 tomcat的功能介绍 3.1 安装 Tomcat 3.2 tomcat的文件结构和组成 3.3 生成tomcat的启动文件 四 结合反向代理实现tomcat部署 4.1 常见部署方式介绍 4.2 利用 nginx 反向代…

第2章-01-网站中的资源介绍

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲,后续完整更新内容如下。 文章…

性能测试-性能监控分析与调优(三)《实战-CPU瓶颈分析、内存问题分析、gc、tomcat性能调优,数据库监控-redis\mysql》

性能监控 使用命令监控 cpu瓶颈分析 top命令 在进行性能测试时使用top命令,界面如下 上图可以看出 - CPU 概况区: %Cpu(s): - us(用户进程占用CPU的百分比), 和 sy(系统进程占用CPU的百分比) 的数…

热门奥运冠军代言费用贵,中小微企业怎么找冠军代言?

巴黎奥运会的热潮未退,这个月运动员代言的比例显著上升,比如游泳冠军潘展乐拿下携程等5个代言,孙颖莎手握可口可乐等7个代言。越来越多的企业和品牌通过冠军代言的形式来提升自身的品牌形象和市场竞争力。运动员代表着健康、拼搏和胜利&#…

thinkphp5漏洞分析之文件包含

目录 一、环境 二、开始研究 三、漏洞分析 四、漏洞修复 五、攻击总结 一、环境 thinkphp官网下载 创建 application/index/view/index/index.html 文件,内容随意(没有这个模板文件的话,在渲染时程序会报错) 二、开始研究 创…