Datawhale X 南瓜书 task01学习笔记

机器学习三观

机器学习工程领先理论

what:什么是机器学习?

  • 机器学习定义:研究关于“学习算法”(一类能从数据中学习出其背后潜在规律的算法)的一门学科
  • PS:深度学习指的是:神经网络那一类学习算法,因此是机器学习的子集
  • 把深度学习单列出来的原因:机器学习演变到现在,神经网络算法的效果是最好的,机器学习的其他算法能做的事,神经网络也能做,所以就把深度学习单列出来了

why:为什么要学习机器学习?

  • 从事机器学习理论的研究:研究新的算法,神经网络和深度学习的可解释性
  • 从事机器学习系统的开发

(以上2种情况比较偏基础和底层)

  • 将机器学习中的算法迁移应用到自己的研究领域
  • 从事AI应用方向的研究:自然语言处理(NLP):eg:chatGPT;计算机视觉(CV):eg: 人脸识别,目标检测;推荐系统等

how:怎样学机器学习?

  • 从事纯机器学习理论的研究:
  • 本课程讲的所有内容都要听懂
  • 进一步可阅读周志华老师的《机器学习理论导引》
  • 机器学习还很年轻,当前正处于工程领先理论阶段,还有很多未解之谜
  • 从事机器学习系统的开发:在跑算法的系统框架中选算法,训练模型,然后部署
  • 进阶学习:https://ucbrise.github.io/cs294-ai-sys-sp22https://openmlsys.github.io
  • 将机器学习中的算法迁移应用到自己的研究领域
  • 从事AI应用方向的研究:
  • 自然语言处理(NLP)、
  • 计算机视觉(CV)、
  • 推荐系统等。

    机器学习引入

  • 假设空间:假设=》函数,则假设空间=》函数空间 
  • 假设的表示一旦确定,假设空间及其规模大小就确定了


基本术语 

  • 算法“概念:指从数据中学得“模型"的具体方法,例如后续章节中将会讲述的线性回归、对决策树等
  • 算法和模型的关系:“算法“产出的结果称为“模型",通常是具体的函数或者可抽象地看作为函数,例如一元线性回归算法产出的模型節为形如f(x)= ux +b的一元一次函数。
  • 不过由于严格区分这两者的意义不大,因此多数文献和资料会将其混用,当遇到这两个概念时,其具体指代根据上下文判断即可。
  • 样本(“示例”)概念:是关于一个事件或对象的描述。eg:一个“色泽青绿,根蒂蜷缩,敲声清脆“的西瓜用向量来表示即为=(青绿;蜷缩;清脆)
  • “特征“(“属性”)概念:向量中的各个维度
  • 向量中的元素用分号";“分隔时表示此向量为列向量,用逗号"“分隔时表示为行向量解释一下“特征工程'
  • 标记概念:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律
  • 标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为(x,y)一条西瓜样本:x=(青绿;蜷缩;清脆),y=好瓜  ;  一条房价样本:=(1所),y=1万/m2
  • 样本空间(“输入空间“)(“属性空间"):由于样本采用的是标明各个特征取值的"特征向量“来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的表示
  • 标记空间(输出空间)概念:标记所在的空间,数学表示为花式大写的y
  • 根据标记的取值类型不同,可将机器学习任务分为以下两类:
  • 分类:当标记取值为离散型时,称此类任务为"分类"。例如学习西瓜是好瓜还是坏瓜、
  • “分类”的类型
  1. “二分类”:当分类的类别只有两个时,称此类任务为“二分类”  eg:习猫的图片是白猫还是黑猫等。,通常称其中一个为“正类",另一个为“反类“或“负类”;
  2. “多分类":当分类的类别超过两个时,称此类任务为“多分类"。由于标记也属于样本的一部分,通常也需要参与运算,因此也需要将其数值化,例如对于二分类任务,通常将正类记为1,反类记为0,即)={0,1}。这只是一般默认的做法,具体标记该如何数值化可根据具体机器学习算法进行相应地调整,例如第6章的支持向量机算法则采用的是={-1,+1)
  • “回归":当标记取值为连续型时,称此类任务为“回归’,例如学习预测西瓜的成熟度、学习预测未来的房价等。由于是连续型,因此标记的所有可能取值无法直接罗列,通常只有取值范围,回归任务的标记取值范围通常是整个实数域R,即y=R。
  • 数据集:数据集通常用集合来表示,令集合D ={1,2,...,m}表示包含m个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有d个特征,则第个样本的数学表示为d维向量Cil;i2;...;wid)其中;;表示样本必;在第j个属性上的取值。
  • 模型:机器学习的一般流程如下:首先收集若干样本(假设此时有100个),然后将其分为训练样本(80个)和测试样本(20个),其中80个训练样本构成的集合称为“训练集",20个测试样本构成的集合称为“测试集",接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
  • 真相(真实):执行以上模型的流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相“或者"真实”,例如样本是一堆好西瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。
  • 假设概念:当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定就是所谓的真相,所以也将其称为“假设"。
  • 通常机器学习算法都有可配置的参数,同一个机器学习算法,使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。
  • 泛化概念:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为“泛化"能力。
  • 分布概念:此处的"分布“指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布"。通常收集到的样本越多,越能从样本中反推出D的信息,即越接近真相。
  • 数据决定模型效果的上限:其中数据是指从数据量和特征工程两个角度考虑。从数据量的角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也多,自然表现效果越好。例如以上举例中如果训练集中含有相同颜色但根蒂不蜷缩的坏瓜,模型a学到真相的概率则也会增大;从特征工程的角度来说,通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。例如学习区分亚洲人和非洲人时,此时样本即为人,在进行特征工程时,如果收集到每个样本的肤色特征,则其他特征例如年龄、身高和体重等便可省略,因为只需靠肤色这一个特征就足以区分亚洲人和非洲人。
  • 算法则是让模型无限逼近上限:是指当数据相关的工作已准备充分时,接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/879492.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

没有项目经验,如何快速转行 AI产品经理?

先上结论:要快速转行,需要了解AIGC,并丰富项目经验。 AIGC是什么 首先需要了解AIGC基本概念、涉及的技术基础、应用场景和局限性。之所以需要具备这些知识,是因为实现AIGC产品必然会涉及相应的AI技术,如果AIGC产品经…

C++函数在库中的地址

本文讲述C如何直接调用动态库dll或者so中的函数。 首先我们准备一个被调用库,这个库里面有两个函数,分别是C98 与 C11 下的,名称是run2和run1。 被调用库 相关介绍请看之前的文章《函数指针与库之间的通信讲解》。 //dll_ex_im.h #ifndef…

Stylized Smooth Clouds 卡通风格化云朵包

下载:​​Unity资源商店链接资源下载链接 效果图:

Vert.x HttpClient调用后端服务时使用Idle Timeout和KeepAlive Timeout的行为分析

其实网上有大量讨论HTTP长连接的文章,而且Idle Timeout和KeepAlive Timeout都是HTTP协议上的事情,跟Vert.x本身没有太大关系,只不过最近在项目上遇到了一些问题,用到了Vert.x的HttpClient,就干脆总结一下,留…

Codes 开源研发项目管理平台——敏捷测试管理创新解决方案

前言 Codes 是国内首款重新定义 SaaS 模式的开源项目管理平台,支持云端认证、本地部署、全部功能开放,并且对30人以下团队免费。它通过整合迭代、看板、度量和自动化等功能,简化测试协同工作,使敏捷测试更易于实施。并提供低成本的…

计算机人工智能前沿进展-大语言模型方向-2024-09-13

计算机人工智能前沿进展-大语言模型方向-2024-09-13 1. OneEdit: A Neural-Symbolic Collaboratively Knowledge Editing System Authors: Ningyu Zhang, Zekun Xi, Yujie Luo, Peng Wang, Bozhong Tian, Yunzhi Yao, Jintian Zhang, Shumin Deng, Mengshu Sun, Lei Liang, Z…

【AI学习笔记】初学机器学习西瓜书概要记录(二)常用的机器学习方法篇

初学机器学习西瓜书的概要记录(一)机器学习基础知识篇(已完结) 初学机器学习西瓜书的概要记录(二)常用的机器学习方法篇(持续更新) 初学机器学习西瓜书的概要记录(三)进阶知识篇(待更) 文字公式撰写不易&am…

设计模式 享元模式(Flyweight Pattern)

享元模式 简绍 享元模式(Flyweight Pattern)是一种结构型设计模式,它的目的是通过共享技术来有效地支持大量细粒度的对象。享元模式可以极大地减少内存的使用,从而提高程序的性能。它特别适用于需要创建大量相似对象的场景&#…

基于web的工作管理系统设计与实现

博主介绍:专注于Java vue .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的…

嵌入式-QT学习-小练习

1. 实现多窗口 2. 给按键增加图标 3. 动图展示 结果演示&#xff1a; Mul_Con main.cpp #include "widget.h"#include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); }一、第一个窗口展示 …

C++ -命名空间-详解

博客主页&#xff1a;【夜泉_ly】 本文专栏&#xff1a;【C】 欢迎点赞&#x1f44d;收藏⭐关注❤️ C -命名空间-详解 1.C语言缺点之一 -- 命名冲突2.命名空间2.1定义2.2使用访问命名空间中的变量展开命名空间域指定访问命名空间域 2.3其他功能 3.C 标准库中的命名空间指定展开…

【网络安全】一篇文章带你了解CTF那些事儿

&#x1f91f; 基于入门网络安全/黑客打造的&#xff1a;&#x1f449;黑客&网络安全入门&进阶学习资源包 一、什么是CTF&#xff1f; CTF&#xff0c;即 Capture The Flag&#xff0c;中文名为夺旗赛&#xff0c;是一种网络安全技术人员之间进行技术竞技的比赛形式。…

保护您的隐私:隐藏 IP 地址的重要性

在当今的数字时代&#xff0c;我们的在线隐私和安全变得比以往任何时候都更加重要。浏览互联网时保护自己的一种方法是隐藏您的 IP 地址。 但是为什么要隐藏您的 IP 地址以及如何有效地做到这一点&#xff1f; 隐藏您的 IP 地址有助于保护您的在线匿名性。您的 IP 地址就像您的…

高速数据转换器设计(一):简介

【注&#xff1a;本文基于《高速数据转换器设计》一书进行学习、总结编撰&#xff0c;适合新手小白进行学习】 目录 1.1 理想数据转换器 1.2 采样操作 1.2.1 冲激采样 1.2.2 采样-保持(S-H) 1.2.3 跟踪-保持 1.2.4 带通采样定理 1.3 信号重构 1.4 量化 1.4.1 量化器 …

SEO 和内容营销:吸引更多人阅读你下一篇文章的3个步骤

SEO和内容营销之间的界限模糊不清。它们显然不同&#xff0c;但很难确切指明其中的界限。 想一想&#xff1a;昼夜的差别是明显的&#xff0c;像白天和黑夜。 但对于昼夜交替的那一刻——究竟是什么时候呢&#xff1f; 你可能认为是在日落时分。但这忽略了市民黄昏&#xff…

【CSS in Depth 2 精译_033】5.4 Grid 网格布局的显示网格与隐式网格(中)

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第一章 层叠、优先级与继承&#xff08;已完结&#xff09; 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位&#xff08;已完结&#xff09; 2.1 相对…

影刀RPA实战:网页爬虫之携程酒店数据

1.实战目标 大家对于携程并不陌生&#xff0c;我们出行定机票&#xff0c;住酒店&#xff0c;去旅游胜地游玩&#xff0c;都离不开这样一个综合性的网站为我们提供信息&#xff0c;同时&#xff0c;如果你也是做旅游的公司&#xff0c;那携程就是一个业界竞争对手&#xff0c;…

后台数据管理系统 - 项目架构设计-Vue3+axios+Element-plus(0917)

七、引入 element-ui 组件库 我的Git仓库&#xff1a;https://gitee.com/msyycn/vue3-hei-ma.git 官方文档&#xff1a; https://element-plus.org/zh-CN/ 安装 $ pnpm add element-plus自动按需&#xff1a; 安装插件 pnpm add -D unplugin-vue-components unplugin-auto…

Python VS Golng 谁更胜一筹?

今天我们聊聊Python和Golang这俩到底谁更胜一筹。 这个话题我已经在各种技术论坛上看到无数次了&#xff0c;每次都能引起一波热烈的讨论。作为一个多年写代码的老程序员&#xff0c;今天就站在我的角度&#xff0c;和大家掰扯掰扯这两个语言各自的优缺点。 1. 性能与并发模型…

小程序渗透 | 利用ce修改器挖掘内存修改漏洞

CE修改器原理 ce修改器可以修改内存数值&#xff0c;因为有些程序会把一些值放在本地&#xff0c;然后改动的时候访问的本地的值&#xff0c;修改之后&#xff0c;客户端服务器再次发生交互的时候&#xff0c;把修改的值发出去&#xff0c;可能会影响到服务器的数据&#xff0…