机器学习简介--NLP(二)

机器学习简介

  • 机器学习简介
    • 机器学习例子
    • 机器学习分类
      • 有监督学习
        • 有监督学习的应用
      • 无监督学习
    • 机器学习常见概念
      • 数据集
      • k折交叉验证
      • 过拟合
      • 欠拟合
      • 评价指标

机器学习简介

机器学习例子

问题: 2,4,6,8,?,?已知前面的数,求后面的数是什么?
机器学习解决方案 从前四个数,即前4个示例,找到一个函数(模型,公式)满足前四个数的规律;后面的数则使用这个函数去推理得到。

1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数,去预测其他的未知的数
上面的函数为:y=2*x

引申:上面是简单的数字,这个数字可以变成复杂的向量、矩阵;这个函数也可以是多个公司拼接,从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律,y=2x就是我们训练出来的模型。

机器学习概念: 通过观察有限数量的样本,去找到一个规律或者公式,满足已知样板的x、y的关系的过程。

数据的重要性: 上面的案例中,如果只给了2,4两个已知的数,那么规律就有可能是:y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。

困难点: 上面的规律是非常简单的,但是对于复杂的事情,我们人都很难去梳理出规律,所以我们希望把数据交给机器,让机器把规律找出来 。

机器学习分类

有监督学习

核心目标: 建立一个模型(函数),来描述输入(x)与输出(y)之间的关系;从而使新的输入来临时时,我们可以预测输出。
要求:需要一定输入与输出有关联关系并且能够数值化表示的训练样本。
在这里插入图片描述

有监督学习的应用

任务类型1:文本分类任务

输入:文本
输出:类别
关系:文本的内容决定着文本的类别

比如判断一句话是不是曹贼所说

任务类型2:机器翻译

输入:A语种文本
输出:B语种文本
关系:A语种表达的意思,在B语种中有对应得意思

比如太阳,英文就是son

无监督学习

**释义:**给与机器得数据是没有标注信息得,简单理解就是只有输入,这种情况也可以让机器进行一些分析
应用场景:聚类、降维、找特征值等等
聚类
**释义:**比如将一系列水果,按照大小、颜色、口味对应不同得数字,把水果转换为向量数子表示,这个时候通过空间向量得计算,可以判断那些向量比较接近,那么按照一定得算法就可以将它们分类,虽然我们不清楚分得是什么类
在这里插入图片描述
降维
释义: 我们在整理了1000个人的各项数据,包括用100个维度去表示他们各自的信息:身高、是否结婚、工作、胖瘦、年龄、手长、腰围等;但是对于我们某一个任务来说,某些维度的信息没有用,比如是否结婚不关注,那么我们通过一定的算法,将其中某些不用的维度去除掉,降低的数据的复杂性,这就是降维。
在这里插入图片描述

机器学习常见概念

数据集

1.训练集
释义:用于模型训练的数据集合
举例: 相当于一个孩子从白纸到成人需要的教训,只是这个教训在这里是提取准备好的

2. 验证集
释义:对于每一种任务一般都有多种算法可以选择,一般会使用验证集用于对比不同算法的效果差异
举例: 培养孩子时,我们需要进行中考、高考,测试这个孩子在某方面的天赋和培养效果,这里的验证集就是这个意思。

3.测试集
释义:最终用来评判算法模型效果的数据集合
举例: 相当于孩子成年了,放到社会上去经历毒打,如果表现得不错,就说明这个号成了,表现差,就重新练一个。

k折交叉验证

释义:初始采样分割成k个子样本,一个单独的子样本本保留作为验证模型的数据,其他的k-1个样本用来训练,交叉重复k次,每个子样本验证一次,平均k次的结果。就是需要训练K次。

过拟合

**释义:**模型失去泛化能力,如果模型在训练集和验证集上都有很好的表现,但是在测试集上表现很差,一般认为发生过拟合。
举例: 高考笔试成绩很好,读书的任务完成得很棒,但是出了社会实际做事不行,是书呆子,就是过拟合。

欠拟合

释义: 模型没能建立起合理的输入输出之间的映射,当输入训练集中的样本时,预测结果和标注结果依然相差很大。
举例 平时就学不进去,别说高考,从小学到初高中,成绩都很差,就是欠拟合,这个时候就看是不是没认真学习,学习方法不对;还是这个娃就是蠢,那么就重新生一个,看看有没有天赋。

评价指标

释义: 为了评价算法效果好坏,需要找到一种评价模型的计算指标例如:准确率、召回率、F1值、TopK、BLEU等
举例: 学生的评价,德智体美劳,高考成绩等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/780096.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深入理解JS逆向代理与环境监测

博客文章:深入理解JS逆向代理与环境监测 1. 引言 首先要明确JavaScript(JS)在真实网页浏览器环境和Node.js环境中有很多使用特性的区别。尤其是在环境监测和对象原型链的检测方面。本文将探讨如何使用JS的代理(Proxy&#xff09…

2024亚太杯中文赛数学建模B题word+PDF+代码

2024年第十四届亚太地区大学生数学建模竞赛(中文赛项)B题洪水灾害的数据分析与预测:建立指标相关性与多重共线性分析模型、洪水风险分层与预警评价模型、洪水发生概率的非线性预测优化模型,以及大规模样本预测与分布特征分析模型 …

算法011:最大连续的1的个数

最大连续的1的个数. - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/max-consecutive-ones-iii/ 乍一看,这道题很奇怪,什么叫最多翻转k个0&a…

自动控制:反馈控制

自动控制:反馈控制 反馈控制(Feedback Control)是一种在控制系统中通过测量输出信号,并将其与期望信号进行比较,产生误差信号,再根据误差信号调整输入来达到控制目标的方法。反馈控制是自动控制系统中最常…

揭秘Conda:Python开发者必备的包管理神器

conda 简介 Conda 是一个开源的包管理系统和环境管理系统,用于安装和管理软件包以及创建和维护不同的软件环境。 它最初是为 Python 语言设计的,但现在已经支持多种编程语言,包括 R、Ruby、Lua、Scala 等。 1、Anaconda:是一个…

HCIE之IPV6和OSPFv6(十四)

IPV6 1、IPv6基础1.1 Ipv6地址静态配置、Eui 641.1.1 Ipv6地址静态配置1.1.2、Ipv6地址计算总结1.1.2.1、IEEE eui 64计算1.1.2.1.1、作用1.1.2.1.2、计算方法1.1.2.1.3、计算过程 1.1.2.2、被请求加入的组播组地址计算(三层)1.1.2.2.1、 作用1.1.2.2.2、…

在pycharm里如何使用Jetbrains AI Assistant

ai assistant激活成功后,如图 ai assistant渠道:https://web.52shizhan.cn/activity/ai-assistant 在去年五月份的 Google I/O 2023 上,Google 为 Android Studio 推出了 Studio Bot 功能,使用了谷歌编码基础模型 Codey,Codey 是…

浪潮信息元脑服务器支持英特尔®至强®6能效核处理器 展现强劲性能

如今,服务器作为数字经济的核心基础设施,正面临着前所未有的挑战和机遇。作为服务器领域的领军企业,浪潮信息始终站在行业前沿,不断推陈出新,以满足客户日益增长的需求。近日,浪潮信息再次展现技术实力&…

从零开始学习网络安全渗透测试之Linux基础篇——(六)Linux网络及防火墙配置

从零开始学习网络安全渗透测试之Linux基础篇 第六章 Linux网络及防火墙配置 1、Linux网络配置文件 查看第一张网卡的网卡信息: [rootlocalhost yum.repos.d]# cat vi /etc/sysconfig/network-scripts/ifcfg-ens33 cat: vi: 没有那个文件或目录TYPEEthernet PR…

【高中数学/基本不等式】已知:x,y皆为正实数,且满足2x+y=1 求:1/x+1/y的最小值?

【问题】 已知:x,y皆为正实数,且满足2xy1 求:1/x1/y的最小值? 【解答】 解法一:(基本不等式法) 这个问题貌似无从下手,实际把分子的1替换成2xy就出现我们熟悉的适合基本不等式发…

数据自动备份方法分享!

现在很多朋友对于第三方软件颇为青睐,因为它们具备许多电脑自带备份工具所不具备的功能。例如,自动备份数据的需求。尽管你已经备份了电脑数据,但日常使用中数据常会增加,你可能无暇顾及每天的备份工作。因此,使用数据…

alibaba EasyExcel 简单导出数据到Excel

导入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>4.0.1</version> </dependency> 1、alibaba.excel.EasyExcel导出工具类 import com.alibaba.excel.EasyExcel; import …

c++ primer plus 第15章友,异常和其他: 15.2.1 嵌套类和访问权限系

c primer plus 第15章友&#xff0c;异常和其他&#xff1a; 15.2.1 嵌套类和访问权限系 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 例如&#xff1a;c primer plus 第15章友&#xff0c;异常和其他&#xff1a; 15.2.1 嵌套类和…

Kubernetes分享

幂等性(Idempotency) 介绍 简单来说&#xff0c;幂等性幂等性(Idempotency)是计算机科学中的一个重要概念&#xff0c;特别是在分布式系统和网络应用中。指的是某个操作可以重复执行多次&#xff0c;但其结果是相同的&#xff0c;不会因为多次执行而改变系统的状态。 https://…

rkmpp移植与测试

一、mpp交叉编译 MPP(Media Process Platform )是Rockchip提供的一款硬件编解码媒体处理软件平台&#xff0c;适用于Rockchip芯片系列。它屏蔽了有关芯片的复杂底层处理&#xff0c;屏蔽了不同芯片的差异&#xff0c;为使用者提供了一组MPI统一接口。如果想达到最好的效果&…

打造属于自己的脚手架工具并发布到npm仓库

一、创建项目 使用 npm init -y 创建项目创建项目入口文件 index.js在 package.json 中添加 bin 字段使用 npm link 命令将文件映射至全局&#xff0c;使可以在本地测试 zp 命令 // "zp" 为用于全局执行脚手架的命令&#xff0c;vue-cli中使用的是vue命令 "bi…

QT滑块图片验证程序

使用QT实现滑块验证程序&#xff0c;原理是画个图片&#xff0c;然后在图片上画个空白区域&#xff0c;再画个滑块图片。 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widg…

物联网的技术和应用有哪些?

随着科技的飞速发展&#xff0c;物联网已经成为连接世界的重要纽带&#xff0c;塑造着我们未来的生活。我们一起深入探索物联网的前沿技术和前瞻性应用&#xff0c;一窥未来的可能性。 获取物联网解决方案&#xff0c;YesPMP平台一站式物联网开发服务。 提示&#xff1a;智慧家…

Google Earth Engine(GEE)——ui.Panel添加到地图上

结果 函数 ui.root.add(widget) 将一个widget添加到根面板上。 返回根面板。 参数。 widget&#xff08;ui.Widget&#xff09;。 要添加的widget。 返回&#xff1a; ui.Panel 代码 //label var label ui.Label({ value: "text label", style: {fontSi…

java 公共字段填充

公共字段填充 1、mybatis-plus2、mybatis 使用注解加aop2.1 自定义注解2.2 自定义切面类2.3 在mapper上添加上自定义的注解 1、mybatis-plus 通过在类上使用如下的注解 TableField(fill FieldFill.INSERT) 是 MyBatis-Plus 中的注解&#xff0c;用于自动填充字段的值。MyBat…