【语言处理和机器学习】概述篇(基础小白入门篇)

 前言

自学笔记,分享给语言学/语言教育学方向的,但对语言数据处理感兴趣但是尚未入门,却需要在论文中用到的小伙伴,欢迎大佬们补充或绕道。ps:本文不涉及公式讲解(文科生小白友好体质)~(部分讲解会参考知乎等平台)

本文重点:语言学数据处理框架下的,机器学习方法的整体概述。

1.机器学习是做什么的?

2.机器学习有哪些分类?

3.每种分类具体对应哪些方法?

一.机器学习是做什么的?

  机器学习使计算机可以从语言数据中学习人类语言的规律,在理解、生成、分析等方面逼近人类水平。机器学习的核心是让机器通过学习数据自动提取知识进行预测和决策

结合简单语言学处理实例介绍简单机器学习的主要处理逻辑:

实例:以【新闻文本体裁分类】为例,希望训练一个模型,能够自动将新闻文章分为体育娱乐财经科技等不同的类别。

基本步骤定义语言学数据实例
---------------------------------------------------基础步骤(必须有!)----------------------------------------------------------
1.数据准备收集和预处理用于训练和测试的数据。这一步至关重要,数据质量直接影响模型性能。
  • 收集大量不同体裁的新闻文章

  • 对文章进行分词等语言指标抽出,例如:平均句长,动词使用率等(自变量)

  • 标注每篇文章的体裁类别(响应变量)

2.划分数据集将数据分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调参和选择模型,测试集用于评估模型的泛化能力。
  • 将标注好的新闻文章数据随机划分为训练集和测试集

  • 训练集用于训练分类模型,测试集用于评估模型效果

3.模型选择与训练根据任务和数据的特点,选择合适的机器学习算法(如决策树、神经网络等),并使用训练集对模型进行训练,让模型学习数据中的模式。
  • 选择合适的分类算法,如朴素贝叶斯、支持向量机等

  • 用训练集训练分类模型,让模型学习不同体裁的文本特征

4.性能评估使用验证集评估模型性能,通过交叉验证等方法选择最优模型和超参数。再用测试集评估模型的泛化性能。
  • 用测试集评估模型在各个体裁上的分类准确率

  • 选择整体分类效果最好的模型

--------------------------------------------------------附加步骤(有更好!)-------------------------------------------------------
5.模型优化分析模型错误,进行优化,如增加训练数据、调整模型结构、引入正则化等。性能评估和优化往复进行,不断提升模型。
  • 分析模型分错的文章,总结规律

  • 优化措施:如增加训练数据、调整模型参数、尝试其他算法等

  • 多次迭代,不断提升分类效果

6.模型应用将训练好的模型部署到实际的应用场景中,对新数据进行预测。
  • 将训练好的新闻体裁分类模型集成到新闻推荐系统中

  • 对新来的文章自动预测其体裁,再推荐给对应兴趣的用户

7.反馈优化收集实际应用中的新数据和反馈,优化模型,形成迭代闭环。
  • 收集用户反馈,分析体裁分类错误对推荐效果的影响

  • 持续迭代优化分类模型,提高整个系统的用户体验

二.机器学习有哪些分类?

1.有监督学习(教師あり学習)

  • 训练数据中包含了输入及其对应的预期正确输出(标签)
  • 目标是学习输入到输出的映射函数,用于预测新数据的输出
  • 广泛应用于分类回归任务,如文本分类、图像识别等

语言学处理实例:

  • 词性标注:以词性标注的语料库为训练集,学习词性分类模型,自动标注新文本
  • 语法纠错:以正确和错误的句子对为训练数据,学习语法纠错模型,自动检查和修正语法错误
  • 语音识别:以语音-文本对为训练数据,学习语音转录模型,实现语音到文本的自动转换
  • 阅读理解:以文本-问题-答案三元组为训练数据,学习阅读理解模型,自动回答文本内容的问题

2.无监督学习(教師なし学習)

  • 训练数据没有标签,只有输入本身
  • 目标是发现数据内在的结构和模式,如聚类、关联、降维
  • 常用于数据压缩、异常检测、推荐系统等

语言学处理实例:

  • 词聚类:无监督地将语料库中的词汇按语义聚成不同的类,发现词汇的语义关系
  • 话题发现:从大量文本语料中无监督地提取隐含的主题,理解语料的话题结构
  • 字词表示学习:从海量语料中自主学习词嵌入表示,刻画词汇的语义特征,用于各种下游NLP任务
  • 语言结构发现:从未标注的语料中自主学习短语结构、句法结构等,发现语言的结构规律

3.强化学习(強化学習)

  • 通过智能体(Agent)与环境的交互来学习最优策略
  • 没有直接的监督标签,而是根据行为获得的奖励或惩罚来优化
  • 适用于序贯决策问题,如游戏、机器人控制、自动化运营等

语言学处理实例:

  • 对话生成:通过强化学习训练对话系统,根据人类反馈优化对话策略,生成更自然、贴切的回复
  • 语言游戏:设计益智的语言交互游戏,通过强化学习训练游戏AI,提供智能的游戏陪练,供学习者练习
  • 写作评分:将自动作文评分系统建模为强化学习过程,通过学生反馈和专家打分等奖励信号,持续优化评分策略
  • 教育个性化:将个性化教学决策建模为强化学习问题,通过学生学习过程数据及反馈,自适应优化个性化教学策略

    总的来说,有监督学习需要人工标注数据,学习明确的目标;而无监督学习让算法自主探索数据的内在规律。而强化学习通过主动探索和试错来优化系统行为,以获得最大化的累积奖励。

    三.每种机器学习所对应的具体方法

    (了解!之后推文会详细介绍)

    分类常用方法
    有监督学习
    • - 线性回归 (Linear Regression)

    • -逻辑回归 (Logistic Regression)

    • - 决策树 (Decision Tree)

    • - 随机森林 (Random Forest)

    • 支持向量机 (Support Vector Machine, SVM)

    • - K近邻 (K-Nearest Neighbors, KNN)

    • - 朴素贝叶斯 (Naive Bayes)

    无监督学习
    • - K均值聚类 (K-Means Clustering)
    • - 层次聚类 (Hierarchical Clustering)
    • - 高斯混合模型 (Gaussian Mixture Model, GMM)
    • - 主成分分析 (Principal Component Analysis, PCA)
    • - 潜在语义分析 (Latent Semantic Analysis, LSA)
    强化学习
    • - Q学习 (Q-Learning)
    • - SARSA学习 (State-Action-Reward-State-Action)
    • - 蒙特卡洛方法 (Monte Carlo Methods)
    • - 时序差分学习 (Temporal Difference Learning)

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/957317.html

    如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

    相关文章

    智能系统的感知和决策

    智能系统在感知和决策过程中具备的关键能力表现在智能感知/自主判定上,下面可以从感知的本质、自主判断的含义及其在智能系统中的作用进行深入分析。 1、智能感知:信息获取与理解 智能感知是指智能系统通过传感器或其他数据采集手段获取环境中的信息&…

    AD7606, 逐次逼近型ADC以及一次被GPT坑了的过程.

    首先, 我的项目中, 已有的一个ADC芯片, 8通道, 并行, Analog家的ad7606, 在采集高速的正弦信号的时候, 我发现采集到的值怎么都不太对. 但是宏观来看, 并没有太大问题, 首先我怀疑的是量程问题, 接入一个5伏直流, 得到的读数确实是接近16bit的正半量程的读数, 32xxx. 接着我用信…

    16.5万煤气柜柜位计故障分析

    一、事故经过: 2015年8月14日20点45分,16.5万立煤气柜柜顶油封溢流口有大量油液溢出,此时雷达柜位计在计算机上示值为63.79米,由于接近傍晚天色较暗,岗位操作员并未及时发现这一异常状况。22点45分左右&…

    成就与远见:2024年技术与思维的升华

    个人主页:chian-ocean 前言: 2025年1月17日,2024年博客之星年度评选——创作影响力评审的入围名单公布。我很荣幸能够跻身Top 300,虽然与顶尖博主仍有一定差距,但这也为我提供了更加明确的发展方向与指引。展望崭新的2025年&…

    Android 天气APP(二十七)增加地图天气的逐小时天气、太阳和月亮数据

    imageId R.mipmap.icon_213d; break; case “300”: imageId R.mipmap.icon_300d; break; case “301”: imageId R.mipmap.icon_301d; break; case “302”: imageId R.mipmap.icon_302d; break; case “303”: imageId R.mipmap.icon_303d; break; case “…

    vue2使用flv.js在浏览器打开flv格式视频

    组件地址&#xff1a;GitHub - bilibili/flv.js: HTML5 FLV Player flv.js 仅支持 H.264 和 AAC/MP3 编码的 FLV 文件。如果视频文件使用了其他编码格式就打不开。 flv.vue <template><div><el-dialog :visible.sync"innerVisibleFlv" :close-on-pre…

    Restormer模型代码解析

    上一篇我们对Restormer的论文进行了解析。这篇对Restormer的代码进行解析。 论文地址&#xff1a;Restormer: Efficient Transformer for High-Resolution Image Restoration。代码地址&#xff1a;Restormer 以Deraining项目中的test.py文件为切入点&#xff0c;来分析其mod…

    微信小程序怎么制作自己的小程序?手把手带你入门(适合新手小白观看)

    对于初学者来说&#xff0c;制作一款微信小程序总感觉高大上&#xff0c;又害怕学不会。不过&#xff0c;今天我就用最简单、最有耐心的方式&#xff0c;一步一步给大家讲清楚!让你知道微信小程序的制作&#xff0c;居然可以这么轻松(希望你别吓跑啊!)。文中还加了实战经验&…

    MPLS VPN 部署与应用

    一.简介 MPLS&#xff0c;称之为多协议标签交换&#xff0c;在九十年代中期被提出来&#xff0c;用于解决传统IP报文依赖查表转发而产生的瓶颈&#xff0c;现多用于VPN技术&#xff0c;MPLS报头封装在数据链路层之上&#xff0c;网络层之下。本文为结合了华为技术和新华三技术…

    定时器setTimeout和setInterval

    setTimeOut()异步 setInterval()异步

    PCL 部分点云视点问题【2025最新版】

    目录 一、问题概述二、解决方案1、软件实现2、代码实现三、调整之后博客长期更新,本文最近更新时间为:2025年1月18日。 一、问题概述 针对CloudCompare软件处理过的pcd格式点云,在使用PCL进行特征点提取、配准等实验中最终显示结果出现点云位置偏差较大的问题,本博客给出解…

    SpringCloud+Vue+Python人工智能(fastAPI,机器学习,深度学习)前后端架构各功能实现思路——主目录(持续更新)

    随着公司业务的增加&#xff0c;公司需要一个javapython人工智能相互配合架构&#xff0c;正常网站业务用java来做&#xff0c;而ai&#xff0c;例如电价预测等回归任务&#xff0c;以及大模型预测全网负荷&#xff0c;新能源出力等任务&#xff0c;使用python通过fastapi暴露接…

    Python数据可视化(够用版):懂基础 + 专业的图表抛给Tableau等专业绘图工具

    我先说说文章标题中的“够用版”啥意思&#xff0c;为什么这么写。 按照我个人观点&#xff0c;在使用Python进行数据分析时&#xff0c;我们有时候肯定要结合到图表去进行分析&#xff0c;去直观展现数据的规律和特定&#xff0c;那么我们肯定要做一些简单的可视化&#xff0…

    [微服务]注册中心优化

    环境隔离 企业实际开发中&#xff0c;往往会搭建多个运行环境&#xff0c;例如&#xff1a; 开发环境测试环境预发布环境生产环境 这些不同环境之间的服务和数据之间需要隔离。 还有的企业中&#xff0c;会开发多个项目&#xff0c;共享nacos集群。此时&#xff0c;这些项目…

    【Python使用】嘿马python高级进阶全体系教程第11篇:静态Web服务器-面向对象开发,1. 以面向对象的方式开发静态W

    本教程的知识点为&#xff1a;操作系统 1. 常见的操作系统 4. 小结 ls命令选项 2. 小结 mkdir和rm命令选项 1. mkdir命令选项 压缩和解压缩命令 1. 压缩格式的介绍 2. tar命令及选项的使用 3. zip和unzip命令及选项的使用 4. 小结 编辑器 vim 1. vim 的介绍 2. vim 的工作模式 …

    无限续杯Cursor方案

    解决方案一&#xff1a; 每个账号可以删除三次&#xff0c;如图点击Delete Account&#xff0c;删除账户并重新登录即可获得免费试用。 解决方案二 1.首先判断电脑系统类型&#xff1a; Windows 系统 打开 设置&#xff08;Win I&#xff09;。进入 系统 > 关于。在 …

    AI编程工具使用技巧:在Visual Studio Code中高效利用阿里云通义灵码

    AI编程工具使用技巧&#xff1a;在Visual Studio Code中高效利用阿里云通义灵码 前言一、通义灵码介绍1.1 通义灵码简介1.2 主要功能1.3 版本选择1.4 支持环境 二、Visual Studio Code介绍1.1 VS Code简介1.2 主要特点 三、安装VsCode3.1下载VsCode3.2.安装VsCode3.3 打开VsCod…

    2024国游销量前20游戏分析:某开放世界武侠(排名11)

    1、销量约20万套&#xff0c;销售额1400万人民币。 与一代的发售间隔为三年。 虽然对于网游大厂来说这个数字不够看&#xff0c;但对一个小团队来说足够维持了&#xff0c;三年的运营成本不是小数目。 2、开发商属于国内最早做3DMMO的厂商之一&#xff0c;创始人曾在国外大学…

    没有公网IP实现seafile本地IP访问和虚拟局域网IP同时访问和上传文件

    前言 Ubuntu 24.04 LTSDocker 安装 seafileOpenWrtTailscale Ubuntu 24.04 LTS 通过 docker desktop 安装 seafile 搭建个人网盘中&#xff0c;已经实现了本地局域网放问Ubuntu IP来访问Seafile&#xff0c;以及通过 Ubuntu 的 Tailscale IP 访问Seafile。但是&#xff0c;文…

    大有国科举办书苑华夏文化读书会第四届文学艺术沙龙活动

    经过了精心准备&#xff0c;2025年元月5日大有国科产业运营管理&#xff08;北京&#xff09;有限公司在北京西山赢府国际商务中心举办第四届文学艺术沙龙活动。大有数字集团董事长张长江,我国第一代电视艺术工作者悦怀怡,中华社会文化发展基金会原理事、副秘书长肖清波&#x…