自然语言处理--双向匹配算法

自然语言处理作业1--双向匹配算法

一、概述

双向匹配算法是一种用于自然语言处理的算法,用于确定两个文本之间的相似度或匹配程度。该算法通常使用在文本对齐、翻译、语义匹配等任务中。

在双向匹配算法中,首先将两个文本分别进行处理,然后分别从两个文本的角度进行匹配。这种双向匹配可以更全面地考虑两个文本之间的相似性,避免单向匹配算法可能出现的遗漏或错误匹配的情况。

双向匹配算法通常包括以下步骤:

  1. 分词处理:对两个文本分别进行分词处理,将文本分割成词语或短语的序列。
  2. 特征提取:从两个文本中提取特征,如词频、词性、语义信息等。
  3. 匹配计算:使用不同的匹配算法(如余弦相似度、编辑距离等)计算两个文本之间的相似度或匹配程度。
  4. 结果合并:将两个文本的匹配结果进行合并,得到最终的匹配结果。

双向匹配算法能够更准确地捕捉两个文本之间的相似性,提高了文本对齐、翻译、语义匹配等任务的准确性和效率。因此,在自然语言处理领域中得到了广泛的应用。

二、算法描述

正向最大匹配算法是一种中文分词算法,用于将连续的中文文本切分成词语。步骤如下:

  1. 从切分列表的第一个位置开始,取出长为最大词长MaxLen的词语作为子串。
  2. 判断子串是否在词库中存在,若存在则将该词作为分词结果,并将切分列表中对应的部分删除。
  3. 若子串在词库中不存在,则将子串的最后一个字符去掉,得到一个新的子串。
  4. 重复步骤2和步骤3,直到子串为空或切分列表为空。
  5. 返回分词结果。

反向最大算法也是一种中文分词算法,与正向最大匹配算法相反,从待分词文本的末尾开始逆向切分成词语。步骤如下:

  1. 从切分列表最后一个位置开始,取出长为最大词长MaxLen的词语作为子串。
  2. 判断子串是否在词库中存在,若存在则将该词作为分词结果,并将切分列表中对应的部分删除。
  3. 若子串在词库中不存在,则将子串的第一个字符去掉,得到一个新的子串。
  4. 重复步骤2和步骤3,直到子串为空或切分列表为空。
  5. 返回分词结果。

逆向最大匹配算法与正向最大匹配算法的区别在于匹配的方向,逆向最大匹配算法从后往前匹配词语,但原理和步骤与正向最大匹配算法相似。

三、详细描述

以“对外经济技术合作与交流不断扩大。”为例,详细描述算法如下:

正向最大匹配算法:

假设最大词长MaxLen为5

  1. 取子串 “对外经济技”,扫描词典,没有匹配,子串长度减1变为“对外经济”
  2. “对外经济”,扫描词典,没有匹配,子串长度减1变为“对外经”
  3. “对外经”,扫描词典,没有匹配,子串长度减1变为“对外”
  4. 对外”, 扫描词典,有匹配,输出“对外”,输入变为“经济技术合”
  5. “经济技术合”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  6. “经济技术合”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  7. “经济技”,扫描词典,没有匹配,子串长度减1变为“经济”
  8. 经济”,扫描词典,有匹配,输出“经济”,输入变为“技术合作与”
  9. “技术合作与”,扫描词典,没有匹配,子串长度减 1 变为“技术合作”
  10. “技术合作”,扫描词典,没有匹配,子串长度减 1 变为“技术合”
  11. “技术合”,扫描词典,没有匹配,子串长度减 1 变为“技术”
  12. 技术”,扫描词典,有匹配,输出“技术”,输入变为“合作与交流”
  13. “合作与交流”,扫描词典,没有匹配,子串长度减 1 变为“合作与交”
  14. “合作与交”,扫描词典,没有匹配,子串长度减 1 变为“合作与”
  15. “合作与”,扫描词典,没有匹配,子串长度减 1 变为“合作”
  16. 合作”,扫描词典,有匹配,输出“合作”,输入变为“与交流不断”
  17. “与交流不断”,扫描词典,没有匹配,子串长度减 1 变为“与交流不”
  18. “与交流不”,扫描词典,没有匹配,子串长度减 1 变为“与交流”
  19. “与交流”,扫描词典,没有匹配,子串长度减 1 变为“与交”
  20. “与交”,扫描词典,没有匹配,子串长度减 1 变为“与”
  21. 与”,扫描词典,有匹配,输出“与”,输入变为“交流不断扩”
  22. “交流不断扩”,扫描词典,没有匹配,子串长度减 1 变为“交流不断”
  23. “交流不断”,扫描词典,没有匹配,子串长度减 1 变为“交流不”
  24. “交流不”,扫描词典,没有匹配,子串长度减 1 变为“交流”
  25. 交流”,扫描词典,有匹配,输出“交流”,输入变为“不断扩大。”
  26. “不断扩大。”,扫描词典,没有匹配,子串长度减 1 变为“不断扩大”
  27. “不断扩大”,扫描词典,没有匹配,子串长度减 1 变为“不断扩”
  28. “不断扩”,扫描词典,没有匹配,子串长度减 1 变为“不断”
  29. 不断”,扫描词典,有匹配,输出“不断”,输入变为“扩大。”
  30. “扩大。”,扫描词典,没有匹配,子串长度减 1 变为“扩大”
  31. 扩大”,扫描词典,有匹配,输出“扩大”, 输入变为“。”
  32. 。”,扫描词典,有匹配,输入变为“”,扫描终止

正向最大匹配法最终的切分结果为:“对外/经济/技术/合作/与/交流/不断/扩大/。”


反向最大匹配算法:

假设最大词长MaxLen为5

  1. 取子串 “不断扩大。”,扫描词典,没有匹配,子串长度减1变为“不断扩大”
  2. “断扩大。”,扫描词典,没有匹配,子串长度减1变为“扩大。”
  3. “扩大。”,扫描词典,没有匹配,子串长度减1变为“大。”
  4. “大。”,扫描词典,没有匹配,子串长度减1变为“。”
  5. 。”,扫描词典,有匹配,输出“。”,输入变为“流不断扩大”
  6. “流不断扩大”,扫描词典,没有匹配,子串长度减1变为“不断扩大”
  7. “不断扩大”,扫描词典,没有匹配,子串长度减1变为“断扩大”
  8. “断扩大”,扫描词典,没有匹配,子串长度减1变为“扩大”
  9. 扩大”,扫描词典,有匹配,输出“扩大”,输入变为“与交流不断”
  10. “与交流不断”,扫描词典,没有匹配,子串长度减1变为“交流不断”
  11. “交流不断”,扫描词典,没有匹配,子串长度减1变为“流不断”
  12. “流不断”,扫描词典,没有匹配,子串长度减1变为“不断”
  13. 不断”,扫描词典,有匹配,输出“不断”,输入变为“合作与交流”
  14. “合作与交流”,扫描词典,没有匹配,子串长度减1变为“作与交流”
  15. “作与交流”,扫描词典,没有匹配,子串长度减1变为“与交流”
  16. “与交流”,扫描词典,没有匹配,子串长度减1变为“交流”
  17. 交流”,扫描词典,有匹配,输出“交流”,输入变为“技术合作与”
  18. “技术合作与”,扫描词典,没有匹配,子串长度减1变为“术合作与”
  19. “术合作与”,扫描词典,没有匹配,子串长度减1变为“合作与”
  20. “合作与”,扫描词典,没有匹配,子串长度减1变为“作与”
  21. “作与”,扫描词典,没有匹配,子串长度减1变为“与”
  22. 与”,扫描词典,有匹配,输出“与”,输入变为“济技术合作”
  23. “济技术合作”,扫描词典,没有匹配,子串长度减1变为“技术合作”
  24. “技术合作”,扫描词典,没有匹配,子串长度减1变为“术合作”
  25. “术合作”,扫描词典,没有匹配,子串长度减1变为“合作”
  26. 合作”,扫描词典,有匹配,输出“合作”,输入变为“外经济技术”
  27. “外经济技术”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  28. “经济技术”,扫描词典,没有匹配,子串长度减1变为“济技术”
  29. “济技术”,扫描词典,没有匹配,子串长度减1变为“技术”
  30. 技术”,扫描词典,有匹配,输出“技术”,输入变为“对外经济”
  31. “对外经济”,扫描词典,没有匹配,子串长度减1变为“外经济”
  32. “外经济”,扫描词典,没有匹配,子串长度减1变为“经济”
  33. 经济”,扫描词典,有匹配,输出“经济”,输入变为“对外”
  34. 对外”,扫描词典,有匹配,输出“对外”,输入变为“”,扫描终止

反向最大匹配法最终的切分结果为:“对外/经济/技术/合作/与/交流/不断/扩大/。”

四、软件演示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/349816.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis核心技术与实战【学习笔记】 - 1.Redis为什么高性能

作为键值数据库,Redis 的应用非常广泛,如果你是后端工程师,我猜你出去面试,八成都会被问到与它相关的性能问题。比如说,为了保证数据的可靠性,Redis 需要在磁盘上读写 AOF 和 RDB,但在高并发场景…

WPF入门到跪下 第十一章 Prism(四)View与ViewModel的自动关联

View与ViewModel的自动关联 一、ViewModelLocator 在学习MvvmLight框架时,也使用了ViewModelLocator类。但在MvvmLight框架中,ViewModelLocator只是一个自定义类,与框架无关,目的就是初始化IoC容器。而在Prism框架中则不同&…

机房及设备安全智慧监管AI+视频方案的设计和应用

一、背景分析 随着互联网的迅猛发展,机房及其配套设施的数量持续攀升,它们的运行状况对于企业运营效率和服务质量的影响日益显著。作为企业信息化的基石,机房的安全监测与管理的重要性不容忽视。它不仅关乎企业的稳定运营,同时也…

elementui-table组件列表中的tooltip内容过长超出屏幕换行显示

elementui-table组件列表中的tooltip内容过长超出屏幕换行显示 el-table列属性中带的有show-overflow-tooltip,可以设置内容超出列宽度显示为…,并且有tooltip提示,但是内容过多时,提示会超出屏幕: 但是el-table组件…

Vue 3.0中Treeshaking特性(详细解析)

文章目录 一、是什么二、如何做Vue2 项目Vue3 项目 三、作用参考文献 一、是什么 Tree shaking 是一种通过清除多余代码方式来优化项目打包体积的技术,专业术语叫 Dead code elimination 简单来讲,就是在保持代码运行结果不变的前提下,去除…

逆向 jsvmp 之_signature实例

预备:a.v_jstools 插件,用来解析混淆 b.浏览器启动本地替换 c.nodejs 用来快速调试js 准备好后开搞: 1.首先找到 jsvmp入口点 2.用v_jstools解析混淆,再次刷新,进入入口,找到循环点 3.打日志,分析代码功能

察势而动,破界争先!COSP深圳户外电源展2024重磅开幕!

随着国内疫情逐渐消退,中央政府积极出台了一系列恢复民生的政策。其中,“地摊经济”的火爆,成为了人们茶余饭后的热门话题。这个政策的出台,不仅推动了地摊经济的发展,也让户外电源市场迎来了新的机遇。 随着户外电源产…

Git标签推送

标签默认属于本地分支&#xff0c;推送分支的时候并不会上传。需要自己手动推送 通过命令 git push origin <tagname>推送指定的标签 通过命令git push origin --tags批量推送所有的标签 在VS里打开git命令行窗口的方法&#xff1a;Git更改-操作-打开命令行提示符 对于…

【java】常见的面试问题

目录 一、异常 1、 throw 和 throws 的区别&#xff1f; 2、 final、finally、finalize 有什么区别&#xff1f; 3、try-catch-finally 中哪个部分可以省略&#xff1f; 4、try-catch-finally 中&#xff0c;如果 catch 中 return 了&#xff0c;finally 还会执行吗&#…

【C++】入门

结束数据结构初阶的学习后&#xff0c;很高兴继续学习C&#xff0c;欢迎大家一起交流~ 目录 C关键字 命名空间 命名空间定义 命名空间使用 C输入&输出 缺省参数 缺省参数概念 缺省参数分类 函数重载 函数重载概念 C支持函数重载的原理--名字修饰 引用 引用概念…

MacOS平台翻译OCR软件,双管齐下,还可自定义插件,为其添砖加瓦!

小编昨天为大家分享了Windows系统下的一款功能强大且免费的 OCR 开源工具 Umi-OCR。 今天则为大家推荐一款 MacOS系统下的一款 翻译 OCR 多功能双管齐下的桌面应用软件 Bob。这款软件虽然也上线了GitHub&#xff0c;但它不是一款开源软件&#xff0c;仓库只是作者为了用户反馈…

线程池调优,深入理解,线程池各个参数的含义(keepAliveTime 展开说说?)

线程池调优&#xff0c;深入理解&#xff0c;线程池各个参数的含义&#xff08;keepAliveTime 展开说说&#xff1f;&#xff09;目录 线程池核心组件核心线程、最大线程、阻塞队列的关系&#xff08;重点&#xff09;线程池调优&#xff08;运行流程&#xff09;keepAliveTime…

C++ 利用容器适配器,仿函数实现栈,队列,优先级队列(堆),反向迭代器,deque的介绍与底层

C 利用容器适配器,仿函数实现栈,队列,优先级队列【堆】,反向迭代器,deque的介绍与底层 一.容器适配器的介绍二.利用容器适配器实现栈和队列1.stack2.queue 三.仿函数介绍1.什么是仿函数2.仿函数的使用3.函数指针的使用1.函数指针的用处2.利用函数指针完成回调3.利用仿函数完成回…

CSS之粘性定位

让我为大家介绍一下粘性定位吧&#xff01; 大家应该都了解过绝对定位&#xff0c;它是相对于父级定位 那么粘性定位相对于谁呢&#xff1f; 它相对于overflow:hidden; 如果没找到就会跟fixed固定定位一样&#xff0c;相对于视口 <!DOCTYPE html> <html lang"en…

实习日志5

活字格图片上传功能&#xff08;批量&#xff09; 这个报错真的恶心&#xff0c;又看不了他服务器源码&#xff0c;接口文档又是错的 活字格V9获取图片失败bug&#xff0c;报错404-CSDN博客 代码BUG记录&#xff1a; 问题&#xff1a;上传多个文件的base64编码被最后一个文…

76 C++对象模型探索。多重继承中虚函数表分析

多重继承非重点内容&#xff0c;在实际开发中使用的不多&#xff0c; 这里只是为了知识点的完整&#xff0c;记录一下。 直接上结论。 一个类&#xff0c;如果继承于多个基类&#xff0c;且这个多个基类中有虚函数&#xff0c;那么 这个类 会有多个 虚函数表。 这个 类的对…

THM学习笔记——john

John the Ripper是目前最好的哈希破解工具之一。 John基本语法&#xff1a; john [options] [path to file] john&#xff1a;调用John the Ripper程序。 [path to file]&#xff1a;包含你要尝试破解的哈希的文件&#xff0c;如果它们在同一个目录中&#xff0c;你就不需要命名…

Docker容器基本管理

目录 一、概述 &#xff08;一&#xff09;为什么要用到容器 &#xff08;二&#xff09;docker概念 1.镜像 2.容器 3.仓库 &#xff08;三&#xff09;Docker与虚拟机的区别 &#xff08;四&#xff09;Linux namespace的六大类型 二、安装docker容器引擎 &#xff…

光耦驱动继电器电路图大全

光耦驱动继电器电路图&#xff08;一&#xff09; 注&#xff1a; 1U1-1脚可接12V&#xff0c;也可接5V&#xff0c;1U1导通&#xff0c;1Q1导通&#xff0c;1Q1-30V&#xff0c;线圈两端电压为11.7V. 1U1-1脚不接或接地&#xff0c;1U1不通&#xff0c;1Q1截止&#xff0c;1…

Federated Optimization in Heterogeneous Networks —— Fedprox算法

Federated Optimization in Heterogeneous Networks 1. 论文信息 论文题目: Federated Optimization in Heterogeneous Networks Fedprox算法&#xff0c;plato小项目跑通并理解作者&#xff1a;Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, …