Potato(土豆)一款轻量级的开源文本标注工具(二)

示例项目(模版)

Potato 旨在提高数据标注的可复制性,并降低研究人员设置新标注任务的成本。因此,Potato 提供了一系列预定义的示例项目,并欢迎公众向项目中心贡献。如果您使用 Potato 进行了自己的标注工作,也鼓励用户创建一个 pull request 并发布您的标注设置。

Potato 提供了一系列示例模板,用于 所有支持的标注架构,您可以轻松地通过以下方式从项目中心下载它们。

本文给出几个在大模型文本标注训练中,常用到的几种标注事例。

阅读理解(Question Answering / Reading comprehension (SQuAD style))

原文(翻译):2014年10月,碧昂斯与英国时尚零售商Topshop签署了一项协议,将推出一系列运动服。这家五五开的合资企业名为Parkwood Topshop Athletic Ltd,计划于2015年秋季推出其首个舞蹈、健身和运动系列。该线路将于2016年4月开通。

问题(翻译):英国与碧昂斯的合作销售哪种服装?

该项标注功能: 如果该问题的答案在原文中可以找到,使用鼠标高亮选择。另外,支持多处选择; 已选择的文本,双击鼠标,可以消除掉。较为方便。

文本匹配(match_finding)

(base) d:\study\potato>python potato/flask_server.py start project-hub/match_finding/configs/Computer_Science.yaml -p 8000

解释一下,标注原因:

标注得分:3.Somewhat similar

这是因为两者都涉及到了行李费与航空公司起飞性能的关系,但在具体描述和角度上存在差异。news没有区分不同类型的航空公司,而是普遍强调了正面影响;而paper则具体指出了不同类型航空公司之间的性能差异。

文本摘要(Summarization evaluation)

(base) d:\study\potato>python potato/flask_server.py start project-hub/summarization_evaluation/configs/summ-eval.yaml -p 8000

  • 四个重要评估维度。
    • 相关性(relevance):摘要包含的信息是否为文中重要信息。
    • 一致性(consistency):摘要是否有事实性错误。本文关注的忠实度(faithfulness)也和一致性较为相关。
    • 流畅性(fluency):摘要中的单个句子是否通顺。
    • 连贯性(coherence):摘要整体是否行文流畅连贯。

参考: 【NLP学习】如何评估文本摘要模型的忠实度(faithfulness)

文本改写(Text Rewriting)

实例中,给出的是一个更加礼貌性(politeness)的改写:

(base) d:\study\potato>python potato/flask_server.py start project-hub/text_rewriting/configs/politeness.yaml -p 8000

原文(翻译):Shelley,仅供参考。蕾塔在这个项目上与丽塔密切合作。里克和我也会参与其中。如果您有任何问题,

请告诉我们。谢谢林恩

要求(翻译):你的同事正在起草一封电子邮件,并请求你的帮助。请帮忙重写以上信息,使其更有礼貌。

更多实例,可以参考官网: Example Projects - potato annotation

也欢迎一起探讨学习!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/750771.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【字符串】【双指针】1、仅仅反转字母+2、回文子串+ 3、最长回文子串+4、验证回文串+5、反转字符串中的单词

今天依旧是字符串!2道简单+3道中等 1、仅仅反转字母(难度:简单) 该题对应力扣网址 错误做法 一开始是“原始”思路,交了之后果然不对,错误的思路我也就不解释了。 class Solution { public:…

计算机毕业设计Python+LSTM+Tensorflow股票分析预测 基金分析预测 股票爬虫 大数据毕业设计 深度学习 机器学习 数据可视化 人工智能

基于TensorFlow-LSTM的股票预测系统开题报告 一、研究背景与意义 随着信息技术的飞速发展,股票市场作为现代经济活动的重要组成部分,其价格波动受到广泛关注。投资者们迫切希望通过科学的方法预测股票价格,以优化投资决策,实现利…

达梦数据库的系统视图v$database

达梦数据库的系统视图v$database 基础信息 OS版本: Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本: DM Database Server 64 V8 DB Version: 0x7000c 03134284132-20240115-215128-20081在达梦数据库(Dameng Database&#xf…

yolov10打包为exe

一、前言 本节实验将官方yolov10推理程序打包为exe运行 二、代码 首先下载官方代码至本机,并使用conda创建虚拟环境,并安装好yolov10所需库 conda create --prefix E:/pyenv/myYolo10 python3.8 pip install -r requirements.txt 下载官方模型权重 …

最新Adobe2024全家桶下载,PS/PR/AE/AI/AU/LR/ID详细安装教程

如大家所熟悉的,Adobe全家桶系列常用的软件有Photoshop(PS)、Premiere(PR)、After Effects(AE)、illustrator(AI)、Audition(AU)、Lightroom&…

计算机二级Access操作题总结——综合应用

属性表相关 例1: 不允许输入和修改其中的数据→【是否锁定】 例2: 单击“退出”按钮(名为“bt2”),调用设计好的宏“mEmp”来关闭窗体。 分组和汇总 对“rSell”报表进行适当设置,使每名雇员的姓名显示在该雇员所售书籍信…

第四天 怎么又迟到了呀 哎啥时候来准时上个课呀

泛型编程 Traits实现,是什么 泛型编程(Generic Programming)是一种通过编写与特定类型无关的代码来实现代码复用和抽象的编程范式。 在C中,模板(Templates)是实现泛型编程的主要手段。 Traits&#xff0…

基于ssh框架的个人博客源码

基于ssh的个人博客源码,页面清爽简洁,原先有部分bug,运行不了,现已修复 1.博客首页 (本地访问地址 :localhost:8080/Blog/index/index) 2.关于我 3.慢生活 4.留言板 5.我的相册 微信扫码下载源码

《分析模式》漫谈07-怎样把一张图从不严谨改到严谨

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 下图是《分析模式》原书第2章的图2.10,里面有一些错误和考虑不周的地方: 2004中译本和2020中译本的翻译如下: 基本上都是照搬,没有改过…

widows下 vscode 的 terminal / powershell,ctrl+v失灵,输出^v

问题 原因 最近装了PSReadLine Import-Module PSReadLineSet-PSReadLineOption -PredictionSource History Set-PSReadLineOption -PredictionViewStyle InlineView Set-PSReadLineOption -EditMode Emacsvscode不兼容 解决方法 注释掉最后面的 Import-Module PSReadLineS…

2021年12月电子学会青少年软件编程 中小学生Python编程等级考试三级真题解析(选择题)

2021年12月Python编程等级考试三级真题解析 选择题(共25题,每题2分,共50分) 1、小明在学习计算机时,学习到了一个十六进制数101,这个十六进制数对应的十进制数的数值是 A、65 B、66 C、256 D、257 答案&#xff…

浅析Resource Quota中limits计算机制

前言 在生产环境中,通常需要通过配置资源配额(Resource Quota)来限制一个命名空间(namespace)能使用的资源量。在资源紧张的情况下,常常需要调整工作负载(workload)的请求值&#xf…

MySQL周内训参照4、触发器-插入-修改-删除

触发器 1、用户购买商品时,要求库存表中的库存数量自动修改 详细示例 delimiter $$ create trigger stock_change after -- 事件触发在 下订单之后 insert -- 监视插入事件 on stock -- 监视 order订单表 for each row begin update stock set stockstock-new.st…

ROT5、ROT13、ROT18、ROT47全系列加解密小程序

ROT5、ROT13、ROT18、ROT47全系列加解密小程序 这几天在看CTF相关的课程,涉及到古典密码学和近代密码学还有现代密码学。自己编了一个关于ROT全系列的加、解密小程序。 ​ ROT5、ROT13、ROT18、ROT47 编码是一种简单的码元位置顺序替换暗码。此类编码具有可逆性&a…

音视频入门基础:H.264专题(8)——H.264官方文档的描述符

音视频入门基础:H.264专题系列文章: 音视频入门基础:H.264专题(1)——H.264官方文档下载 音视频入门基础:H.264专题(2)——使用FFmpeg命令生成H.264裸流文件 音视频入门基础&…

开发自动回复信息的插件:代码的力量与智慧!

在信息爆炸的时代,自动回复信息的插件成为了许多用户和管理者的得力助手,这些插件能够根据预设的规则或算法,自动、快速、准确地回复用户的信息,极大地提高了沟通效率和用户体验。 而开发这样一款插件,离不开一系列精…

这三款工具很好用,赶快试试

FileZilla FileZilla是一款免费开源的FTP软件,分为客户端版本和服务器版本,具备所有的FTP软件功能。它是一个快速、可信赖的FTP客户端以及服务器端开放源代码程序,具有多种特色和直觉的界面。FileZilla客户端版是一个方便高效的FTP客户端工具…

校企合作,为人才培养注入新动力

树莓集团在校企合作育人方面取得了显著成效,通过共建专业、定制课程、实习实训等多种方式,实现了教育资源的优化配置和高效利用,为高校和企业提供了更多的发展机会和合作空间。 1、共建专业与实验室:树莓集团与高校共同建设数字产…

Transformer教程之Transformer的历史背景

在现代人工智能领域,Transformer模型已经成为一种不可或缺的技术,它在自然语言处理(NLP)和计算机视觉等多个领域取得了巨大的成功。本文将带你回顾Transformer的历史背景,了解它是如何从最初的构想到今天的广泛应用的。…

分享一款永久免费内网穿透工具——巴比达内网穿透

最近在做web项目,想办法将web项目映射到公网进行访问,由于没有固定IP,只能使用内网穿透的方法,于是在网上搜索了一番,只有神卓互联旗下的这款巴比达内网穿透是真正免费的, 其它的要么用不了、要么限制没有流…