4.4 千万 TOKEN 心理咨询语料库发布,专为大模型,让人工智能技术更好的服务人

2023 年,全网火爆聊天机器人,不同行业企业开始探索应用大模型于垂直领域,当算法和算力已经被证明是行之有效的,那么重头戏就是数据了,Chatopera 近日发布了心理咨询行业的又一大规模语料 - 包含 4.4 千万 TOKEN 的多轮对话语料 - 心理咨询问答原始语料库(Emotional First Aid Raw Dataset),将进一步催化机器学习 Transformer 技术在心理健康领域的应用,该工具包目前已经在 GitHub,Gitee 上可进一步的了解使用。
在这里插入图片描述

数据示例:

{
  "title": "女 最近感觉好困好累,感觉好压抑,没有人理解自己,好多好多问题弄得我自己身心疲惫,活着好累啊。人为什么要活着啊,最好躺在那里永远不要起来",
  "date": "2017-12-31 21:20:25",
  "owner": "匿名",
  "id": "5e6b9b94d037ed455ee9c9d7",
  "chats": [
    {
      "sender": "audience",
      "value": "您好!",
      "time": "21:20:44",
      "name": "Audience5"
    },
    {
      "sender": "audience",
      "value": "您今年多大了?这种好累的感觉有多久?",
      "time": "21:22:13",
      "name": "Audience3"
    },
    {
      "sender": "audience",
      "value": "你好,理解你的心情",
      "time": "21:27:07",
      "name": "Audience1"
    },
    {
      "sender": "audience",
      "value": "您好!发生了什么有影响的事件了吗?",
      "time": "21:28:51",
      "name": "Audience10"
    },
    {
      "time": "07:26:01",
      "sender": "owner",
      "value": "很多事情,老公的不理解,婆婆的无理取闹,大姑姐也闹,做的我身心疲惫"
    },
    {
      "time": "07:26:45",
      "sender": "owner",
      "value": "如果没有孩子这日子没法过了"
    },
    {
      "sender": "audience",
      "value": "请升级你的软件否则无法收到信息",
      "time": "08:13:41",
      "name": "Audience9"
    }
  ]
}

语料特点:

  • 规模大,话题数:172,316 (每个话题都带有评论),消息总数:2,381,273 (话题+评论的消息总数),消息文本规模:44,514,786 (全部话题和评论的文本字符的总计)
  • 稀缺性,数据始于 2017 年的可公开访问的网站,目前一些数据已经不能公开访问
  • 连续上下文的多轮对话,平均每个话题的评论数: 12.8 个

目前,该语料下载是通过 Chatopera 证书商店购买证书后下载使用的,获取更多详细信息,请访问官网地址,见下。

官网地址:

  • GitHub https://github.com/chatopera/efaqa-corpus-raw/
  • Gitee https://gitee.com/chatopera/efaqa-corpus-raw/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/317514.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式之策略模式【行为型模式】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档> 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某…

反爬虫策略:使用FastAPI限制接口访问速率

目录 引言 一、网络爬虫的威胁 二、FastAPI 简介 三、反爬虫策略 四、具体实现 五、其他反爬虫策略 六、总结 引言 在当今的数字时代,数据已经成为了一种宝贵的资源。无论是商业决策、科学研究还是日常生活,我们都需要从大量的数据中获取有价值的…

【JaveWeb教程】(25) JDBC、数据库连接池、Lombok 详细代码示例讲解(最全面)

目录 2. JDBC介绍(了解)2.1 介绍2.2 代码2.3 问题分析2.4 技术对比 3. 数据库连接池3.1 介绍3.2 产品 4. lombok4.1 介绍4.2 使用 2. JDBC介绍(了解) 2.1 介绍 通过Mybatis的快速入门,我们明白了,通过Mybatis可以很方便的进行数据库的访问操作。但是大…

【STM32】STM32学习笔记-FlyMCU串口下载和STLINK Utility(30)

00. 目录 文章目录 00. 目录01. 串口简介02. 串口连接电路图03. FlyMCU软件下载程序04. 串口下载原理05. FlyMCU软件其它操作06. STLINK Utility软件07. 软件下载08. 附录 01. 串口简介 串口通讯(Serial Communication)是一种设备间非常常用的串行通讯方式,因为它简…

【LeetCode:30. 串联所有单词的子串 | 滑动窗口 + 哈希表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

书生·浦语大模型实战营-学习笔记1

目录 书生浦语大模型全链路开源体系数据集预训练微调评测部署多智能体 视频地址: (1)书生浦语大模型全链路开源体系 开源工具github: https://github.com/InternLM/InternLM 书生浦语大模型全链路开源体系 这次视频中介绍了由上海人工智能实验室OpenMMLa…

Himawari-8 数据下载【利用FTP】

1 波段介绍 2 注册 数据下载之前,必须进行注册 JAXA Himawari Monitor | Registration 注册后,在邮箱里点击同意 邮箱会给出FTP的账号信息 3 下载FTP软件 点击进行新站点的新建 设置刚才邮箱里的主机、用户和密码 选择远程站点,选择自己…

apache、nginx、php 隐藏版本号

apache、nginx、php 隐藏版本号 针对的系统都是CentOS 1、没配置之前 1.1 Server: Apache/2.4.6 (CentOS) OpenSSL/1.0.2k-fips PHP/7.2.24 mod_wsgi/3.4 Python/2.7.5 1.2 Server: nginx/1.16.0 1.3 X-Powered-By:7.2.24 2、配置信息 不知道具体位置,可…

【grpc】利用protobuf实现java或kotlin调用python脚本,含实现过程和全部代码

前言 在一些特殊场景中,我们可能需要使用java或者其他任意语言调用python脚本或sdk等。本文的需求衍生也不例外于此,python端有sdk,但只能在python中调用,于是就有了本文章。 常见的调用方式如jython、python提供http rest接口、…

【搜索引擎设计:信息搜索怎么避免大海捞针?

在前面我们提到了网页爬虫设计:如何下载千亿级网页?中,我们讨论了大型分布式网络爬虫的架构设计,但是网络爬虫只是从互联网获取信息,海量的互联网信息如何呈现给用户,还需要使用搜索引擎完成。因此&#xf…

计算机组成原理 CPU的功能和基本结构和指令执行过程

文章目录 CPU的功能和基本结构CPU的功能CPU的基本结构 指令执行过程指令周期概念指令执行方案指令数据流取周期数据流析指周期数据流执行周期数据流中断周期数据流 数据通路的功能和基本结构数据通路的功能数据通路的结构单总线 CPU的功能和基本结构 #mermaid-svg-jr0QOEyC6Q92…

【MySQL】MySQL表的约束-空属性/默认值/列属性/zerofill/主键/自增长/唯一键/外键

文章目录 表的约束1.空属性 --null && not null2.默认值 -- default3.列描述4.zerofill5.主键6.自增长7.唯一键8.外键 表的约束 表的约束:表中一定要有各种约束,通过约束,让我们未来插入数据库表中的数据是符合预期的。约束的本质是…

8年经验分享:想要成为一名合格的软件测试工程师,你得会些啥?

对于很多新入行或者打算入行,成为软件测试工程师的小伙伴来说,刚开始接触这行,不知道自己究竟该学些什么,或者不知道必须掌握哪些知识,才能成为一名合格的测试工程师。 根据笔者观点,如果你能在学习过程中&…

Springboot项目Nacos做配置中心

Springboot项目Nacos做配置中心 说明安装2.Springboot整合使用Nacos3.问题处理 说明 文档参考 Nacos Spring Boot 安装 查看nacos镜像 docker search nacos 下载镜像 docker pull nacos/nacos-server启动naocs镜像 docker run --env MODEstandalone --name nacos -d -p 8…

Android Studio导入项目 下载gradle很慢或连接超时

AS最常见的问题之一就是下载gradle非常慢,还经常出现下载失败的情况,没有gradle就无法build项目,所以一定要先解决gradle的下载问题,下面教大家两种常用方法。 因为我的项目绝大多数使用的是gradle-5.6.4-all,下面就以…

将Python 程序封装成exe程序(保姆级教程)

前言 常用的软件都是带有操作界面的(Graphical User Interface,GUI),其目的就是在用户不需要看懂程序 底层代码的同时也可以进行软件相关功能的操作,更便于用户与程序的交互。随着Python逐渐成为一种流行编程工具的同时…

从混沌到有序:2023年全球软件质量与效能大会中的运维经验分享

在当今这个信息化社会,软件已经成为了我们生活和工作中不可或缺的一部分。然而,随着软件应用的普及和复杂度的增加,如何保障软件的质量和效能已经成为了一个重要的问题。 2023年全球软件质量与效能大会(QECon上海站)汇…

前端基础知识整理汇总(上)

HTML页面的生命周期 HTML页面的生命周期有以下三个重要事件&#xff1a; DOMContentLoaded —— 浏览器已经完全加载了 HTML&#xff0c;DOM 树已经构建完毕&#xff0c;但是像是 <img> 和样式表等外部资源可能并没有下载完毕。 load —— 浏览器已经加载了所有的资源&…

CSS3动画效果详解

CSS3动画 在CSS3中&#xff0c;animation属性用于实现元素的动画。 animation属性跟transition属性在功能实现上是非常相似的&#xff0c;都是通过改变元素的属性值来实现动画效果。但是&#xff0c;这两者实际上有着本质的区别 对于transition属性来说&#xff0c;它只能将…

CMake在静态库中链接动态库

hehedalinux:~/Linux/multi-v3$ tree . ├── calc │ ├── add.cpp │ ├── CMakeLists.txt │ ├── div.cpp │ ├── mult.cpp │ └── sub.cpp ├── CMakeLists.txt ├── include │ ├── calc.h │ └── sort.h ├── sort │ ├── …