2023 年,全网火爆聊天机器人,不同行业企业开始探索应用大模型于垂直领域,当算法和算力已经被证明是行之有效的,那么重头戏就是数据了,Chatopera 近日发布了心理咨询行业的又一大规模语料 - 包含 4.4 千万 TOKEN 的多轮对话语料 - 心理咨询问答原始语料库(Emotional First Aid Raw Dataset),将进一步催化机器学习 Transformer 技术在心理健康领域的应用,该工具包目前已经在 GitHub,Gitee 上可进一步的了解使用。
数据示例:
{
"title": "女 最近感觉好困好累,感觉好压抑,没有人理解自己,好多好多问题弄得我自己身心疲惫,活着好累啊。人为什么要活着啊,最好躺在那里永远不要起来",
"date": "2017-12-31 21:20:25",
"owner": "匿名",
"id": "5e6b9b94d037ed455ee9c9d7",
"chats": [
{
"sender": "audience",
"value": "您好!",
"time": "21:20:44",
"name": "Audience5"
},
{
"sender": "audience",
"value": "您今年多大了?这种好累的感觉有多久?",
"time": "21:22:13",
"name": "Audience3"
},
{
"sender": "audience",
"value": "你好,理解你的心情",
"time": "21:27:07",
"name": "Audience1"
},
{
"sender": "audience",
"value": "您好!发生了什么有影响的事件了吗?",
"time": "21:28:51",
"name": "Audience10"
},
{
"time": "07:26:01",
"sender": "owner",
"value": "很多事情,老公的不理解,婆婆的无理取闹,大姑姐也闹,做的我身心疲惫"
},
{
"time": "07:26:45",
"sender": "owner",
"value": "如果没有孩子这日子没法过了"
},
{
"sender": "audience",
"value": "请升级你的软件否则无法收到信息",
"time": "08:13:41",
"name": "Audience9"
}
]
}
语料特点:
- 规模大,话题数:172,316 (每个话题都带有评论),消息总数:2,381,273 (话题+评论的消息总数),消息文本规模:44,514,786 (全部话题和评论的文本字符的总计)
- 稀缺性,数据始于 2017 年的可公开访问的网站,目前一些数据已经不能公开访问
- 连续上下文的多轮对话,平均每个话题的评论数: 12.8 个
目前,该语料下载是通过 Chatopera 证书商店购买证书后下载使用的,获取更多详细信息,请访问官网地址,见下。
官网地址:
- GitHub https://github.com/chatopera/efaqa-corpus-raw/
- Gitee https://gitee.com/chatopera/efaqa-corpus-raw/