日语对话构建调查研究

日语对话构建调查研究

一,OKWave(オウケイウェイヴ)网站NLP数据调研

1.OKWave速递

OKWave网址:OKWave
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从OKWave网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:该社区成立于1999年,已经有超过20年的历史,它是日本最早的在线问答社区之一,也是最大的之一,据调研帖子总数据量:826万条,可直接抓取帖子总量2万条。通过关键字,推荐间接抓取约100万条
日新增:OKWave每日新增帖子的数量在400左右
MAU:每月月活约为1000万。
(2)网站简要介绍
OKWave(オウケイウェイヴ)是一家位于日本的在线问答社区,成立于1999年。它是日本最大的问答社区之一,有超过300万的注册用户,每个月有超过500万的独立访问者。OKWave提供了一个平台,让用户能够提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

一,教えて!goo(おしえて!グー)网站NLP数据调研

1.教えて!goo速递

教えて!goo网址:教えて!goo
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从教えて!goo网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。
日新增:每日新增700左右
MAU:2500万人
(2)网站简要介绍
与OKWave一样是日本最大的在线问答社区之一,成立于1999年。它为用户提供了一个平台,让他们可以提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站的内容涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

三,Yahoo!知恵袋网站NLP数据调研

1.Yahoo!知恵袋

Yahoo!知恵袋网址:Yahoo!知恵袋
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:无特殊反爬手段,可直接从Yahoo!知恵袋网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。 包括可通过推荐与间接抓取数约100万
日新增:每日新增4k左右
MAU:8400万人
(2)网站简要介绍
雅虎智慧袋(Yahoo!知恵袋,Yahoo! Chiebukuro)是雅虎公司提供的一个在线问答社区,成立于2003年,目前在日本非常受欢迎,是日本最大的问答社区之一。

该网站的内容话题非常广泛,涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。用户可以在网站上提问和回答问题,每个问题都可以分配到一个特定的板块,例如健康、教育、美食、旅行等等,方便用户找到自己感兴趣的问题和回答。

四,Quora日本版网站NLP数据调研

1.Quora日本版

Quora日本版网址:Quora日本版
网站印象图
在这里插入图片描述

2.调研结论

(1)可行性:进行小规模的测试,无特殊的反爬手段。只是最后获取评论涉及动态加载,用selenium模拟点击即可。可从Quora日本版网站抓取数据并构建对话。
(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量:综合日活与成立时间估计总帖子数二百万以上。
日新增:每日新增200左右
MAU:3万人
(2)网站简要介绍
Quora日本版的内容话题非常广泛,涵盖了各个领域的主题。与其他问答社区类似,Quora日本版的内容话题是由用户自主提出的,因此非常多样化和多样性。这种开放性的内容话题可以让用户获得各种不同的意见和建议,吸引了大量用户的参与。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566266.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Springboot+Vue项目-基于Java+MySQL的学科竞赛管理系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

echarts 双堆叠柱状图(数据整理)

1.后台返回的数据格式 {"code": "0000","message": "","messageCode": "操作成功","sign": null,"detail": null,"data": {"pieChart": [{"key": "产品…

鸿蒙 harmonyos 线程 并发 总结 async promise Taskpool woker(三)多线程并发 Worker

Worker Worker是与主线程并行的独立线程。创建Worker的线程称之为宿主线程,Worker自身的线程称之为Worker线程。创建Worker传入的url文件在Worker线程中执行,可以处理耗时操作但不可以直接操作UI。 Worker主要作用是为应用程序提供一个多线程的运行环境…

C++:特殊成员函数

构造函数、析构函数和拷贝构造函数是C类中的三种特殊成员函数,它们分别用于对象的初始化、清理和拷贝操作。 1.构造函数(Constructor):构造函数在对象创建时自动调用,用于初始化对象的成员变量。它的名称与类名相同&a…

Robbins-Monro(RM)算法【随机近似】

强化学习笔记 主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程,个人觉得赵老师的课件深入浅出,很适合入门. 第一章 强化学习基本概念 第二章 贝尔曼方程 第三章 贝尔曼最优方程 第四章 值迭代和策略迭代 第五章 强化学习实践—GridWorld 第…

Unity3d的海盗王地图

一直以来,都想将海盗王的地图搬到手游unity3d上面。 经过漫长时间的研究,终于实现了当初的想法。

「最没存在感」港姐冠军入行10年不受捧,与相恋4年男友分手

昨日(4月21日)一众歌手艺人齐集红馆举行《全港运动全城跃动第九届全港运动会开幕礼》录影,TVB亦派出不少的歌手艺人小花表演。其中一部分是邵珮诗与黄婧灵大跳拉丁舞,同属身材丰满的二人跳起上来视觉极夸张。 而平常经常露出姣好身…

《庆余年》开发衍生短剧,阅文迈向短剧市场的一大步

《庆余年》竟然也要拍短剧了。 据悉,《庆余年》衍生短剧《庆余年之少年风流》预计将于5月1日开机,等了五年都没等到《庆余年2》,没想到先等到了衍生短剧。 由组讯消息可知,《庆余年之少年风流》讲述的是少年庆帝李云潜“扮猪吃老…

小游戏:贪吃蛇

🎁个人主页:我们的五年 🔍系列专栏:贪吃蛇 🌷追光的人,终会万丈光芒 目录 🏝1.头文件: 🏝2.实现文件: 🏝3.测试文件 : 前言&#…

探索 去中心化的Web3.0

随着区块链技术的日益成熟和普及,Web3(Web 3.0)已经成为一个无法忽视的趋势。Web3不仅仅是一个技术概念,更是一个去中心化、透明、用户数据拥有权归还给用户的互联网新时代。在这篇文章中,我们将深入探讨Web3技术的核心…

uniApp项目总结

前言 大半年的时间,项目从秋天到春天,从管理后台到APP再到数据大屏,技术栈从vue3到uniApp再到nuxt3,需求不停的改,注释掉代码都快到项目总体的三分之一。 一,项目技术栈分析 1.1 项目框架 当前&#xf…

30V-STM32设计项目

30V-STM32设计 一、项目描述 (已验证) 基于STM32c8t6芯片设计的开发板,支持4-30V宽电压输入,串口模式自动下载功能,支持串口和STlink,方式下载程序 二、原理图介绍 电源电路采用了DCDCLDO电路,如果是外接DC头供电的话&…

坚蛋运动新质生产力实践——“AI健康”战略引领产品和服务创新

进入AI时代,全球互联网企业均开启了以大模型及其应用为代表的第四次工业革命的激烈竞赛。坚蛋运动已在全国范围内布局300门店,预计实现2024年500、2025年1000门店,作为国内运动健康产业的头部品牌,坚蛋运动率先提出并推动“AI健康…

广州大学《软件工程》实验报告三软件设计

广州大学学生实验报告(三) 开课学院及实验室: 学院 年级/专业/班 姓名 学号 实验课程名称 软件工程导论实验 成绩 实验项目名称 软件设计 指导老师 一、实验目的 掌握软件设计建模技术,能够撰写软件设计文…

判断经济形势最常用的统计指标有哪些

分析判断经济形势常常围绕以下四大目标进行:经济增长、充分就业、物价稳定、国际收支平衡。这四大目标相互联系、相互影响、相互制约,宏观调控的目的在于恰当处理这四方面的关系,寻求一个最佳平衡点。通过全面观察这四大指标,可以…

postCss基本介绍

🌟什么是postCss? 我个人的理解postCss就是css界的babel,它提供一个过程,而在这个过程中,去干什么就是你自己的事情,所以很多人写插件,去做代码转换,或者兼容等等。 babel 提供过程 …

新的全息技术突破计算障碍

一种突破性的方法利用基于Lohmann透镜的衍射模型实时创建计算机生成全息图(CGH),在保持3D可视化质量的同时,大大降低了计算负荷要求。 全息显示为制作逼真的三维图像提供了一条令人兴奋的途径,这种图像给人以连续深度…

Pytest精通指南(26)钩子函数-依赖执行(pytest-dependency)

文章目录 前言应用场景插件安装注意事项参数分析函数名称依赖实现方式类下函数路径实现方式通过设置别名指定依赖定义依赖范围作用于类作用于模块作用于包作用于会话拓展-非常重要 前言 pytest-dependency的主要用途是确保测试用例按照指定的依赖关系顺序执行。 在一个复杂的测…

R语言绘制动态网络图Network教程WGCNA

今天分享的笔记是使用NetworkD3对WGCNA的共表达网络进行可视化,创建交互式动态网络图,展示基因之间的相互关系,可以用于转录组或者其他调控网络展示。 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同…

数值分析复习:Richardson外推和Romberg算法

文章目录 Richardson外推Romberg(龙贝格)算法 本篇文章适合个人复习翻阅,不建议新手入门使用 本专栏:数值分析复习 的前置知识主要有:数学分析、高等代数、泛函分析 本节继续考虑数值积分问题 Richardson外推 命题&a…