短视频评论截取提取软件技术思路

关于开发短视频评论所需要用到得技术第一篇

前言:根据业务需要,我们需要通过短视频找到准客户,这个软件应该是叫短视频评论提取软件,或者是短视频评论采集。无所谓叫什么都可以 进入正题。

第一篇只讲解所应该用到得基础工作

一:视频页面分析

找到对应得视频页面,此页面必须带评论。分析出页面中包含得 1:视频名称 2:作者名称

3:作者UID得url 4:获取评论显示得位置 (注意这里得视频评论显示位置,必须登录某视频账号才能进行查看、是否需要点击元素查看评论)

这里展示一下我们第一个版本的douyin视频评论截取软件截图。

V:290615413 

string htmlContent = html;
            try
            {
                // string title = "";//获取title值 标题 视频名称
                Regex regex = new Regex(@"<span class=""j5WZzJdp IoRNNcMW hVNC9qgC"">(.*?)</span>", RegexOptions.IgnoreCase);
                Match match = regex.Match(htmlContent);
                if (match.Success)
                {
                    // 获取匹配到的第一个组(即<title>和</title>之间的内容)
                    title = match.Groups[1].Value;
                    //发布时间:
                    title = title.Replace("<span>", "");
                    title = title.Replace("/", "");

                }
            }
            catch
            {
                //MessageBox.Show("608");
            }

二:字符串函数

通过视频页面分析找到对应的标签 通过字符串函数进行解析 或者是使用正则表达式也是可以的。 简单一些的 解析 则是 视频名称最好解析,建立一个储存视频名称的变量,然后获取 视频名称标签中的 名称即可。 首先要获取打开页面中的html 这里获取的html不是普通的静态 html 而是动态的。

三:UI自动操作

在开始获取评论的时候视频中获取评论有两种方式 一种是 直接进入视频详情页直接可以获取到评论数据,我们只需要做到多少毫秒自动下拉一次获取到隐藏的评论即可。 这种方法虽然简单但是速度快和时间久会被屏蔽 1-5个小时左右

第二种方法是直接进入视频的层页面,进入层页面后无法直接看到评论,必须点击评论的图标才能打开评论,打开评论后才会加载评论,加载评论后才能提取到评论 所以要分析点击层的标签 分析后写入自动点击的代码即可。

下面代码是 douyin视频层需要 下拉评论层的代码

 chromeBrowser2.ExecuteScriptAsync(@"
                    var commentList = document.querySelector('div[data-e2e=""comment-list""]');
                    if (commentList) {
                        commentList.scrollTop = commentList.scrollHeight;
                    }
                ");

四:点击层分析

通过UI自动操作这段文字可以看出,只有用评论视频层才能在基本不被屏蔽的情况下进行评论提取。我们这里分析出点击层后写入点击层代码,但是不能一直点击 必须只点击一次。

点击层的实例代码

  chromeBrowser2.ExecuteScriptAsync(@"
                    var divElement = document.querySelector('div.kT7icnwc');
                    if (divElement) {
                        divElement.click();
                    }
                ");

五:会员session和COOKIE得储存

我们看了其它的软件,使用时必须先通过浏览器打开短视频的网页,登录后通过浏览器的开发者工具找到COOIKE。然后在添加到软件中才可以使用。这种方式过于落后,并且没有技术储备的软件使用者无法顺畅的操作这个。我们作了 直接通过软件登录并且自动保存和加载COOKIE解决这个问题。

六:我们的目标是做到,软件使用者无需自己搞COOKIE也可以使用,所以我们采用了云端的数据处理来解决这个问题

七:关于我们目标开发的短视频评论节流提取 软件的版本和功能

我们开发了多个版本

第一个版本是:只能通过关键词搜索视频进行视频评论提取。不需要登录短视频账号,也无需使用COOKIE 只需要建立任务即可,但是不能关闭软件,关闭软件数据将无法监视。但是可以通过历史任务记录进行提取。

第二个版本:

功能1:通过关键词进行搜索视频来提取视频评论

功能2:通过短视频博主的首页进行评论提取。

功能3:通过单个视频进行视频提取。

功能4:监控视频评论。

功能5:可以随时关闭软件 随时开启 随时监控

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/687916.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过龙讯旷腾PWmat发《The Journal of Chemical Physics》 :基于第一性原理分子动力学热力学积分的离子溶剂化自由能计算

背景导读 离子溶解是电化学中一个重要的过程。电化学反应中许多重要的参数&#xff0c;例如电化学还原电位、无限稀释活度系数、亨利定律溶解常数和离子溶解度等&#xff0c;都与离子的溶剂化能有关。然而&#xff0c;由于测量技术和数据处理的困难&#xff0c;离子溶剂化能的…

GIGE 协议摘录 —— GVSP 协议(三)

系列文章目录 GIGE 学习笔记 GIGE 协议摘录 —— 设备发现&#xff08;一&#xff09; GIGE 协议摘录 —— GVCP 协议&#xff08;二&#xff09; GIGE 协议摘录 —— GVSP 协议&#xff08;三&#xff09; GIGE 协议摘录 —— 引导寄存器&#xff08;四&#xff09; GIGE 协议…

【管理咨询宝藏127】大型集团人力资源体系核心能力提升设计方案

本报告首发于公号“管理咨询宝藏”&#xff0c;如需阅读完整版报告内容&#xff0c;请查阅公号“管理咨询宝藏”。 【管理咨询宝藏127】大型集团人力资源体系核心能力提升设计方案 【格式】PDF版本 【关键词】人力咨询、人才体系、核心能力打造 【核心观点】 - 集团经过30年的…

查询SQL:文章浏览1

问题描述 请查询出所有浏览过自己文章的作者 结果按照 id 升序排列。 查询结果的格式如下所示&#xff1a; 题目分析&#xff1a; 这题主要考察排序asc&#xff08;升序&#xff09;、desc&#xff08;降序&#xff09;以及distinct字段。 解决方案&#xff1a; select DIS…

白酒:茅台镇白酒的丰富历史与文化传承

茅台镇&#xff0c;位于中国贵州省仁怀市&#xff0c;是中国著名的白酒产区&#xff0c;以其得天独厚的自然环境和与众不同的酿造工艺而闻名于世。作为茅台镇的白酒品牌之一&#xff0c;云仓酒庄豪迈白酒承载着丰富的历史与文化传承。 茅台镇的历史可以追溯到汉代&#xff0c;当…

一套java开发的(未来工厂核心MES系统成品源码)技术架构:java+springboot 支撑多端管理,可商用

MES定义为“位于上层的计划管理系统与底层的工业控制之间的面向车间层的管理信息系统” 20世纪90年代初期&#xff0c;中国就开始对MES以及ERP的跟踪研究、告知或试点&#xff0c;而且曾经发言 “管控一体化”&#xff0c;“人、财、物、产、供、销”等颇具中国独具一格的CIMS、…

Intel VT-x怎么开启?如何解决VMware打开虚拟机报错问题?

许多小伙伴在安装完VMware不能打开虚拟机&#xff0c;每次打开都会出现一个“此主机支持 Intel VT-x&#xff0c;但 Intel VT-x 处于禁用状态”的报错&#xff0c;然后因此启动不了虚拟机。今天小编就带来如何解决这个报错的方法。 什么是Intel VT-x&#xff1f; 这是英特尔cp…

代理记账公司的标准,理解并遵循业务流程和道德规范

代理记账公司的存在是为了帮助企业管理和报告他们的财务信息&#xff0c;他们为企业的各种交易提供会计服务&#xff0c;并确保企业遵守所有相关的法规和准则&#xff0c;这些公司需要严格地符合一些标准以维持良好的声誉和服务质量。 代理人必须拥有适当的证书和执照&#xff…

GIGE 协议摘录 —— GVCP 协议(二)

系列文章目录 GIGE 学习笔记 GIGE 协议摘录 —— 设备发现&#xff08;一&#xff09; GIGE 协议摘录 —— GVCP 协议&#xff08;二&#xff09; GIGE 协议摘录 —— GVSP 协议&#xff08;三&#xff09; GIGE 协议摘录 —— 引导寄存器&#xff08;四&#xff09; GIGE 协议…

经典神经网络(10)PixelCNN模型、Gated PixelCNN模型及其在MNIST数据集上的应用

经典神经网络(10)PixelCNN模型、Gated PixelCNN模型及其在MNIST数据集上的应用 1 PixelCNN PixelCNN是DeepMind团队在论文Pixel Recurrent Neural Networks (16.01)提出的一种生成模型&#xff0c;实际上这篇论文共提出了两种架构&#xff1a;PixelRNN和PixelCNN&#xff0c;两…

【LeetCode算法】第110题:平衡二叉树

目录 一、题目描述 二、初次解答 三、官方解法 四、总结 一、题目描述 二、初次解答 1. 思路&#xff1a;从上而下访问二叉树的节点&#xff0c;递归判定当前节点的左子树和右子树的高度差是否为0、-1或1&#xff0c;从而判定其是否是平衡二叉树。 2. 代码&#xff1a; int…

【Web API DOM11】节点操作

一&#xff1a;DOM节点 1 什么是DOM节点 DOM树里每一个内容都称为节点 2 DOM节点分类 元素节点 属性节点&#xff1a;a标签的href、img标签的src等 文本节点&#xff1a;标签中的文字 上图为整个DOM树&#xff0c;每个标签、以及标签属性、文本内容构成了DOM树 二&#…

代码随想录算法训练营day43

题目&#xff1a;1049. 最后一块石头的重量 II 、494. 目标和、474.一和零 参考链接&#xff1a;代码随想录 1049. 最后一块石头的重量 II 思路&#xff1a;本题石头是相互粉碎&#xff0c;粉碎后剩下的重量就是两块石头之差&#xff0c;我们可以想到&#xff0c;把石头分成…

从零开始手把手Vue3+TypeScript+ElementPlus管理后台项目实战四(引入Axios,并调用第一个接口)

RealWorld接口综述 本项目调用的是RealWorld项目的开放接口。 接口文档如下&#xff1a; https://main--realworld-docs.netlify.app/docs/specs/backend-specs/endpoints https://main--realworld-docs.netlify.app/docs/specs/frontend-specs/swagger RealWorld 是一个适…

Day45 代码随想录打卡|二叉树篇---路径总和

题目&#xff08;leecode T112&#xff09;&#xff1a; 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径&#xff0c;这条路径上所有节点值相加等于目标和 targetSum 。如果存在&#xff0c;返回 true &#xff1b;…

LeetCode刷题之HOT100之最小路径和

2024/6/7 今天天气转晴&#xff0c;将栀子花移动到二楼阳台&#xff0c;愿它好&#xff01;昨天准备做完这题再回去&#xff0c;太晚了感觉很疲惫&#xff0c;做不下去&#xff0c;今天早上来把它做了。 1、题目描述 2、逻辑分析 昨天上午做过一个跳格子的题目&#xff0c;也…

设计软件有哪些?效果工具篇(2),渲染100邀请码1a12

这次我们继续介绍一些渲染效果和后期处理的工具。 1、Krakatoa Krakatoa是由Thinkbox Software开发的强大的粒子渲染器&#xff0c;可用于Autodesk 3ds Max等软件。它专注于处理大规模粒子数据&#xff0c;提供了高效的渲染解决方案&#xff0c;适用于各种特效、粒子系统和模…

配音方面目前可以用AIGC替代吗?( 计育韬老师高校公益巡讲答疑实录2024)

这是计育韬老师第 8 次开展面向全国高校的新媒体技术公益巡讲活动了。而在每场讲座尾声&#xff0c;互动答疑环节往往反映了高校师生当前最普遍的运营困境&#xff0c;特此计老师在现场即兴答疑之外&#xff0c;会尽量选择有较高价值的提问进行文字答疑梳理。 *本轮巡讲主题除了…

李飞飞解读创业方向:「空间智能」

在AI领域&#xff0c;李飞飞教授一直是一个举足轻重的存在。她的研究和见解不仅推动了计算机视觉的发展&#xff0c;更对人工智能的未来方向产生了深远的影响。在最近的一次演讲中&#xff0c;李飞飞详细解读了她对于「空间智能」的见解。本文将对她的演讲内容进行详细解读&…

第一周:计算机网络概述(上)

一、计算机网络基本概念 1、计算机网络通信技术计算机技术 计算机网络就是一种特殊的通信网络&#xff0c;其特殊之处就在于它的信源和信宿就是计算机。 2、什么是计算机网络 在计算机网络中&#xff0c;我们把这些计算机统称为“主机”&#xff08;上图中所有相连的电脑和服…