nodeJS爬虫-爬取虎嗅新闻

1.安装依赖库到本地,需要的库有:安装方法见Node.js笔记说明
const superagent = require('superagent');
const cheerio = require('cheerio');
const async = require('async');
const fs = require('fs');
const url = require('url');
const request = require('request');

2.爬取首页:
 

const huxiuUrl = 'https://www.huxiu.com/';


function Huxiu_hot3(url){
this.url = url;
this.getindex = function(){
superagent.get(this.url).end(function(err, res) {
    if (err) {
     return console.error(err);
    }
    //cheerio nodejs版的JQ
    let $ = cheerio.load(res.text);
    //获取首页所有的链接
    //console.log(res.text);
   });
 }

}



var test = new Huxiu_hot3(huxiuUrl);
test.getindex();

(1)这里要介绍一下superagent:
         superagent是nodeJS里一个非常方便的客户端请求代码模块;
         请求方式有:
         get(默认)
         post
         put
         delete
         head
(2)语法:
request(RequestType, RequestUrl).end(callback(err, res));

(3)写法:
var request = require('superagent') 
request        //request表示superagent对象
   .post('/api/pet') 
   .send({ name: 'Manny', species: 'cat' }) 
   .set('X-API-Key', 'foobar') 
   .set('Accept', 'application/json') 
   .then(res => { alert('yay got ' + JSON.stringify(res.body)); 

});

3.页面数据解析: 我们通过cheerio的load方法解析整个文档,就是html页面所有内容,可以通过console.log($.html());在控制台查看
(1)利用JQuery语法操作DOM: cheerio是一个node的库,可以理解为一个Node.js版本的jquery,用来从网页中以 css selector取数据,使用方式和jquery基本相同。
$('div.big-pic-box div>a:first-child').each(function(idx,element){
    let $element = $(element);
    //console.log($element.attr('href'));
});

(2)Jquery遍历函数: each() 方法规定为每个匹配元素规定运行的函数。
语法:$(selector).each(function(index,element))

* index - 选择器的 index 位置
* element - 当前的元素(也可使用 "this" 选择器)

(3) url.resolve方法使用说明:  为URL或 href 插入 或 替换原有的标签; 用于拼接所需的URL
//由于该方法属于url模块,使用前需要引入url模块(var url= require(“url”) )
var url = require('url');
var a = url.resolve('/one/two/three', 'four') ,
b = url.resolve('http://example.com/', '/one'),
c = url.resolve('http://example.com/one', '/two');
console.log(a +","+ b +","+ c);
//输出结果:
///one/two/four
//http://example.com/one
//http://example.com/two

(4)获取到页面解析到的目标URL:
$('div.big-pic-box div>a:first-child').each(function(idx,element){
    let $element = $(element);
    //console.log($element.attr('href'));
    let href = url.resolve(huxiuUrl, $element.attr('href'));
    // allUrl.push(href);
    console.log(href);
});

4. &#x(unicode编码后的汉字)JS转换方法:
let content = $('.article-wrap div.article-content-wrap').html(); //返回的是unicode编码的数据,需要 unicode 转中文
content = unescape(content.replace(/&#x/g,'%u').replace(/;/g,''))
console.log(content);

5.Json和字符串的相互转换:
(1) json.stringfy()将js对象(Object)、数组转换成字符串;
(2)json.parse()将字符串{}转成json对象,例如;只有转化为JSON格式才能使用  ret.id 这种方式获取id的值
"{"token":"EAAehsk05sX4BAAoUt2w6Ecf1MxLY17V6DT3S9Wb9n4Ml7dGQ07lczhZAAUEXLXNXP87avp0LNfCc5eTilBguJOTAD1E8rtakT5pKJNxCiZAFsWPqw3yu2WiaWxHBRtbeBpreZCWpP2gqUnvv2O06MX3Wn7rHdlkcw0dfPCS0WjAfkX16Qe08nJOLHNfdIhcXnfkybeO5LIltFYdCQUh46JY96ZAogmkJiO0H4xB25QZDZD","id":"111374853316990","name":"Chunyu Tian","picture":"https://graph.facebook.com/v3.2/111374853316990/picture?height=64&width=64&migration_overrides=%7Boctober_2012%3Atrue%7D"}"

6.JS读取文件夹下所有文件名:
let  fs = require('fs');
let  join = require('path').join;
/**
*
* @param startPath  起始目录文件夹路径
* @returns {Array}
*/
function findSync(startPath) {
    let result=[];
    function finder(path) {
        let files=fs.readdirSync(path);
        files.forEach((val,index) => {
            let fPath=join(path,val);
            let stats=fs.statSync(fPath);
            if(stats.isDirectory()) finder(fPath);
            if(stats.isFile()) result.push(fPath);
        });

    }
    finder(startPath);
    return result;
}
let fileNames=findSync('./');

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/223446.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM 类加载机制(七)

1.加载,验证,准备,解析,初始化 ​ JVM 类加载机制分为五个部分:加载,验证,准备,解析,初始化,下面我们就分别来看一下这五个过程。 1.1. 加载 ​ 加载是类加…

【laBVIEW学习】4.声音播放,自定义图标,滚动条设置,保存参数以及恢复参数

一。声音播放(报错,未实现) 1.报错4810 2.解决方法: 暂时未解决。 二。图片修改 1.目标:灯泡---》自定义灯泡 2.步骤: 1.右键点击--》自定义运行 表示可以制作自定义类型 2.右键--》打开自定义类型 这样就…

Java文件导出实现流程(一)

Java文件导出实现流程 参考资料:https://blog.51cto.com/u_16175476/7509744 简介 在Java开发中,文件导出是一项常见的功能。它可以将数据以文件的形式保存到本地或者服务器中,方便用户进行查看和下载。本文将指导你如何使用Java实现文件导出…

Java利用UDP实现简单的双人聊天

一、创建新项目 首先创建一个新的项目,并命名。 二、实现代码 import java.awt.*; import java.awt.event.*; import javax.swing.*; import java.net.*; import java.io.IOException; import java.lang.String; public class liaotian extends JFrame{ pri…

HXDSP2441-HXD(DSP)在线仿真器

HXD(DSP)在线仿真器 DSP下载器将数据通过网口转为JTAG时序,需用5V DC外部供电,下载器ip固定为192.168.1.40,PC与下载器正常连接后即可ping通,具体使用方法参考《HXD在线仿真器使用手册》,Demo板…

Linux--程序地址空间

📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 [TOC](文章目录) 一、程序地址空间回顾 我们在讲C语言的时候,老师给大家画过这样的空间布局…

可视化监管云平台EasyCVR宠物粮食食品厂智能视频监控方案

由于我国养宠物群体的不断膨胀,宠物市场也占据了经济的很大一部分,宠物做为人类的好朋友,可以给人们带来极高的精神抚慰,作为“毛孩子”家长,爱宠人士自然不会亏待自家宠物,都会选择最好的口粮以供宠物食用…

力扣每日一题:2646. 最小化旅行的价格总和(2023-12-06)

力扣每日一题 题目:2646. 最小化旅行的价格总和 日期:2023-12-06 用时:30 m 14 s 时间:8ms 内存:42.98MB 思路:先统计旅行中每个节点路过的次数(dfs方法),再计算减半后的…

DriveWorks——参数化设计非标定制利器

DriveWorks基本介绍 DriveWorks是一套被 SOLIDWORKS 认可为金牌合作伙伴产品的设计自动化软件。DriveWorks 可自动创建特定于订单的销售文档和 SOLIDWORKS 制造数据。减少重复性任务,消除错误,增加销售额,并在创纪录的时间内交付定制产品。 为…

15.Servlet [一篇通]

文章目录 1.Servlet 是什么2.第一个 Servlet 程序2.1创建项目2.2引入依赖2.3创建目录2.4编写代码2.5打包程序2.6部署程序2.7验证程序 3.更方便的部署方式3.1安装 Smart Tomcat 插件3.2配置 Smart Tomcat 插件 4.访问出错怎么办?4.1出现 4044.2出现 4054.3出现 5004.4出现 &quo…

二叉树的右视图[中等]

优质博文:IT-BLOG-CN 一、题目 给定一个二叉树的 根节点root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 1: 输入: [1,2,3,null,5,null,4] 输出: [1,3,4] 示例 2: 输入: [1,null,3] 输出…

哪个行业需要数字营销?

数字营销是推销产品或服务的最佳方式,它可以用于许多不同的行业。从零售店到房地产中介,数字营销都能帮助企业以有效的方式接触目标受众。 有几个行业比其他行业更需要数字营销,因为它们希望提高知名度,并与行业内的其他企业保持…

top K问题(C语言)

目录 前言 top K问题 模拟数据 建堆 验证(简单了解即可) 最终代码 调试部分 前言 在大小堆的实现(C语言)中我们讨论了堆的实际意义,在看了就会的堆排序(C语言)中我们完成了堆排序&#…

21章网络通信

21.1——网络程序设计基础 网络程序设计编写得到是与其他计算机进行通信的程序 21.1.1——局域网与互联网 为了实现两台计算机的通信,必须用一个网络线路连接两台计算机 21.1.2——网络协议 网络协议规定了计算机之间连接的物理、机械 (网线与网卡的连接规定)、…

【数据结构】动态规划(Dynamic Programming)

一.动态规划(DP)的定义: 求解决策过程(decision process)最优化的数学方法。 将多阶段决策过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解。 二.动态规划的基本思想: …

docker 学习总结

docker 概念 -云计算的基石 docker的一个软件: 开源 docker基本组成 docker主机(Host):安装了Docker程序的机器(Docker直接安装在操作系统之上); docker仓库(Registry):用来保存各种打包好的软件镜像&a…

【MySQL数据类型】

目录: 前言数据类型分类整数类型tinyintbit 小数类型floatdecimal 字符串类型charvarchar日期和时间enum & set在集合中查找find_in_set 前言 剑指offer:一年又4天 数据类型分类 整数类型 tinyint 整数类型都分为有符号和无符号两种,默…

0X05

打开题目 点击完登录和注册都没有什么反应,所以先扫一下看看 在出现admin.php后就截止了,访问看看,进入后台。。 尝试一下弱口令 admin/12345 或者是demo/demo 设计中-自定义->右上角导出主题 找到一个导出的点,下载了一个1.zip压缩包…

解析Python爬虫利器 - lxml库

更多资料获取 📚 个人网站:ipengtao.com 在当今信息爆炸的时代,网络上的数据量庞大而繁杂。为了高效地从网页中提取信息,Python爬虫工程师们需要强大而灵活的工具。其中,lxml库凭借其卓越的性能和丰富的功能成为Pytho…

三十九、TCC模式

目录 一、定义 1、需要实现的方法: 2、优点: 3、缺点: 二、原理 1、例子: 2、工作模型图: 3、空回滚和业务悬挂 三、实现TCC模式 1、编写TCC服务接口 2、实现TCC服务接口 一、定义 TCC模式是Translucent Tr…