使用 Node.js 和 Cheerio 爬取网站图片

写一个关于图片爬取的小案例

爬取效果

使用插件如下:

{
  "dependencies": {
    "axios": "^1.6.0",
    "cheerio": "^1.0.0-rc.12",
    "request": "^2.88.2"
  }
}

新建一个config.js配置文件

// 爬取图片网站
const url = 'http://m.hydcd.com/cy/fkccy/index9.htm'//可以自行修改网址
// http://www.hydcd.com/cy/fkccy/index.htm
// http://m.hydcd.com/cy/fkccy/
const path = require('path');
//图片下载文件夹
const imgDir = path.join(__dirname, 'img')
 
module.exports.url = url
module.exports.imgDir = imgDir

找到需要下载的文件原元素位置

const cheerio = require('cheerio')

function findImg(dom, callback) {
  let $ = cheerio.load(dom,{decodeEntities: false});

  //找到图片的位置 并获取图片链接
  $('table tbody tr td  img').each(function (i, elem) {

    let imgSrc = $(this).attr('src');
    let alt = $(this).attr('alt');
    callback(imgSrc, i,alt)
  })
}
module.exports.findImg = findImg;

const request = require('request')
const path = require('path')
const config = require('./config')
const analyze = require('./analyze')
const fs = require('fs')
 
function start() {
  request(config.url, function (err, res, body) {
    console.log('start');
    if (!err && res) {
      console.log('start');

      analyze.findImg(body, download,{decodeEntities: false});
    }
  })
}
//这个图片地址链接前缀
let imgUrlPath = "http://m.hydcd.com/cy/fkccy/"
function download(imgUrl, i,alt) {
    console.log(imgUrl,"11111")
  let txt = imgUrl.split('images/')[1];
  request(imgUrlPath+imgUrl).pipe(fs.createWriteStream(path.join(config.imgDir,  txt), {
    'encoding': 'UTF-8',
  }))
}
 
start();

以下是一个使用 Node.js 和 Cheerio 爬取网站图片的示例代码:

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');

// 定义要爬取的网页 URL
const url = 'https://example.com';

// 发起 GET 请求获取网页内容
axios.get(url)
  .then(response => {
    // 使用 Cheerio 加载网页内容
    const $ = cheerio.load(response.data);

    // 定义一个数组来保存图片 URL
    const imageUrls = [];

    // 遍历页面中的图片标签
    $('img').each((index, element) => {
      // 获取图片的 src 属性值
      const imageUrl = $(element).attr('src');
      // 将图片的 URL 添加到数组中
      imageUrls.push(imageUrl);
    });

    // 下载图片
    imageUrls.forEach((imageUrl, index) => {
      // 发起 GET 请求获取图片内容
      axios.get(imageUrl, { responseType: 'stream' })
        .then(response => {
          // 创建一个可写流,将图片内容写入到文件中
          const writeStream = fs.createWriteStream(`image${index+1}.jpg`);
          // 将响应的数据流导向可写流
          response.data.pipe(writeStream);
        })
        .catch(error => {
          console.error(`下载图片失败:${error}`);
        });
    });
  })
  .catch(error => {
    console.error(`获取网页内容失败:${error}`);
  });

请注意,上述示例中的 https://example.com 是一个示例网站的 URL,你需要替换为你要爬取图片的实际网站 URL。

这段代码首先使用 Axios 发起 GET 请求获取网页内容,然后使用 Cheerio 加载网页内容,对图片标签进行遍历,获取图片的 src 属性值并保存到一个数组中。最后,通过循环遍历数组中的图片 URL,使用 Axios 再次发起 GET 请求获取图片内容,并通过可写流将图片内容写入到文件中。你可以自定义文件名和保存路径。

请注意,进行网站爬取时,一定要遵守法律法规,并注意对网站的使用限制和版权保护。同时,不要对不允许爬取的网站进行爬取,以免触犯相关法律法规并造成不良后果!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/358583.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

企业内部知识库搭建原来这么轻松,靠这五步马上完成

在信息爆炸的时代,有效地管理企业内部的巨量信息,已经成为企业效率提升和竞争优势形成的关键。而一套完善的企业内部知识库,就是解决这个问题的第一步。那么如何建立起一个功能完备、使用便捷的知识库呢?只需要五步,你…

Leetcode—1828. 统计一个圆中点的数目【中等】

2024每日刷题&#xff08;一零五&#xff09; Leetcode—1828. 统计一个圆中点的数目 实现代码 class Solution { public:vector<int> countPoints(vector<vector<int>>& points, vector<vector<int>>& queries) {vector<int> a…

npm 被滥用 -- 有人上传了 700 多个武林外传切片视频

Sonatype 安全研究团队最近曝光了一起滥用 npm 的案例 —— 他们发现在 npm 上托管的 748 个软件包实际上是视频文件。 据介绍&#xff0c;这些软件包每个大小约为 54.5MB&#xff0c;包名以 “wlwz” 为前缀&#xff0c;并附带了代表日期的数字。根据时间戳显示&#xff0c;这…

❤搭建一个Springboot项目(ltbjava)

❤从0实现一个项目 搭建好我们的java环境和运行的IDEA软件以后&#xff0c;接下来我们就应该实现一个自己的项目了 0 项目描述 基于jdk17 的学习&#xff0c;因为据说最新的spring框架的最低要求是jdk17Maven 3.8.7PS&#xff1a;springboot3.0版本以上必须用jdk171、 项目创…

永磁同步电机位置闭环控制

文章目录 1、位置环分析与调节器2、电机参数3、模型总览4、位置给定与波形5、位置环前馈控制5.1 前馈模型5.2 位置前馈控制效果 模型下载地址&#xff1a; 链接: 位置闭环模型&#xff08;位置速度电流三闭环模型&#xff09; 1、位置环分析与调节器 2、电机参数 Vdc24; Rs0.…

ps缺少msvcp140.dll要怎么办?多种解决msvcp140.dll的方法分享

当您在尝试打开Adobe Photoshop时&#xff0c;如果遭遇一个典型的错误&#xff1a;“程序无法启动&#xff0c;因缺少MSVCP140.dll文件”&#xff0c;请放心&#xff0c;这并不少见&#xff0c;许多Photoshop用户都可能曾面临过这种情况。处理这个问题实际上是相当简单的。接下…

【LeetCode】530. 二叉搜索树的最小绝对差(简单)——代码随想录算法训练营Day21

题目链接&#xff1a;530. 二叉搜索树的最小绝对差 题目描述 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 示例 1&#xff1a; 输入&#xff1a;root [4,2,6,1,3] …

扭蛋机小程序开发,助力企业发展,实现营收

扭蛋机提起想必大家并不陌生&#xff0c;它与当下爆火的盲盒异曲同工&#xff0c;甚至是盲盒的前身。与盲盒不同的是&#xff0c;扭蛋机中的商品大多是一些以动漫为主题的小玩具、小玩偶&#xff0c;具有价格低、性价比高的优势。相比与高昂的手办&#xff0c;扭蛋机一经上市就…

webassembly003 TTS BARK.CPP

TTS task TTS&#xff08;Text-to-Speech&#xff09;任务是一种自然语言处理&#xff08;NLP&#xff09;任务&#xff0c;其中模型的目标是将输入的文本转换为声音&#xff0c;实现自动语音合成。具体来说&#xff0c;模型需要理解输入的文本并生成对应的语音输出&#xff0…

「仅需三次鼠标,即可开服」幻兽帕鲁全自动部署教程

在帕鲁的世界&#xff0c;你可以选择与神奇的生物「帕鲁」一同享受悠闲的生活&#xff0c;也可以投身于与偷猎者进行生死搏斗的冒险。帕鲁可以进行战斗、繁殖、协助你做农活&#xff0c;也可以为你在工厂工作。你也可以将它们进行售卖&#xff0c;或肢解后食用。 本文将为您提…

qt5-入门

参考&#xff1a; qt学习指南 Qt5和Qt6的区别-CSDN博客 Qt 学习之路_w3cschool Qt教程&#xff0c;Qt5编程入门教程&#xff08;非常详细&#xff09; 本地环境&#xff1a; win10专业版&#xff0c;64位 技术选择 Qt5力推QML界面编程。QML类似HTML&#xff0c;可以借助CSS进…

TypeScript(六) 循环语句

1. TypeScript循环语句 1.1. 简述 有的时候&#xff0c;我们可能需要多次执行同一块代码。一般情况下&#xff0c;语句是按顺序执行的&#xff1a;函数中的第一个语句先执行&#xff0c;接着是第二个语句&#xff0c;依此类推。   循环语句允许我们多次执行一个语句或语句组…

栈的基本知识

链表的优点&#xff1a;在任何位置插入删除O(1) 链表的缺点&#xff1a;不支持下标的随机访问&#xff0c;需要通过特定函数实现 顺序表的缺点&#xff1a;在前面部分插入数据&#xff0c;效率是O(N)&#xff0c;需要挪动数据&#xff0c;要求连续的物理空间如果空间不够要扩…

AI投资或成科技裁员罪魁祸首

最近的科技裁员让许多人对这个行业的稳定性产生了疑问。然而&#xff0c;仔细观察发现&#xff0c;这些裁员并不是经济困境的迹象&#xff0c;而是科技公司为了重新调整优先事项并投资未来而进行的战略举措。科技行业正投入数十亿美元用于人工智能&#xff08;AI&#xff09;&a…

大模型——推理优化——KV Cache

在本文中&#xff0c;我们将详细介绍KV Cache&#xff0c;这是一种大模型推理加速的方法。 正如其名称所示&#xff0c;该方法通过缓存Attention中的K和V来实现推理优化。 一、大模型推理的冗余计算 我们先简单观察一下基于Decoder架构的大模型的生成过程 用户输入“中国的首…

springboot本地测试

文章目录 本地测试引入依赖进入StudentMapper右键点击生成 项目结构 本地测试 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope> </d…

【劳德巴赫 Trace32 高阶系列 3 -- trace32 svf 文件操作命令】

请阅读【嵌入式开发学习必备专栏 之 Trace32 系列 】 文章目录 Trace32 SVF 文件操作命令JTAG.PROGRAM.autoJTAG.PROGRAM.SVF命令参数介绍IRPREIRPOSTDRPREDRPOSTInitStateIgnoreTDOVerbose使用示例Trace32 SVF 文件操作命令 JTAG.PROGRAM.auto Format: JTAG.PROGRAM.</

mfc140.dll找不到了要怎么解决?教你多种修复mfc140.dll的方法

遭遇 mfc140.dll 文件缺失的状况时&#xff0c;首要任务是保持冷静&#xff0c;并深入理解问题所在&#xff0c;随后按照科学的方法来应对这一挑战。本篇文章概述了多种应对策略&#xff0c;从适合新手的基本步骤到针对有技术基础用户的高级方案&#xff0c;各种手段都能有效地…

[Bug] [OpenAI] [TypeError: fetch failed] { cause: [Error: AggregateError] }

[Bug] [OpenAI] [TypeError: fetch failed] { cause: [Error: AggregateError] } ubuntu20 win10 edge浏览器访问 服务器部署 页面打开后想使用chatgpt报错了 rootcoal-pasi1cmp:/www/wwwroot/ChatGPT-Next-Web# PORT3000 yarn start yarn run v1.22.19 warning package.json:…

多场景建模:腾讯3MN

3MN: Three Meta Networks for Multi-Scenario and Multi-Task Learning in Online Advertising Recommender Systems 背景 推荐领域的多场景多任务学习&#xff1a;维护单模型即可节省资源也可节省人力&#xff1b;各个场景的数据共享&#xff0c;理论上面学习是更加充分的 …