TypeScript 和 jsdom 库创建爬虫程序示例

亿牛云 (3).png

TypeScript 简介

TypeScript 是一种由微软开发的自由和开源的编程语言。它是 JavaScript 的一个超集,可以编译生成纯 JavaScript 代码。TypeScript 增加了可选的静态类型和针对对象的编程功能,使得开发更加大规模的应用容易。

jsdom 简介

jsdom 是一个在 Node.js 环境中模拟浏览器环境的库,它可以解析 HTML、操作 DOM,并提供类似浏览器的 API。在网页爬虫开发中,jsdom 可以方便地解析网页内容,提取我们需要的信息。
假设我们需要获取www.renren.com上的特定数据,例如用户信息、内容帖子等。其次,手动访问网站并逐一复制粘贴数据显然是低效且不可行的。因此,我们需要一个自动化的爬虫程序来帮助我们从网站上获取所需的数据。

目标分析:

我们的目标是构建一个爬虫程序,能够自动访问www.renren.com,并特定获取的数据。为了实现这个目标,我们需要分析网站的页面结构和数据来源,找到数据的接口规律,并编写代码来获取和处理这些数据。
构建爬虫框架:首先,我们需要构建一个爬虫框架,用于发送网页请求、解析网页内容,并提取我们需要的数据。在这个框架中,我们将使用 TypeScript 编程语言和 jsdom 库来模拟浏览器环境,便于在 Node.js 环境中解析和操作网页内容。然后,我们创建一个 TypeScript 文件spider.ts,并编写爬虫框架的代码

import * as jsdom from 'jsdom';
import * as request from 'request';

const { JSDOM } = jsdom;

class Spider {
  async fetch(url: string): Promise<string> {
    return new Promise((resolve, reject) => {
      request(url, (error, response, body) => {
        if (!error && response.statusCode === 200) {
          resolve(body);
        } else {
          reject(error);
        }
      });
    });
  }

  async parse(html: string, selector: string): Promise<string[]> {
    const dom = new JSDOM(html);
    const elements = dom.window.document.querySelectorAll(selector);
    const data: string[] = [];
    elements.forEach((element) => {
      data.push(element.textContent);
    });
    return data;
  }
}

// 使用示例
const spider = new Spider();
spider.fetch('http://www.example.com')
  .then((html) => {
    return spider.parse(html, 'h1');
  })
  .then((data) => {
    console.log('提取的数据:', data);
  })
  .catch((error) => {
    console.error('请求失败:', error);
  });

然而,在实际爬取www.renren.com的过程中,我们可能会遇到网站的反爬虫机制,比如页面加载时需要进行登录验证、页面结构的间隙变化等问题。针对这些问题,我们可以考虑以下处理要点和调整机制:

  1. 使用代理IP:通过使用代理IP来隐藏我们的真实IP地址,从而减少网站对于相同IP的访问限制。
  2. 设置请求头信息:模拟浏览器的请求头信息,包括User-Agent、Referer等,使得我们的请求看起来原来是来自真实的浏览器。
  3. 使用延迟请求:在请求页面内容时,可以设置随机的延迟时间,避免对网站服务器造成过大的压力,也可以规避网站对于间歇请求的限制。

完整的实现代码过程如下:

import { JSDOM } from 'jsdom';
import fetch from 'node-fetch';

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

async function fetchPage(url: string): Promise<string> {
  const response = await fetch(url, {
    agent: `http://${proxyUser}:${proxyPass}@${proxyHost}:${proxyPort}`
  });
  const body = await response.text();
  return body;
}

async function main() {
  const url = 'http://www.renren.com';
  const html = await fetchPage(url);
  const dom = new JSDOM(html);
  // 在这里进行页面结构的解析和数据提取
}

main();

当然,实际应用中还需要根据具体情况进行更多的处理和调整,比如处理登录、动态页面加载等问题。这些处理和机制调整的加入可以帮助我们更好地应对网站的反爬虫机制,确保我们能够顺利地获取所需的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/305085.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VS中打开ui文件闪退

解决办法&#xff1a; 依次点击《扩展》-> 《Qt vs tools》-> 《options》-> 《Qt》-> 《general》 -> 《Qt Designer》 -> 《run in detached window》 -> true

用Java编写图书网站信息采集程序教程

目录 一、准备工作 二、分析目标网站结构 三、选择信息采集方式 四、安装Jsoup库 五、编写信息采集程序 六、注意事项 总结&#xff1a; 编写图书网站信息采集程序需要掌握HTML、CSS、JavaScript、Java等前端和后端技术。下面是一个简单的教程&#xff0c;介绍如何使用…

游戏开发中,你的游戏图片压缩格式使用ASTC了吗

文章目录 ASTC原理&#xff1a;使用要求 ASTC&#xff08;Adaptive Scalable Texture Compression&#xff0c;自适应可伸缩纹理压缩&#xff09;是一种高级的纹理压缩技术&#xff0c;由ARM公司开发并推广。它在图形处理领域中因其出色的压缩效率和灵活性而受到广泛关注。 AST…

上门洗衣洗鞋小程序多门店管理模式是怎么样的

做干洗店和洗鞋店的老板们很多都不止一个门店&#xff0c;多门店的管理模式下&#xff0c;去做一个上门洗衣洗鞋小程序&#xff0c;需要有哪些必要的功能才能让不同的门店管理起来不乱呢。首先需要先确定一下不同门店的管理都会面临哪些经营场景和需求。 第一&#xff0c;加盟店…

【前端素材】bootstrap4实现服装鞋饰电商平台Doron

一、需求分析 一个服装鞋饰电子商务页面是一个在线平台&#xff0c;用于展示和销售各种服装、鞋子和配饰产品。它通常具有以下功能&#xff1a; 产品展示&#xff1a;服装鞋饰电子商务页面会展示各种服装、鞋子和配饰产品的图片、描述和价格。这些产品可以按照不同的分类&#…

FreeRTOS学习总结(二)FreeRTOS任务创建和删除API函数

实现动态创建任务流程 任务控制块结构体成员介绍 typedef struct tskTaskControlBlock {volatile StackType_t * pxTopOfStack; /* 任务栈栈顶&#xff0c;必须为TCB第一个成员 */ListItem_t xStateListItem; /* 任务状态列表项 */ Li…

免费IDEA插件推荐:Apipost-Helper

IDEA插件市场中的API调试插件不是收费&#xff08;Fast Request &#xff09;就是不好用&#xff08;apidoc、apidocx等等&#xff09;今天给大家介绍一款国产的API调试插件&#xff1a;Apipost-Helper&#xff0c;完全免费且好看好用&#xff01; 这款插件由Apipost团队开发的…

llama.cpp模型推理之界面篇

目录 前言 一、llama.cpp 目录结构 二、llama.cpp 之 server 学习 1. 介绍 2. 编译部署 3. 启动服务 4、扩展或构建其他的 Web 前端 5、其他 前言 在《基于llama.cpp学习开源LLM本地部署》这篇中介绍了基于llama.cpp学习开源LLM本地部署。在最后简单介绍了API 的调用方…

什么是API网关代理?

带有API网关的代理服务显着增强了用户体验和性能。特别是对于那些使用需要频繁创建和轮换代理的工具的人来说&#xff0c;使用 API 可以节省大量时间并提高效率。 了解API API&#xff08;即应用程序编程接口&#xff09;充当服务提供商和用户之间的连接网关。通过 API 连接&a…

【仙丹秘法】如何炼制一颗稳定的仙丹

提示词始终保持不变 1&#xff1a;收集素材 制作lora_v1 2: 制作lora_v1 产生 1个人物 含 你想要的服装 导入 pose_1 到 control 1 生成人物 (white_background:1.1),front view,1boy,blue sleeveless t-shirt,blue shorts,detailed eyes,best quality,masterpiece,high res…

蓝凌EIS智慧协同平台 UniformEntry.aspx sql注入漏洞

漏洞描述&#xff1a; 蓝凌EIS智慧协同平台是一个简单、高效的工作方式专为成长型企业打造的沟通、协同、社交的移动办公平台&#xff0c;覆盖OA、沟通、客户、人事、知识等管理需求&#xff0c;集合了非常丰富的模块&#xff0c;满足组织企业在知识、项目管理系统建设等需求的…

C语言基础语法跟练

题源&#xff1a;牛客网 1、输出"Hello Nowcoder!"。开始你的编程之旅吧。 #include <stdio.h>int main() {printf("Hello Nowcoder!");return 0; } 2、KiKi学会了printf在屏幕输出信息&#xff0c;他想输出一架小飞机。请帮他编写程序输出这架小…

解析游戏开发中的ECS设计模式:实体、组件、系统的完美协同

ECS&#xff08;Entity-Component-System&#xff09;是一种设计模式&#xff0c;通常用于构建和管理具有大量实体和复杂交互的系统&#xff0c;尤其在游戏开发中得到广泛应用。这个模式的核心思想是将系统中的组件、实体和系统进行分离&#xff0c;以提高代码的可维护性、可扩…

openGauss学习笔记-189 openGauss 数据库运维-常见故障定位案例-TPCC-WAL-内存

文章目录 openGauss学习笔记-189 openGauss 数据库运维-常见故障定位案例-TPCC-WAL-内存189.1 TPCC运行时&#xff0c;注入磁盘满故障&#xff0c;TPCC卡住的问题189.1.1 问题现象189.1.2 原因分析189.1.3 处理分析 189.2 备机处于need repair(WAL)状态问题189.2.1问题现象189.…

N5224B PNA 微波网络分析仪,900 Hz/10 MHz 至 43.5 GHz

01 N5224B PNA 微波网络分析仪 产品综述&#xff1a; Keysight N5224B PNA 微波网络分析仪&#xff08;10 MHz 至 43.5 GHz&#xff09;是一款灵活的综合测试引擎&#xff0c;能够测量放大器、混频器和变频器等有源器件。 这款分析仪的工作频率范围为 900 Hz 至 43.5 GHz。 …

【代码随想录】刷题笔记Day47

前言 又过了个愉快的周末~大组会终于不用开了&#xff0c;理论上已经可以回家了&#xff01;但是我多留学校几天吧&#xff0c;回家实在太无聊了&#xff0c;也没太多学习的氛围 198. 打家劫舍 - 力扣&#xff08;LeetCode&#xff09; dp[i]含义 考虑下标i&#xff08;包括…

密码学(二)

文章目录 前言一、Certificate Authorities二、Key Agreement Protocols 前言 本文来自 Intel SGX Explained 请参考&#xff1a;密码学&#xff08;一&#xff09; 一、Certificate Authorities 非对称密钥密码学中的公钥和私钥假设每个参与方都拥有其他参与方的正确公钥。…

【JAVA】final、finally、finalize 有什么区别?

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a; JAVA ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 final&#xff1a; finally&#xff1a; finalize&#xff1a; 结语 我的其他博客 前言 在Java中&#xff0c;final、f…

对话北京菜百电子商务有限公司总经理张梦轩:品牌自播引领直播的时代即将来临

整理 | 飞族 编辑 | 渔舟 出品&#xff5c;极新&#xff06;北京电子商务协会 作为一种新型又高效的场域&#xff0c;在直播电商场景下&#xff0c;品牌通过尝试运用AI、VR、数字人等新技术&#xff0c;制作专业内容&#xff0c;去更好地吸引和打动消费者&#xff0c;促进业…

美信科技盘古信息智能车间项目成功验收,打造电子元器件数字化工厂标杆

作为一家深耕于磁性元器件领域近二十年的制造企业&#xff0c;广东美信科技股份有限公司&#xff08;以下简称“美信科技”&#xff09;始终秉承着“为电磁赋能&#xff0c;创工业至美”的企业使命&#xff0c;为中国制造卓越发展贡献力量。在当今数字化时代&#xff0c;制造企…