Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例

亿牛云.png

网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬虫工程,以抓取头条新闻的数据为例,展示pholcus库的功能和用法。
Go语言是一种开源的静态类型的编译型语言,它具有简洁、高效、并发和跨平台的特点,适合开发高性能的网络应用。pholcus库是一个基于Go语言的高并发、分布式、重量级网络爬虫软件,它提供了丰富的API和界面,支持多种输出方式,如MySQL、MongoDB、Excel、CSV等,可以轻松实现各种复杂的网络爬虫需求。
为了演示pholcus库的使用,我将以抓取头条新闻的数据为例,编写一个简单的网络爬虫程序。头条新闻是一个综合性的新闻平台,提供了各种类别的新闻,如国际、国内、娱乐、体育等。我将从头条新闻的网站上获取每个类别的最新的10条新闻的标题、链接、来源和时间,并将结果保存到Excel文件中。

1. 概述pholcus库

首先,我们简要介绍一下pholcus库。Pholcus是一款基于Go语言的分布式高并发爬虫软件,具有强大的自定义特性和高效的爬取性能。它支持定时任务、分布式部署,并且易于扩展,是一个理想的爬虫工具。

2. 安装pholcus库

在开始之前,确保你已经安装了Go语言环境。通过以下命令安装pholcus库:

go get -u github.com/henrylee2cn/pholcus

3. 构建爬虫任务

我们通过以下步骤构建一个简单的爬虫任务,以抓取头条新闻为例。

package main

import (
	"fmt"
	"github.com/henrylee2cn/pholcus/config"
	"github.com/henrylee2cn/pholcus/downloader/context"
	"github.com/henrylee2cn/pholcus/library/collector/data"
	"github.com/henrylee2cn/pholcus/logs"
	"github.com/henrylee2cn/pholcus/output"
	"github.com/henrylee2cn/pholcus/spider"
	"github.com/henrylee2cn/pholcus/spider/common/pool"
	"github.com/henrylee2cn/pholcus/spider/downloader"
	"github.com/henrylee2cn/pholcus/spider/library"
	"github.com/henrylee2cn/pholcus/storage"
	"time"
)

func main() {
	// 初始化配置
	config.Init()

	// 设置日志级别
	logs.Log.SetLogLevel(logs.DEBUG)

	// 设置亿牛云 爬虫代理 代理服务器信息
	proxyIP := "www.16yun.cn"//代理服务器
	proxyPort := "8181"//端口
	proxyUsername := "16YUN"//用户
	proxyPassword := "16IP"//密码

	// 设置代理IP
	downloader.SetProxy(func(ctx *context.Context) (*collector.Proxy, error) {
		return &collector.Proxy{
			Host:     proxyIP,
			Port:     proxyPort,
			Username: proxyUsername,
			Password: proxyPassword,
		}, nil
	})

	// 创建爬虫任务
	task := spider.NewTask()

	// 添加规则,这里选择了头条新闻的国际、国内、娱乐和体育四个类别
	task.AddRule("头条新闻", "https://www.toutiao.com/ch/news_%s/", "国际", "国内", "娱乐", "体育")

	// 设置抓取数量
	task.SetLimit(10)

	// 设置全局超时时间
	task.SetTimeout(time.Second * 30)

	// 运行爬虫
	task.Run()

	// 输出结果
	printResult()
}

// 输出结果
func printResult() {
	defer func() {
		if err := recover(); err != nil {
			fmt.Println("程序异常退出:", err)
		}
	}()

	// 初始化输出结果到Excel文件
	out, err := output.New("excel", nil)
	if err != nil {
		fmt.Println("初始化输出错误:", err)
		return
	}

	// 添加输出字段
	out.AddField([]string{"标题", "链接", "来源", "时间"})

	// 设置输出路径
	out.SetOutPath("result.xlsx")

	// 打印输出结果
	fmt.Println("输出结果:")
	output.Print(out)
}

4. 代理IP设置

在代码中,我们通过proxy.Set方法设置了代理IP,确保在爬取头条新闻时能够绕过一些反爬虫机制,保持高效稳定的数据爬取。

proxy.Set(proxy.Proxy{
	Host:     "域名",
	Port:     "端口",
	Username: "用户名",
	Password: "密码",
})

请替换域名、端口、用户名和密码为你的代理IP信息。

5. 运行爬虫

在完成代码编写和代理IP设置后,运行程序,爬虫将开始工作。你将看到输出结果中包含了头条新闻的相关信息。

结语

通过本文,我们详细介绍了如何使用Go语言中的pholcus库构建一个网络爬虫工程,实现对头条新闻的数据抓取。同时,我们强调了代理IP的重要性,以应对一些反爬虫策略,确保爬取过程的稳定性。希望这个实例对你了解和应用网络爬虫技术有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/181394.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

selenium 简单案例 <批量下载文件> <网页自动化点击上报>

一、批量下载文件 网页分析 点击跳转到下载页面 from selenium import webdriver import timedef get_link_list():# 创建浏览器对象driver webdriver.Chrome(executable_pathrC:\Users\nlp_1\Desktop\chromedriver\chromedriver-win32\chromedriver.exe)url https://www…

登陆页面模板

简单好看的登陆页面 vue项目代码 可忽略js部分 先来个效果图 <template><div class"login"><div class"content"><p >账户密码登录</p><div class"unit"><label class"label">用户名</…

非遗数字保护的崭新篇章:十八数藏柏松的文化守护

在数字时代&#xff0c;非遗数字保护崭新的篇章由十八数藏柏松书写。这个数字保护的使者不仅仅是文化的守护者&#xff0c;更是文化传承的崭新篇章的开创者。 首先&#xff0c;十八数藏柏松以数字技术作为媒介&#xff0c;将传统非物质文化遗产数字化&#xff0c;为其创造了一个…

Java字节码指令集概述及分类详解

Java全能学习面试指南&#xff1a;https://javaxiaobear.cn 1、字节码指令集与解析概述 Java字节码对于虚拟机&#xff0c;就好像汇编语言对于计算机&#xff0c;属于基本执行指令。 Java 虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字&#xff08;称为操作码&a…

Linux之实现简易的shell

1.打印提示符并获取命令行 我们在使用shell的时候&#xff0c;发现我们在输入命令是&#xff0c;前面会有&#xff1a;有用户名&#xff0c;版本&#xff0c;当前路径等信息&#xff0c;这里我们可以用环境变量去获取: 1 #include <stdio.h>2 #include <stdlib.h>…

检验LIS系统:医院信息管理的重要组成部分

检验LIS系统源码&#xff0c;云LIS系统源码 云LIS系统是医院信息管理的重要组成部分之一&#xff0c;集申请、采样、核收、计费、检验、审核、发布、质控、查询、耗材控制等检验科工作为一体的网络管理系统。LIS系统不仅是自动接收检验数据&#xff0c;打印检验报告&#xff0c…

因果发现31种高效经典方案汇总,附配套算法和代码

因果发现&#xff08;Causal Discovery&#xff09;是一个复杂的过程&#xff0c;其目标是从大量的数据中确定变量之间的因果关系。这个过程通常涉及到的是如何从纷繁复杂的数据中发现其中隐含的因果关系。有时&#xff0c;研究者可以通过随机实验进行干预来发现因果关系&#…

Windows Python3安装salt模块失败处理

复现CVE-2020-11651时候运行CVE-2020-11651的poc时候需要salt模块 在下载时出现了错误 尝试在网上寻找解决方法&#xff1a; 1.更新 setuptools 和 wheel pip install --upgrade setuptools wheel 2. 安装Microsoft Visual C 14.0 因为salt模块包包使用了 C/C 扩展&#x…

【速看】如何提高微信权重?影响微信权重的加分、扣分行为

微信具有一套权重判定系统&#xff0c;类似于搜索引擎的PR值&#xff0c;可以看做是一个“积分系统”。好的操作会增加积分&#xff0c;负面操作会减少积分。 当积分低于特定标准&#xff08;即底线&#xff09;时&#xff0c;将会被严重惩罚或封号。这样&#xff0c;微信确保了…

C# Onnx PP-Vehicle 车辆分析(包含:车辆检测,识别车型和车辆颜色)

目录 效果 模型信息 mot_ppyoloe_s_36e_ppvehicle.onnx vehicle_attribute_model.onnx 项目 代码 下载 其他 C# Onnx PP-Vehicle 车辆分析&#xff08;包含&#xff1a;车辆检测&#xff0c;识别车型和车辆颜色&#xff09; 效果 模型信息 mot_ppyoloe_s_36e_ppvehi…

代码随想录算法训练营Day 59 || 503.下一个更大元素II、42. 接雨水

503.下一个更大元素II 力扣题目链接(opens new window) 给定一个循环数组&#xff08;最后一个元素的下一个元素是数组的第一个元素&#xff09;&#xff0c;输出每个元素的下一个更大元素。数字 x 的下一个更大的元素是按数组遍历顺序&#xff0c;这个数字之后的第一个比它更…

docker 安装常用环境

一、 安装linux&#xff08;完整&#xff09; 目前为止docker hub 还是被封着&#xff0c;用阿里云、腾讯云镜像找一找版本直接查就行 默认使用latest最新版 #:latest 可以不写 docker pull centos:latest # 拉取后查看 images docker images #给镜像设置标签 # docker tag […

某基金公司赵哥“逆袭”了!!!

赵哥&#xff0c;在上海一家基金公司做运维主管。 平时工作的首要任务&#xff0c;就是保障公司各项信息系统的安全运行。 万一系统运行中出现了一些重要问题&#xff0c;他还要负责进行调查、记录与汇报... 总之&#xff0c;责任很重&#xff0c;该说不说&#xff0c;搞不好…

10.分组循环练习题

分组循环 https://leetcode.cn/problems/longest-even-odd-subarray-with-threshold/solutions/2528771/jiao-ni-yi-ci-xing-ba-dai-ma-xie-dui-on-zuspx/?envTypedaily-question&envId2023-11-16 分组循环 适用场景&#xff1a; 按照题目要求&#xff0c;数组会被分割成若…

大型养殖场需要哪些污水处理设备

大型养殖场是一个涉及环境保护和可持续发展的关键行业&#xff0c;对于处理养殖场产生的污水有着明确的要求和标准。为了确保污水得到有效处理和处理效果达到国家排放标准&#xff0c;大型养殖场需要配备一系列污水处理设备。以下是几种常见的污水处理设备&#xff1a; 1. 水解…

厦门市委常委、常务副市长黄晓舟调研极狐(GitLab)

11 月 22 日&#xff0c;厦门市委常委、常务副市长黄晓舟&#xff0c;厦门市工信局副局长许文恭&#xff0c;厦门市高新技术创业中心有限公司董事长邸国栋等一行人员莅临极狐(GitLab)进行参观调研&#xff0c;深入了解极狐(GitLab)的发展情况。 黄晓舟副市长&#xff08;左&…

TikTok历史探秘:短视频中的时间之旅

在数字时代的浪潮中&#xff0c;TikTok崭露头角&#xff0c;成为社交媒体领域的一颗耀眼新星。这款短视频应用以其独特的创意、时尚和娱乐性质&#xff0c;吸引了全球数以亿计的用户。 然而&#xff0c;TikTok并非一夜之间的奇迹&#xff0c;它背后蕴藏着丰富而有趣的历史故事…

解决ElementUI时间选择器回显出现Wed..2013..中国标准时间.

使用饿了么组件 时间日期选择框回显到页面为啥是这样的&#xff1f; 为什么再时间框中选择日期&#xff0c;回显页面出现了这种英文格式呢&#xff1f;&#xff1f;&#xff1f;&#xff1f; 其实这个问题直接使用elementui的内置属性就能解决 DateTimePicker 日期时间选择…

qs-一个序列化和反序列化的JavaScript库

起因 一个业务场景中&#xff0c;最终得到一串字符"status[0]value1&status[1]value2" 通过解析&#xff0c;理应得到一个数组&#xff0c;却得到一个对象 于是展开问题排查 最终发现是qs.parse 这个地方出了问题 排查结果 qs解析这种带下标的字符串时&#xff…

内网穿透隐秘隧道搭建

别低头&#xff0c;皇冠会掉&#xff1b;别流泪&#xff0c;贱人会笑。 本文首发于先知社区&#xff0c;原创作者即是本人 0x00 前言 构建内网隐蔽通道&#xff0c;从而突破各种安全策略限制&#xff0c;实现对目标服务器的完美控制。 当我们从外网成功获得攻击点的时候&…