从代码到内容:使用C#和Fizzler探索Instagram的深处

{16YUN}.png

文章摘要:

Instagram是一个流行的社交媒体平台,拥有数亿的用户和海量的图片和视频内容。如果您想要从Instagram上获取一些有用的信息或数据,您可能需要使用爬虫技术来自动化地抓取和分析网页内容。本文将介绍如何使用C#和Fizzler这两个强大的工具,来实现一个简单而高效的Instagram爬虫,从代码到内容,探索Instagram的深处。

文章正文:

Instagram爬虫的基本原理

Instagram爬虫的基本原理是使用HTTP请求来获取网页源代码,然后使用CSS选择器或XPath来定位和提取感兴趣的内容,如图片的URL、用户的昵称、点赞的数量等。为了实现这个过程,我们需要使用以下两个工具:

  • C#:C#是一种面向对象的编程语言,具有强大的网络编程能力,可以方便地发送和接收HTTP请求,以及处理JSON和XML等格式的数据。
  • Fizzler:Fizzler是一个基于HTML Agility Pack的库,可以让我们使用CSS选择器来查询和操作HTML文档,类似于jQuery的功能。

使用C#和Fizzler的优势

使用C#和Fizzler来实现Instagram爬虫,有以下几个优势:

  • C#是一种编译型的语言,相比于解释型的语言,如Python或Ruby,具有更高的执行效率和性能,可以更快地处理大量的数据。
  • C#支持多线程编程,可以利用多核CPU的并行计算能力,同时发送和处理多个HTTP请求,提高爬虫的速度和效率。
  • Fizzler是一个轻量级的库,不需要安装任何额外的依赖,只需要引用一个DLL文件,就可以使用CSS选择器来方便地定位和提取HTML元素,无需编写复杂的正则表达式或XPath语句。

Instagram爬虫的实现步骤

为了实现一个Instagram爬虫,我们需要遵循以下几个步骤:

  • 获取Instagram的API地址和参数。Instagram的网页版是通过Ajax技术来动态加载内容的,所以我们不能直接从网页源代码中获取我们想要的数据,而是需要找到Instagram的API地址和参数,然后通过HTTP请求来获取JSON格式的数据。我们可以使用浏览器的开发者工具来查看网络请求的详情,找到类似于https://www.instagram.com/graphql/query/?query_hash=...&variables=...的地址,这就是Instagram的API地址,其中query_hashvariables是两个重要的参数,分别表示查询的类型和条件。
  • 发送HTTP请求并获取JSON数据。我们可以使用C#的HttpClient类来发送HTTP请求,获取JSON数据。为了避免被Instagram的反爬虫机制识别和封禁,我们需要使用代理IP技术,来伪装我们的请求来源。我们可以使用爬虫代理的服务,提供稳定和高速的代理IP,只需要设置代理的域名、端口、用户名和密码,就可以轻松地使用代理IP发送请求。我们还需要设置一些请求头,如User-AgentRefererCookie等,来模拟浏览器的行为,增加请求的合法性。
  • 解析JSON数据并提取内容。我们可以使用C#的JsonConvert类来将JSON数据转换为C#对象,然后使用Fizzler的QuerySelector方法来使用CSS选择器来提取我们感兴趣的内容,如图片的URL,用户的昵称,点赞的数量等。我们可以将这些内容保存到一个自定义的类中,方便后续的处理和存储。
  • 使用多线程技术来提高采集效率。由于Instagram的API有一个分页的机制,每次请求只能获取一定数量的数据,如果我们想要获取更多的数据,我们需要根据返回的JSON数据中的end_cursorhas_next_page字段,来构造下一个请求的参数,然后重复上述的步骤,直到获取到所有的数据。这个过程是比较耗时的,所以我们可以使用多线程技术,来同时发送和处理多个请求,提高采集效率。我们可以使用C#的Task类来创建和管理多个任务,使用asyncawait关键字来实现异步编程,使用lock关键字来保证线程安全。

Instagram爬虫的示例代码

下面是一个简单的Instagram爬虫的示例代码,仅供参考,不保证完全正确和有效。请根据实际情况进行修改和优化。

using System;
using System.Collections.Generic;
using System.Linq;
using System.Net;
using System.Net.Http;
using System.Text;
using System.Threading.Tasks;
using Fizzler.Systems.HtmlAgilityPack;
using HtmlAgilityPack;
using Newtonsoft.Json;

namespace InstagramScraper
{
    // 定义一个自定义的类,用来保存Instagram的内容
    public class InstagramItem
    {
        public string ImageUrl { get; set; } // 图片的URL
        public string UserName { get; set; } // 用户的昵称
        public int Likes { get; set; } // 点赞的数量
    }

    // 定义一个爬虫的类,用来实现Instagram的爬虫
    public class InstagramScraper
    {
        // 定义一些常量,如API地址,代理IP的域名,端口,用户名和密码等
        private const string ApiUrl = "https://www.instagram.com/graphql/query/?query_hash={0}&variables={1}";
        private const string QueryHash = "e769aa130647d2354c40ea6a439bfc08"; // 查询的类型,表示获取图片的信息
        private const string ProxyHost = "http://www.16yun.com"; // 亿牛云爬虫代理的域名
        private const int ProxyPort = 9010; // 亿牛云爬虫代理的端口
        private const string ProxyUser = "16YUN"; // 亿牛云爬虫代理的用户名
        private const string ProxyPass = "16IP"; // 亿牛云爬虫代理的密码
        private const string UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"; // 请求头中的User-Agent
        private const string Referer = "https://www.instagram.com/"; // 请求头中的Referer
        private const string Cookie = "sessionid=...; csrftoken=...; ds_user_id=...;"; // 请求头中的Cookie,需要替换为有效的值

        // 定义一个HttpClient的实例,用来发送和接收HTTP请求
        private readonly HttpClient _httpClient;

        // 定义一个列表,用来保存爬取到的Instagram内容
        private readonly List<InstagramItem> _items;

        // 定义一个对象,用来实现线程安全
        private readonly object _locker;

        // 定义一个构造函数,用来初始化HttpClient和其他字段
        public InstagramScraper()
        {
            // 创建一个HttpClientHandler的实例,用来设置代理IP和请求头等
            var handler = new HttpClientHandler
            // 设置代理IP的地址和凭证
            handler.Proxy = new WebProxy(ProxyHost, ProxyPort)
            {
               Credentials = new NetworkCredential(ProxyUser, ProxyPass)
            };

            // 创建一个HttpClient的实例,传入handler作为参数
            _httpClient = new HttpClient(handler);

            // 设置请求头中的User-Agent,Referer和Cookie等
            _httpClient.DefaultRequestHeaders.Add("User-Agent", UserAgent);
            _httpClient.DefaultRequestHeaders.Add("Referer", Referer);
            _httpClient.DefaultRequestHeaders.Add("Cookie", Cookie);

            // 初始化列表,用来保存爬取到的Instagram内容
            _items = new List<InstagramItem>();

            // 初始化对象,用来实现线程安全
            _locker = new object();
         }

          // 定义一个公共的方法,用来启动爬虫
         public async Task StartScrapingAsync(string tag, int limit)
         {
        // 根据标签和限制的数量,构造第一个请求的参数
        var variables = new
        {
            tag_name = tag,
            show_ranked = false,
            first = limit
        };

        // 将参数转换为JSON字符串
        var variablesJson = JsonConvert.SerializeObject(variables);

        // 调用私有的方法,发送请求并处理数据
        await ScrapeAsync(QueryHash, variablesJson);

        // 输出爬取到的Instagram内容的数量
        Console.WriteLine($"Scraped {_items.Count} items.");
    }

        // 定义一个私有的方法,用来发送请求并处理数据
        private async Task ScrapeAsync(string queryHash, string variablesJson)
        {
           try
           {
            // 根据API地址,查询类型和参数,构造完整的请求地址
            var url = string.Format(ApiUrl, queryHash, variablesJson);

            // 使用HttpClient发送GET请求,获取响应
            var response = await _httpClient.GetAsync(url);

            // 检查响应的状态码,如果不是200,表示请求失败,抛出异常
            if (!response.IsSuccessStatusCode)
                {
                throw new Exception($"Request failed: {response.StatusCode}");
                }

            // 从响应中读取JSON数据
            var json = await response.Content.ReadAsStringAsync();

            // 将JSON数据转换为C#对象
            var data = JsonConvert.DeserializeObject<dynamic>(json);

            // 从C#对象中提取感兴趣的内容,如图片的URL,用户的昵称,点赞的数量等
            var edges = data.data.hashtag.edge_hashtag_to_media.edges;

            // 遍历每一个内容
            foreach (var edge in edges)
            {
                // 创建一个InstagramItem的实例,用来保存内容的信息
                var item = new InstagramItem();

                // 使用Fizzler的QuerySelector方法,使用CSS选择器来提取内容的信息
                var node = edge.node;
                item.ImageUrl = node.display_url;
                item.UserName = node.owner.username;
                item.Likes = node.edge_liked_by.count;

                // 使用lock关键字,保证线程安全,将内容添加到列表中
                lock (_locker)
                {
                    _items.Add(item);
                }

                // 输出内容的信息
                Console.WriteLine($"ImageUrl: {item.ImageUrl}");
                Console.WriteLine($"UserName: {item.UserName}");
                Console.WriteLine($"Likes: {item.Likes}");
                Console.WriteLine();
            }

            // 从C#对象中提取分页的信息,如是否有下一页,下一页的游标等
            var pageInfo = data.data.hashtag.edge_hashtag_to_media.page_info;
            var hasNextPage = pageInfo.has_next_page;
            var endCursor = pageInfo.end_cursor;

            // 如果有下一页,构造下一个请求的参数,递归调用自己,继续爬取数据
            if (hasNextPage)
            {
                // 根据标签和游标,构造下一个请求的参数
                var nextVariables = new
                {
                    tag_name = tag,
                    show_ranked = false,
                    first = limit,
                    after = endCursor
                };

                // 将参数转换为JSON字符串
                var nextVariablesJson = JsonConvert.SerializeObject(nextVariables);

                // 递归调用自己,发送请求并处理数据
                await ScrapeAsync(queryHash, nextVariablesJson);
            }
        }
           catch (Exception ex)
           {
            // 如果发生异常,输出异常信息
            Console.WriteLine($"Error: {ex.Message}");
        }
        }
    }

    // 定义一个主程序,用来测试爬虫的功能
    class Program
    {
        static async Task Main(string[] args)
        {
           // 创建一个InstagramScraper的实例
           var scraper = new InstagramScraper();

           // 调用StartScrapingAsync方法,传入标签和限制的数量,启动爬虫
           await scraper.StartScrapingAsync("cat", 100);
    }
}

                
文章总结:

本文介绍了如何使用C#和Fizzler这两个强大的工具,来实现一个简单而高效的Instagram爬虫,从代码到内容,探索Instagram的深处。我们首先了解了Instagram爬虫的基本原理,然后介绍了使用C#和Fizzler的优势,接着详细说明了Instagram爬虫的实现步骤,最后给出了一个Instagram爬虫的示例代码,以及运行的结果。我们还使用了代理IP技术和多线程技术,来提高爬虫的稳定性和效率。希望本文能够对您有所启发和帮助,如果您有任何问题或建议,欢迎在评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/416438.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Facebook元宇宙大观:数字化社交的未来愿景

近年来&#xff0c;元宇宙&#xff08;Metaverse&#xff09;概念备受关注&#xff0c;被认为是数字化社交的未来趋势。作为全球领先的社交媒体平台之一&#xff0c;Facebook正积极探索元宇宙的发展路径&#xff0c;构想着一个数字化社交的未来愿景。在本文中&#xff0c;我们将…

FLStudio20.8编曲制作软件中文版下载及功能全面介绍

一、主要功能 FL Studio 20.8&#xff0c;作为一款深受音乐制作人和作曲家喜爱的软件&#xff0c;具备多种核心功能&#xff0c;满足从创作到完成的整个音乐制作流程。 音频录制与编辑&#xff1a;用户可以轻松录制外部音频&#xff0c;如乐器演奏、人声等&#xff0c;并在软…

PBM学习——从基础到精通!!!

本专栏着重讲解PBM学习所得,学习笔记、心得,并附有视频素材资料,视频详细目录如下: PBM相关参数解释1 PBM相关参数解释2 PBM相关案例实践1 PBM相关案例实践2 PBM相关案例实践2 PBM相关案例实践3 PBM多相流中次相界面设置1 PBM多相流中次相界面设置2 欧拉多相流曳力1 欧拉多…

opengles 绘制图元 ——glDrawArrays() 相关API介绍 (十)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、opengles3.0 绘制图元介绍二、绘图图元 API 介绍1. glDrawArrays()1.1 glDrawArrays()函数原型1.2 GL_TRIANGLES, GL_TRIANGLE_STRIP, GL_TRIANGLE_FAN 三者的区别1.3 使用GL_TRIANGLES, G…

苹果App Store上架工具介绍

文章目录 摘要引言正文1. Xcode2. [appuploder](https://www.applicationloader.net/)3. [克魔助手](https://keymob.com/) 4.[ipa guard](https://www.ipaguard.com/)总结参考资料 摘要 苹果App Store作为iOS应用程序的主要分发渠道&#xff0c;上架应用程序需要遵守规定和通…

kafka消费者接收不到消息

背景&#xff1a; 对kafka消息进行监听&#xff0c;生产者发了消息&#xff0c;但是消费端没有接到消息&#xff0c;监听代码 消费端&#xff0c;kafka配置 spring.kafka.bootstrap-serverskafka.cestc.dmp:9591 spring.kafka.properties.sasl.jaas.configorg.apache.kafka.…

动态规划之使用最小花费爬楼梯【LeetCode】

动态规划之使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯解法1解法2 LCR 088. 使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯 解法1 状态表示&#xff08;这是最重要的&#xff09;&#xff1a;dp[i]表示以第i级台阶为楼层顶部&#xff0c;到达第i层台阶的最低花费。 状…

threejs 大场景下,对小模型进行贴图处理

接上篇小模型的删除☞threeJS 大模型中对小模型进行删除-CSDN博客 针对已有模型&#xff0c;根据数据状态进行贴图处理&#xff0c;例如&#xff1a;机房内电脑告警状态、电脑开关机状态下的不同状态贴图等 示例模型还是以丛林小屋为例&#xff1a;针对该模型中的树干进行贴图…

❤ git操作Github、git操作github

❤ 操作github 一、git操作Github 1、设置用户名和邮件地址 git config --global user.name "nexuslin" git config --global user.email "2455067339qq.com"2、生成本地密钥 ssh-keygen -t rsa -C 2455067339qq.com3、接下来就一直回车&#xff0c;然…

html2canvas + JsPDF.js 导出pdf分页时的问题

问题描述 前一段时间 实现了html2canvas jspdf.js 导出pdf的功能 项目当时没有测试做完就先搁置 最近项目要上线发现分页时问题 这篇文章记录一下之前的bug import html2canvas from html2canvas; import JsPDF from jspdf export function savePdf(el, title) {html2canva…

高级语言期末2018级A卷(计算机学院)

1.输出S的值&#xff0c;精度1e-6 #include <stdio.h>int main() {int i1;double flag1.0/(2*i-1)*2*i/(2*i-1);double sum0;while(flag>1e-6) {sumflag;i;flag1.0/(2*i-1)*2*i/(2*i-1);}printf("%lf",sum); } 2.编写函数&#xff0c;对n个字符串按字典顺序…

C++_STL使用手册

STL基础 STL全称为 standard template library&#xff0c;中文可译为标准模板库或者泛型库&#xff0c;其包含有大量的模板类和模板函数&#xff0c;是 C 提供的一个基础模板的集合;STL由容器、算法、迭代器、函数对象、适配器、内存分配器这 6 部分构成&#xff0c;其中后面…

【AI绘画·24年1月最新】Stable Diffusion整合包安装!解压即用--秋葉aaaki 大佬的作品,试用

前言 Stable Diffusion 之前费老大的劲部署安装&#xff0c;解决报错。搞完之后&#xff0c;突然发现有个现成集成包可以用&#xff0c;真是效率高到不行&#xff0c;今天搞下来试试 我电脑配置&#xff1a; CPU: 12th Gen Intel Core™ i7-12700F 2.10 GHz 内存32G&#xff0…

DOM 获取父子节点

DOM 是以树状结构排列的&#xff0c;所以父子关系是相对的&#xff0c;当li为我们的目标节点的时候&#xff0c;ul为其父节点&#xff0c;其他li为它的兄弟节点&#xff0c;li里面包含的标签为子节点&#xff0c;以此类推。 那我们如何找父节点&#xff1f; 元素.parentNode&am…

NTT模板

//一个n项和一个m项求卷积 typedef long long LL; const int p 998244353, G 3, Gi 332748118;//这里的Gi是G的除法逆元 const int N 5000007; const double PI acos(-1); int n, m; int res, ans[N]; int len 1;// int L;//二进制的位数 int RR[N]; LL a[N], b[N]; inli…

5G提速工业物联网发展

对于普通消费者来说&#xff0c;5G的概念可能就是更快的网速&#xff0c;5G带来的上网体验提升是最直观的&#xff0c;因为拿手机可以实时观看高清晰度的视频&#xff0c;且无需太久的等待时间。 而更低的时延与更高的可靠性对C端用户带来的体验改善&#xff0c;相对来说就小很…

16. QML中的一些粒子特效

1.说明 在使用unity开发游戏时&#xff0c;都会涉及到一些特效的开发。实际上在QML中也提供了一些可以做特效的控件&#xff0c;称之为粒子系统。本篇博客主要记录一些使用粒子做特效的方式。 特效–火焰效果&#xff1a; 2. 案例汇总 2.1 案例1 效果展示&#xff1a; 粒子…

Nginx网络服务五-----rewrite和反向代理

1.rewrite 1.1rewrite指令 通过正则表达式的匹配来改变URI&#xff0c;可以同时存在一个或多个指令&#xff0c;按照顺序依次对URI进行匹配&#xff0c;rewrite主要是针对用户请求的URL或者是URI做具体处理 官方文档&#xff1a; https://nginx.org/en/docs/http/ngx_http_r…

Flutter开发进阶之Flutter Web加载速度优化

Flutter开发进阶之Flutter Web加载速度优化 通常使用Flutter开发的web加载速度会比较慢&#xff0c;原因是Flutter web需要加载的资源处于国外&#xff0c;以下是据此所做的相应优化。 一、FlutterWeb打包 flutter build web --web-renderer canvaskit使用新命令打包 flut…

Edge 开启网页选择功能(Web Select)

微软禁用了Web Select功能 本着什么功能好用就禁用什么的原则, 微软又禁用了Web Select的功能, 相信这个功能用过的人都说好, 还有好多人不知道这个功能 开启方式, 快捷方式添加启动参数 --enable-featuresmsEdgeAreaSelect 如图 重启电脑或者杀掉进程才能生效 kill命令 kil…