C# 解析 HTML 实战指南

在网页开发和数据处理的场景中,经常需要从 HTML 文档里提取有用的信息。C# 作为一门强大的编程语言,提供了丰富的工具和库来实现 HTML 的解析。这篇博客就带你深入了解如何使用 C# 高效地解析 HTML。

一、为什么要在 C# 中解析 HTML

在实际项目中,无论是进行网页数据采集、网页内容分析,还是开发网页爬虫,都离不开对 HTML 的解析。例如,电商平台可能需要从竞品网站上采集商品价格和库存信息;新闻聚合应用可能需要从各大新闻网站提取文章标题、正文和发布时间。通过 C# 解析 HTML,能够自动化地获取这些关键数据,大大提高工作效率。

二、C# 解析 HTML 的常用工具和库

  1. HtmlAgilityPack:这是 C# 中最常用的 HTML 解析库之一,它提供了简单易用的 API,能够将 HTML 文档解析成一个 DOM(文档对象模型)树,方便开发者通过 XPath 或 CSS 选择器来提取节点和属性。
  1. AngleSharp:另一个功能强大的 HTML 解析库,支持现代的 HTML5 标准,并且在性能上表现出色。它同样可以构建 DOM 树,同时还提供了丰富的事件处理机制,方便处理复杂的网页结构。

三、使用 HtmlAgilityPack 解析 HTML

  1. 安装库:最简单的方式是通过 NuGet 包管理器。在 Visual Studio 中,右键点击项目,选择 “管理 NuGet 程序包”,搜索 “HtmlAgilityPack” 并安装。
  1. 基本解析示例:下面是一个使用 HtmlAgilityPack 从 HTML 字符串中提取所有链接的代码示例:

using HtmlAgilityPack;

class Program

{

static void Main()

{

string html = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>";

HtmlDocument doc = new HtmlDocument();

doc.LoadHtml(html);

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a");

if (links!= null)

{

foreach (HtmlNode link in links)

{

string href = link.GetAttributeValue("href", "");

Console.WriteLine($"Link: {href}");

}

}

}

}

在这段代码中,首先创建了一个HtmlDocument对象并加载 HTML 字符串。然后使用SelectNodes方法结合 XPath 表达式//a来选取所有的<a>标签节点,最后遍历这些节点并提取href属性的值。

  1. 提取复杂结构的数据:假设我们要从一个电商网页中提取商品信息,包括商品名称、价格和图片链接。HTML 结构可能如下:

<div class="product">

<img src="product1.jpg" alt="Product Name">

<h2 class="product-name">Product 1</h2>

<span class="price">$19.99</span>

</div>

使用 HtmlAgilityPack 提取数据的代码如下:


using HtmlAgilityPack;

class Product

{

public string Name { get; set; }

public string Price { get; set; }

public string ImageUrl { get; set; }

}

class Program

{

static void Main()

{

string html = "<div class='product'><img src='product1.jpg' alt='Product Name'><h2 class='product-name'>Product 1</h2><span class='price'>$19.99</span></div>";

HtmlDocument doc = new HtmlDocument();

doc.LoadHtml(html);

HtmlNode productNode = doc.DocumentNode.SelectSingleNode("//div[@class='product']");

if (productNode!= null)

{

Product product = new Product();

HtmlNode imgNode = productNode.SelectSingleNode(".//img");

if (imgNode!= null)

{

product.ImageUrl = imgNode.GetAttributeValue("src", "");

}

HtmlNode nameNode = productNode.SelectSingleNode(".//h2[@class='product-name']");

if (nameNode!= null)

{

product.Name = nameNode.InnerText;

}

HtmlNode priceNode = productNode.SelectSingleNode(".//span[@class='price']");

if (priceNode!= null)

{

product.Price = priceNode.InnerText;

}

Console.WriteLine($"Name: {product.Name}, Price: {product.Price}, ImageUrl: {product.ImageUrl}");

}

}

}

这里使用SelectSingleNode方法结合 XPath 表达式来精确选取需要的节点,并提取相应的属性和文本内容。

四、使用 AngleSharp 解析 HTML

  1. 安装库:同样通过 NuGet 包管理器搜索并安装 “AngleSharp”。
  1. 基本解析示例:使用 AngleSharp 提取所有链接的代码如下:

using AngleSharp;

using System.Threading.Tasks;

class Program

{

static async Task Main()

{

string html = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>";

var context = BrowsingContext.New();

var document = await context.OpenAsync(req => req.Content(html));

var links = document.QuerySelectorAll("a");

foreach (var link in links)

{

string href = link.GetAttribute("href");

Console.WriteLine($"Link: {href}");

}

}

}

在这段代码中,通过BrowsingContext.New()创建一个浏览上下文,然后使用OpenAsync方法加载 HTML 字符串并得到一个IDocument对象。接着使用QuerySelectorAll方法结合 CSS 选择器来选取所有的<a>标签,最后提取href属性。

五、总结与注意事项

通过上述示例,我们可以看到 C# 在解析 HTML 方面有强大的工具支持。在实际应用中,需要注意以下几点:

  1. 网页结构的变化:网页结构可能会经常更新,所以在编写解析代码时,要尽量使用灵活的 XPath 或 CSS 选择器,以适应结构的变化。
  1. 合法性检查:在处理提取到的数据时,要进行合法性检查,确保数据的准确性和完整性。
  1. 性能优化:当处理大量 HTML 文档时,要注意性能优化,例如合理使用缓存、批量处理等。

希望这篇博客能帮助你掌握 C# 解析 HTML 的技巧,在实际项目中高效地处理网页数据。如果在实践过程中有任何问题,欢迎在评论区留言交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/957921.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CrypTen——基于pytorch的隐私保护机器学习框架

目录 一、CrypTen概述 二、应用场景 三、CrypTen优势 四、CrypTen技术解析 1.基于pytorch的构建基础 2.核心密码学原语 3.加密模型训练流程 五、传统隐私保护技术与CrypTen的对比 1.传统隐私保护技术介绍 2.CrypTen与传统隐私保护技术的区别 六、CrypTen的环境配置…

他把智能科技引入现代农业领域

江苏田倍丰农业科技有限公司&#xff08;以下简称“田倍丰”&#xff09;是一家专注于粮油种植的农业科技公司&#xff0c;为拥有300亩以上田地的大户提供全面的解决方案。田倍丰通过与当地政府合作&#xff0c;将土地承包给大户&#xff0c;并提供农资和技术&#xff0c;实现利…

电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测

电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测 目录 电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测预测效果基本描述程序设计参考资料 预测效果 基本描述 电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测 锂电池作为现代电子设备的重要动力…

Spring Boot AOP实现动态数据脱敏

依赖&配置 <!-- Spring Boot AOP起步依赖 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency>/*** Author: 说淑人* Date: 2025/1/18 23:03* Desc…

UE虚幻引擎No Google Play Store Key:No OBB found报错如何处理?

问题描述&#xff1a; UE成功打包APK并安装过后&#xff0c;启动应用时提示&#xff1a; No Google Play Store KeyNo OBB found and no store key to try to download. Please setone up in Android Project SettingsUE配置默认在打包APK时会附加生成一个OBB文件&#xff0c;…

Github 2025-01-20 开源项目周报 Top15

根据Github Trendings的统计,本周(2025-01-20统计)共有15个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10Rust项目2TypeScript项目1C++项目1Jupyter Notebook项目1Go项目1Tabby: 自托管的AI编码助手 创建周期:310 天开发语言:Rust协议类…

给工作流穿上漂亮的衣服,创建用户交互界面并调用工作流,可定制的工作流,奶奶都能看明白的扣子智能体免费系列教程(10)

创建工作流看这个 搭建小红书梗图、歪理生成器工作流搭建 效果 欢迎来到滔滔讲AI。本教程为免费系列教程&#xff0c;感谢关注&#xff0c;以防找不到。 一、新建应用 方式一&#xff0c;点击左侧导航的加号 方式二、在工作空间面板选择右上角的创建按钮 选择创建应用 二、…

Python网络自动化运维---用户交互模块

文章目录 目录 文章目录 前言 实验环境准备 一.input函数 代码分段解析 二.getpass模块 前言 在前面的SSH模块章节中&#xff0c;我们都是将提供SSH服务的设备的账户/密码直接写入到python代码中&#xff0c;这样很容易导致账户/密码泄露&#xff0c;而使用Python中的用户交…

免费送源码:Java+springboot+MySQL 婴儿疫苗接种管理系统的设计与实现 计算机毕业设计原创定制

目 录 摘要 1 1 绪论 1 1.1概述 1 1.2课题意义 1 1.3研究思路及创新之处 1 1.4springboot框架介绍 1 1.5论文结构与章节安排 1 2 婴儿疫苗接种管理系统分析 3 2.1 可行性分析 3 2.1.1 技术可行性分析 3 2.1.2 经济可行性分析 3 2.1.3 法律可行性分析 3 2.2 系统功…

三相电变为家庭220V,市电火线和零线关系,为什么用三相电输送

参考&#xff1a; https://www.zhihu.com/question/30555841/answer/85723024 上面是电力系统的主要组成&#xff0c;发电站发电后升压传输&#xff0c;然后到各大城市再降压使用。 我们看到电塔上都是三根线&#xff0c;那么因为整个过程都是三相电。 为什么用三相电&#xff…

CIMRTS材质美化--放大采样、缩小采样

最新的CIMRTS v1.0.10中在要素管理中的材质美化增加「放大采样」和「缩小采样」参数&#xff0c;对于透明树叶可以达到较好效果。 在CesiumLab中&#xff0c;一棵树处理完成后&#xff0c;在EarthSDK中&#xff0c;就是呈现这样缩小就会有树叶丢失的情况。效果如下&#xff1a…

SQL-leetcode—1179. 重新格式化部门表

1179. 重新格式化部门表 表 Department&#xff1a; ---------------------- | Column Name | Type | ---------------------- | id | int | | revenue | int | | month | varchar | ---------------------- 在 SQL 中&#xff0c;(id, month) 是表的联合主键。 这个表格有关…

城市生命线安全保障:技术应用与策略创新

城市生命线工程是维系城市正常运行、满足群众生产生活需要的重要基础设施。随着城市化进程的加快&#xff0c;城市基础设施生命线安全运行的复杂性日益加剧&#xff0c;保障城市居民日常生活正常运行的水、电、气、热等各类地下管线以及桥梁、市政设施、轨道交通等城市基础设施…

vue2的$el.querySelector在vue3中怎么写

这个也属于直接操作 dom 了&#xff0c;不建议在项目中这样操作&#xff0c;不过我是在vue2升级vue3的时候遇到的&#xff0c;是以前同事写的代码&#xff0c;也没办法 先来看一下对比 在vue2中获取实例是直接通过 this.$refs.xxx 获取绑定属性 refxxx 的实例&#xff0c;并且…

Genetic Prompt Search via Exploiting Language Model Probabilities

题目 利用语言模型概率的遗传提示搜索 论文地址&#xff1a;https://www.ijcai.org/proceedings/2023/0588.pdf 项目地址&#xff1a;https://github.com/zjjhit/gap3 摘要 针对大规模预训练语言模型(PLMs)的即时调优已经显示出显著的潜力&#xff0c;尤其是在诸如fewshot学习…

如何引导LabVIEW项目相关方合理参与项目?

引导 LabVIEW 项目相关方合理参与项目&#xff0c;是保障项目顺利推进的关键所在。合理引导&#xff0c;既能显著提升项目执行效率&#xff0c;又能让各方清晰知晓自身在项目中的角色与责任。以下为具体策略与建议&#xff1a; ​ 一、明确项目目标与需求 清晰沟通项目目标&a…

Maven的下载安装配置

maven的下载安装配置 maven是什么 Maven 是一个用于 Java 平台的 自动化构建工具&#xff0c;由 Apache 组织提供。它不仅可以用作包管理&#xff0c;还支持项目的开发、打包、测试及部署等一系列行为 Maven的核心功能 项目构建生命周期管理&#xff1a;Maven定义了项目构建…

光谱相机在智能冰箱的应用原理与优势

食品新鲜度检测 详细可点击查看汇能感知团队实验报告&#xff1a;高光谱成像技术检测食物新鲜度 检测原理&#xff1a;不同新鲜程度的食品&#xff0c;其化学成分和结构会有所不同&#xff0c;在光谱下的反射、吸收等特性也存在差异。例如新鲜肉类和蔬菜中的水分、蛋白质、叶…

MySQL可直接使用的查询表的列信息

文章目录 背景实现方案模板SQL如何查询列如何转大写如何获取字符位置如何拼接字段 SQL适用场景 背景 最近产品找来&#xff0c;想让帮忙出下表的信息&#xff0c;字段驼峰展示&#xff0c;每张表信息show create table全部展示&#xff0c;再逐个粘贴&#xff0c;有点太耗费时…

设计模式的艺术-享元模式

结构性模式的名称、定义、学习难度和使用频率如下表所示&#xff1a; 1.如何理解享元模式 当一个软件系统在运行时产生的对象数量太多&#xff0c;将导致运行代价过高&#xff0c;带来系统性能下降等问题。 在享元模式中&#xff0c;存储这些共享实例对象的地方称为享元池&…