一、安装Html Agility Pack
Html Agility Pack是一个开源的解析HTML元素的类库。可以在C#中直接操作,类似于XML操作方法。操作还是比较好理解的。
在NuGet中安装: PM>Install-Package HtmlAgilityPack -Version 1.8.2
https://www.nuget.org/packages/HtmlAgilityPack 这里可以有较多的版本选择。
在项目中HtmlAgilityPack.dll
必须引入 HtmlAgilityPack;
using HtmlAgilityPack;
如果你比较心急可以直接跳转
4.1根据文本内容解析HTML,获取图片地址
二、解析HTML
2.1.根据本地文件解析HTML
var path = @"test.html";
var doc = new HtmlDocument();
doc.Load(path);
var node = doc.DocumentNode.SelectSingleNode("//body");
2.2.根据文本解析HTML
var html = @"<!DOCTYPE html>
<html>
<body>
<h1>This is <b>bold</b> heading</h1>
<p>This is <u>underlined</u> paragraph</p>
<h2>This is <i>italic</i> heading</h2>
</body>
</html> ";
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");
Console.WriteLine(htmlBody.OuterHtml);
2.3根据url地址解析HTML
var html = @"http://html-agility-pack.net/";
HtmlWeb web = new HtmlWeb();
var htmlDoc = web.Load(html);
var node = htmlDoc.DocumentNode.SelectSingleNode("//head/title");
Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);
三、节点操作-获取节点、追加节点、删除节点
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
// 获取TD下input标签SelectNodes
var htmlNodes = htmlDoc.DocumentNode.SelectNodes("//td/input");
// 获取第一个匹配的节点SelectSingleNode
string name = htmlDoc.DocumentNode
.SelectSingleNode("//td/input")
.Attributes["value"].Value;
// 根据ID获取节点
var htmlSelect = htmlDoc.GetElementbyId("ID");
// 创建节点信息
HtmlNode h2Node = HtmlNode.CreateNode("<h2> This is h2 heading</h2>");
// 追加节点在末尾
htmlSelect.AppendChild(h2Node);
// 追加节点在起始位置
htmlSelect.PrependChild(h2Node);
// 下面是集合节点集合
var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");
HtmlNode h2Node = HtmlNode.CreateNode("<h2> This is h2 heading</h2>");
HtmlNode pNode1 = HtmlNode.CreateNode("<p> This is appended paragraph 1</p>");
HtmlNode pNode2 = HtmlNode.CreateNode("<p> This is appended paragraph 2</p>");
HtmlNodeCollection children = new HtmlNodeCollection(htmlBody);
children.Add(h2Node);
children.Add(pNode1);
children.Add(pNode2);
htmlBody.AppendChildren(children);
// 移除节点
var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");
HtmlNode node = htmlBody.ChildNodes[1];
node.Remove(); // 或者 node.RemoveAll();
// htmlBody.RemoveAllChildren();
// 最后上一个设置属性的例子
var h1Node = htmlDoc.DocumentNode.SelectSingleNode("//h1");
h1Node.Attributes.Append("style");
h1Node.SetAttributeValue("style", "color:blue");
四、实战
4.1根据文本内容解析HTML,获取图片地址
4.1.1文本内容
<div>
情况说明:近期有老师反映参赛孩子作品及费用发给我们没有收到参赛结果等问题,经公司调查,是有一些不法分子将我们的海报及链接更改为他们自己的,以骗取费用。
</div>
<div>
<br />
<span style="color:#ff0000;">备注:任何人或单位以 的名义进行非法诈骗,此行为与 无关,请各位老师参赛时注意信息的准确性。</span></div>
<br />
<div>
2020年07月08日 <br />
<br />
<br />
现附上诈骗情节比较严重的一个个体信息,请老师及家长们及时查看微信是否有此人。</div>
<div>
<img alt="" src="/uploads/allimg/200708/10391-200FQ1233W31.png" /> </div>
<div>
篡改后的海报 </div>
<div style="text-align: center;">
</div>
<div>
<br />
</div>
<div>
<img alt="" src="/uploads/allimg/200708/10391-200FQ12I1257.jpg" style="width: 420px; height: 592px;" /></div>
<div>
诈骗人微信</div>
<div>
<br />
</div>
<div>
</div>
4.1.2获取图片地址
// 变量 HtmlContent 的值是上面的 文本html
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(HtmlContent); //加载html
HtmlContent =System.Web.HttpUtility.UrlDecode(HtmlContent).Trim();//重新编码,并去除空格
HtmlNode HtmlContentNode = doc.DocumentNode;
string html = "";
if (HtmlContentNode != null)
{
html = HtmlContentNode.InnerHtml;
// 代码中的.//img[@src] 是 XPath 路径代码,意思就是返回所有图片节点
HtmlNodeCollection img = HtmlContentNode.SelectNodes(".//img[@src]"); //获取所有图片节点
if (img != null)
{
foreach (var imgitem in img)
{
string href = imgitem.Attributes["src"].Value; //获取图片地址
//你可以做一些动作,例如保存图片到本地
}
}
}
//替换图地址,给没有前缀的图片路径增加前缀
html.Replace("src=\"/uploads/",$"src=\"http://www.xxxx.com/uploads/")