用org.htmlparser包解析html正文内容的实现

2023-04-27 07:26•html•阅读 4738

在开发内容管理系统时，因信息表的正文字段存储的是带html格式的内容，如果要统计正文的字数，需要首先过滤掉html标签。可使用org.htmlparser很方便地将正文字段的html标签过滤掉，得到只含文字内容的字符串。下面是使用htmlparser获取html正文的代码：

public static String getHtmlText(String htmlContent) throws Exception

{

if(htmlContent==null)htmlContent="";

//增加一个<br/>,经测试，如果正文为纯文本,org.htmlparser会把参数当作一个文件处理

StringBuffer sbf = new StringBuffer("");

sbf.append("<br />").append(htmlContent);

Parser parser = new Parser(sbf.toString());

TextExtractingVisitor visitor = new TextExtractingVisitor();

parser.visitAllNodesWith(visitor);

String sReturn = visitor.getExtractedText();

sReturn = sReturn.replace(" ", "");//去掉空格以便统计字数

return sReturn;

}

需要特别注意的是，上面的代码中将htmlContent正文增加了<br/>标签后再进行后续处理，为什么？这是因为，如果正文中不带html标签，org.htmlparser包会把传入参数作为一个文件或URL连接处理，经测试，如果传入的字符串不包含html标签，例如传入字符串为“你好”，则抛出文件IO异常，提示找不到文件“你好”，将传入字符串增加一个html标签后就不会出现问题。

上一篇 »解析CSS加密技术之“障眼法”
下一篇 »使用Html Agility Pack快速解析Html内容

用org.htmlparser包解析html正文内容的实现

相关推荐

Go标准库之html/template

atitit. java jsoup html table的读取解析 总结

Java使用JSONPath解析JSON完整内容详解

HTML基本代码 HTML

c# 解析html

php的tcp粘包和拆包怎么实现？

php不能解析域名如何解决？

【Python】xml 解析

atitit. java jsoup html table的读取解析总结