Java中使用开源库JSoup解析HTML文件实例(3)

时间:2014-09-26 03:26来源:网络整理作者:网络点击: 次

分享到：

复制代码代码如下: Input HTML String to JSoup :!DOCTYPE htmlhtmlheadtitleJSoup Example/title/headbodytabletrtdh1HelloWorld/h1/tr/table/body/html After parsing, Title : JSoup Example Afte parsi

复制代码代码如下:

Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html>  

After parsing, Title : JSoup Example  

Afte parsing, Heading : HelloWorld  

Jsoup Can read HTML page from URL, title : Google  

Jsoup can also parse HTML file directly title : Login Page  

class of div tag : simple

Jsoup的好处就是它的健壮性很强。Jsoup HTML解析器会对你提供的HTML进行尽量干净的解析，而不去考虑这个HTML是否是格式良好的。它可以处理如下这些错误：未闭合的标签（比如，Java <p>Scala to <p>JavaScala)，隐式标签（比如，一个裸的|Java is Great被封装到了|里面），它总能创建出一个文档结构（包含head及body的HTML，并且head里只会包含正确的元素）。这就是在Java中如何进行HTML的解析。Jsoup是一个优秀的健壮的开源库，它使得读取HTML文档，body片段，HTML字符串，以及直接从WEB中解析HTML内容都变得相当简单。在这篇文章中，我们学习了如何在Java中获取一个特定的HTML标签，正如第一个例子中我们将title及H1标签的值提取成了文本，而第三个例子中我们学习到了如何通过提取CSS属性来从HTML标签中获取属性值。除了强大的jQuery风格的html.body().getElementsByTag("h1").text()方法，你还可以提取任意的HTML标签，它还提供了像Document.title()和Element.className()这样便捷的方法，你可以快速获取到标题及CSS类。希望JSoup能让你玩得愉快，很快我们将会看到关于这个API的更多的一些例子。