python网络编程学习笔记(7):HTML和XHTML解析(HTMLParser、BeautifulSoup)
<div id="cnblogs_post_body">转载请注明:@小五义http://www.cnblogs.com/xiaowuyi在python中能够进行html和xhtml的库有很多,如HTMLParser、sgmllib、htmllib、BeautifulSoup、mxTidy、uTidylib等,这里介绍一下HTMLParser、BeautifulSoup等模块。
一、利用HTMLParser进行网页解析
具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser
1、从一个简单的解析例子开始
例1:
test1.html文件内容如下:
<div class="cnblogs_code"><html> <head> <title> XHTML 与 HTML 4.01 标准没有太多的不同</title> </head> <body> i love you </body> </html>
页:
[1]