详细说明:
html5lib
html5lib是用于解析HTML的纯Python库。 它被设计为符合WHATWG HTML规范,所有主要的Web浏览器都实现了该规范。
用法
简单用法遵循以下模式:
import html5lib
with open ( "mydocument.html" , "rb" ) as f :
document = html5lib . parse ( f )
或者:
import html5lib
document = html5lib . parse ( "Hello World!" )
默认情况下, document将是xml.etree元素实例。 html5lib尽可能选择加速的ElementTree实现(即Python 2.x上的xml.etree.cElementTree )。
支持其他两种树类型: xml.dom.minidom和lx