张亚洲 发表于 2015-1-6 08:34:02

【我分享 python处理HTML和XML


[*]HTMLParser模块的HTMLParser类
       在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时,首先应继承HTMLParser模块中的HTMLParser类,然后重载相关的处理方法。


[*]feed(data)
其中data为传递的数据
当向HTMLParser对象传递数据后,其就开始对数据进行处理


[*]colse()
强制处理feed方法存在在缓冲区中的数据


[*]reset()
重新设置对象实例


[*]getpos()
获得当前处理的行号和偏移位置


[*]handle_starttag(tag,attrs)
其中tag:HTMLParser遇到的标记
attrs:标记的属性
遇到某些标记或者数据时调用


[*]handle_startendtag(tag,attrs)
其中tag:HTMLParser遇到的标记
arrts:标记的属性
当HTMLParser遇到类似于<br/>的标记时调用


[*]handle_endtag(tag)
其中tag:HTMLParser遇到的结束标记
当HTMLParser遇到结束标记时调用


[*]handle_data(data)
其中:data为标记间的数据
处理标记间的数据


[*]hand_comment(data)
其中:data为注释内容
遇到HTML中的注释
htmllib模块的HTMLParser类
[*]anchor_bgn(href,name,type)
[*]anchor_end()
处理超链接

[*]handle_image(source,alt,ismap.align,width,height)
处理图片

页: [1]
查看完整版本: 【我分享 python处理HTML和XML