【我分享 python处理HTML和XML

张亚洲 · 发表于 2015-1-6 08:34:02

在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时，首先应继承HTMLParser模块中的HTMLParser类，然后重载相关的处理方法。

其中data为传递的数据

当向HTMLParser对象传递数据后，其就开始对数据进行处理

强制处理feed方法存在在缓冲区中的数据

重新设置对象实例

获得当前处理的行号和偏移位置

其中tag:HTMLParser遇到的标记

attrs:标记的属性

遇到某些标记或者数据时调用

其中tag:HTMLParser遇到的标记

arrts:标记的属性

当HTMLParser遇到类似于<br/>的标记时调用

其中tag：HTMLParser遇到的结束标记

当HTMLParser遇到结束标记时调用

其中：data为标记间的数据

处理标记间的数据

其中：data为注释内容
遇到HTML中的注释

htmllib模块的HTMLParser类

处理超链接

处理图片

		自动登录	找回密码
密码			(注-册)加入51Testing

站长推荐 /1