51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1716|回复: 0
打印 上一主题 下一主题

【我分享 python处理HTML和XML

[复制链接]
  • TA的每日心情
    慵懒
    2017-7-9 10:38
  • 签到天数: 13 天

    连续签到: 1 天

    [LV.3]测试连长

    跳转到指定楼层
    1#
    发表于 2015-1-6 08:34:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    • HTMLParser模块的HTMLParser类
           在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时,首先应继承HTMLParser模块中的HTMLParser类,然后重载相关的处理方法。

      • feed(data)
    其中data为传递的数据
    当向HTMLParser对象传递数据后,其就开始对数据进行处理

      • colse()
    强制处理feed方法存在在缓冲区中的数据

      • reset()
    重新设置对象实例

      • getpos()
    获得当前处理的行号和偏移位置

      • handle_starttag(tag,attrs)
    其中tag:HTMLParser遇到的标记
    attrs:标记的属性
    遇到某些标记或者数据时调用

      • handle_startendtag(tag,attrs)
    其中tag:HTMLParser遇到的标记
    arrts:标记的属性
    当HTMLParser遇到类似于<br/>的标记时调用

      • handle_endtag(tag)
    其中tag:HTMLParser遇到的结束标记
    当HTMLParser遇到结束标记时调用

      • handle_data(data)
    其中:data为标记间的数据
    处理标记间的数据

      • hand_comment(data)
    其中:data为注释内容
    遇到HTML中的注释
    htmllib模块的HTMLParser类
    • anchor_bgn(href,name,type)
    • anchor_end()
    处理超链接
    • handle_image(source,alt,ismap.align,width,height)
    处理图片

    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-16 16:31 , Processed in 0.063060 second(s), 29 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表