51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 2740|回复: 6
打印 上一主题 下一主题

[讨论] python一个简单的爬虫测试

[复制链接]
  • TA的每日心情
    擦汗
    2022-8-30 09:02
  • 签到天数: 2 天

    连续签到: 2 天

    [LV.1]测试小兵

    跳转到指定楼层
    1#
    发表于 2018-3-15 17:14:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    之前稍微学了一点python,后来一直都没用,今天稍微做一个小爬虫试一试。。

    太久没用了,都忘记pycharm编译的时候要选文件。。我还纳闷怎么一直报错。。怎么练hello world
    都是不能run。。无语。。

    贴一下今天实验的代码好了。

    复制代码
    1. 1 #coding=utf-8
    2. 2 import urllib
    3. 3 import re
    4. 4
    5. 5 def getHtml(url):
    6. 6     page = urllib.urlopen(url)
    7. 7     html = page.read()
    8. 8     return html
    9. 9 def getImg(html):
    10. 10     reg=r'src="(.+?\.jpg)" ></div><br>'
    11. 11     imgre=re.compile(reg)
    12. 12     imgList=re.findall(imgre,html)
    13. 13     x=0
    14. 14     for imgurl in imgList:
    15. 15         urllib.urlretrieve(imgurl,'%s.jpg'%x)
    16. 16         x+=1
    17. 17
    18. 18 html = getHtml("https://tieba.baidu.com/p/5099605942?see_lz=1")
    19. 19
    20. 20 print getImg(html)
    复制代码

    复制代码
    随便抓了炉石传说贴吧里一个直播开包的帖子的图片。。

    getHtml()函数抓取并复制一个网页的源码

    getImg()函数通过正则表达式抓取源码中图片的代码,然后保存数组中,然后输出。

    正则表达式还学要好好学一下。。

    今天只是做一个小小的test,回忆一下。

    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-9-20 16:32 , Processed in 0.087706 second(s), 23 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表