51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1644|回复: 0
打印 上一主题 下一主题

初学pyspider跳过的坑

[复制链接]
  • TA的每日心情
    擦汗
    3 天前
  • 签到天数: 527 天

    连续签到: 4 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2018-12-6 14:33:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    1、JS问题。使用pyspider抓取一些网页时,如果网页使用JS做渲染,将会遇到抓取不成功的情况,具体的表现就是在pyspider开发界面左侧,web页面某些元素显示不出来。解决办法是,使用phantomjs进行JS加载和抓取。
    注意,下载安装phantomjs之后,记得将~\phantomjs\bin加入到PATH中,然后在启动pyspider时使用pyspider all将phantomjs启动。如果是在windows环境下,系统会提示FutureWarning : timeout is not supported on your platform.warnings.warn("timeout is not supported on your platform.", FurureWarning),忽略即可。之后即可在crawl()中使用“fetch_type = 'js'”参数,self.crawl(url, callback = self.last_page, fetch_type = 'js')


    2、证书错误问题。在抓取过程中出现“HTTP 599: SSL certificate problem: self signed certificate in certificate chain”错误。这是因为https协议需要对证书进行验证导致,解决方法是,在crawl()方法中使用validate_cert参数,self.crawl(url, callback = self.last_page, validate_cert = False)


    3、变量传递问题。pyspider中如果需要在A函数中使用B函数中的变量,会比较困难。尝试使用全局变量,在A中修改全局变量,并在B中进行引用,未能达到目的。后查阅文档,发现在crawl()方法中有专门的save参数解决变量传递的问题。
    在first_page函数中,self.crawl(url, callback = self.last_page, save = {'current_url': url,  'path':path_dir}),在last_page函数中使用response.save['current_url']和response.save['path']即可获得url和path_dir的值.





    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-18 06:21 , Processed in 0.062617 second(s), 24 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表