初学pyspider跳过的坑

测试积点老人 · 发表于 2018-12-6 14:33:30

1、JS问题。使用pyspider抓取一些网页时，如果网页使用JS做渲染，将会遇到抓取不成功的情况，具体的表现就是在pyspider开发界面左侧，web页面某些元素显示不出来。解决办法是，使用phantomjs进行JS加载和抓取。
注意，下载安装phantomjs之后，记得将~\phantomjs\bin加入到PATH中，然后在启动pyspider时使用pyspider all将phantomjs启动。如果是在windows环境下，系统会提示FutureWarning : timeout is not supported on your platform.warnings.warn("timeout is not supported on your platform.", FurureWarning)，忽略即可。之后即可在crawl()中使用“fetch_type = 'js'”参数，self.crawl(url, callback = self.last_page, fetch_type = 'js')

2、证书错误问题。在抓取过程中出现“HTTP 599: SSL certificate problem: self signed certificate in certificate chain”错误。这是因为https协议需要对证书进行验证导致，解决方法是，在crawl()方法中使用validate_cert参数，self.crawl(url, callback = self.last_page, validate_cert = False)

3、变量传递问题。pyspider中如果需要在A函数中使用B函数中的变量，会比较困难。尝试使用全局变量，在A中修改全局变量，并在B中进行引用，未能达到目的。后查阅文档，发现在crawl()方法中有专门的save参数解决变量传递的问题。
在first_page函数中，self.crawl(url, callback = self.last_page, save = {'current_url': url, 'path':path_dir})，在last_page函数中使用response.save['current_url']和response.save['path']即可获得url和path_dir的值.

		自动登录	找回密码
密码			(注-册)加入51Testing

初学pyspider跳过的坑

站长推荐 /1