TA的每日心情 | 无聊 1 小时前 |
---|
签到天数: 528 天 连续签到: 1 天 [LV.9]测试副司令
|
1、JS问题。使用pyspider抓取一些网页时,如果网页使用JS做渲染,将会遇到抓取不成功的情况,具体的表现就是在pyspider开发界面左侧,web页面某些元素显示不出来。解决办法是,使用phantomjs进行JS加载和抓取。
注意,下载安装phantomjs之后,记得将~\phantomjs\bin加入到PATH中,然后在启动pyspider时使用pyspider all将phantomjs启动。如果是在windows环境下,系统会提示FutureWarning : timeout is not supported on your platform.warnings.warn("timeout is not supported on your platform.", FurureWarning),忽略即可。之后即可在crawl()中使用“fetch_type = 'js'”参数,self.crawl(url, callback = self.last_page, fetch_type = 'js')
2、证书错误问题。在抓取过程中出现“HTTP 599: SSL certificate problem: self signed certificate in certificate chain”错误。这是因为https协议需要对证书进行验证导致,解决方法是,在crawl()方法中使用validate_cert参数,self.crawl(url, callback = self.last_page, validate_cert = False)
3、变量传递问题。pyspider中如果需要在A函数中使用B函数中的变量,会比较困难。尝试使用全局变量,在A中修改全局变量,并在B中进行引用,未能达到目的。后查阅文档,发现在crawl()方法中有专门的save参数解决变量传递的问题。
在first_page函数中,self.crawl(url, callback = self.last_page, save = {'current_url': url, 'path':path_dir}),在last_page函数中使用response.save['current_url']和response.save['path']即可获得url和path_dir的值.
|
|