51Testing软件测试论坛

标题: selenium爬取数据异常 [打印本页]

作者: 测试积点老人    时间: 2022-5-5 13:08
标题: selenium爬取数据异常
selenium爬取网站数据,通过识别”id“获取text,由于页面较长,页面数据没有完全显示,结果只有显示的数据爬取的到,未显示的值爬取不到,如何解决?
  1. def downloaddata(num):
  2. landdata = {}
  3. lablename = {"地块名称":"dkmc", "四至范围":"szfw", "出让人":"crr", "出让方式":"crfs", "所属区县":"ssqx", "土地用途":"tdtype", "出让面积":"crmj", "容积率":"rjl", "出让状态":"blockstate", "竞得价":"jdj", "竞得日期":"jdrq", "竞得人":"jdr"}
  4. url = 'http://www.shtdsc.com/2016/tdjy/dkxx/crdk/?id=' + num
  5. browser = webdriver.Firefox()
  6. browser.get(url)
  7. time.sleep(2)
  8. for key in lablename.keys():
  9. landdata[key] = browser.find_element(by='id', value=lablename[key]).text
复制代码
运行结果及报错内容

浏览器页面显示额范围是这些:

[attach]137842[/attach]

然后函数执行的打印结果只如下这几个值:
{'地块名称': '', '四至范围': '', '出让人': '上海市金山区规划和自然资源局', '出让方式': '挂牌', '所属区县': '金山区', '土地用途': '工业用地', '出让面积': '162201.8', '容积率': '2.0', '出让状态': '成交', '竞得价': '', '竞得日期': '', '竞得人': ''}

浏览器页面不显示的地方,数据的值就爬取不到
这是为什么呀?



作者: kallinr    时间: 2022-5-6 11:24
有这种事?
作者: qqq911    时间: 2022-5-6 11:52
模拟鼠标滚动
作者: bellas    时间: 2022-5-6 14:22
模拟鼠标滚动
作者: jingzizx    时间: 2022-5-6 16:28
需要进行显示后识别




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2