51Testing软件测试论坛

标题: python网页爬取 [打印本页]

作者: 测试积点老人    时间: 2022-4-1 13:13
标题: python网页爬取
如何用Selenium模块爬取加载的Ajax数据,点击网页的下一页,便加载一些Ajax数据,网址一直不变
我想获取网页中所有Ajax加载的数据,已经基本判断出我想要的数据包类型。
[attach]137149[/attach]
[color=rgba(0, 0, 0, 0.75)]后面8个jsp文件就是我想要的
  1. from selenium import webdriver
  2. from bs4 import BeautifulSoup
  3. brower=webdriver.Chrome()
  4. brower.get('http://faculty.hust.edu.cn/xklb.jsp?urltype=tree.TreeTempUrl&wbtreeid=1004%27)
  5. text=brower.page_source
  6. brower.close()

  7. strtext=BeautifulSoup(text,'lxml')
  8. for i in strtext.select('a'):
  9. with open('华中.txt','w',encoding='utf-8') as file:
  10. file.write(i)
复制代码



作者: bellas    时间: 2022-4-2 09:37
等大神
作者: qqq911    时间: 2022-4-2 11:53
模拟鼠标操作,获取全部信息
作者: kallinr    时间: 2022-4-2 18:19
传递键鼠操作




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2