51Testing软件测试论坛
标题:
Python selenium爬取某文库的文本内容有残缺
[打印本页]
作者:
测试积点老人
时间:
2021-10-21 10:21
标题:
Python selenium爬取某文库的文本内容有残缺
背景如题,代码如下:
from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://wenku.baidu.com/view/83a62ad5316c1eb91a37f111f18583d048640f3c')
time.sleep(5)
elements=driver.find_elements_by_class_name('read-all')#继续阅读
element=elements[0]
element.click()
time.sleep(5)
yhm=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')#用户名登录
yhmd=yhm[0]
yhmd.click()
yh=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')#用户名
yh=yh[0]
yh.send_keys('账号')
mm=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')#密码
mm=mm[0]
mm.send_keys('密码')
dl=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')#点击登录按钮
dl=dl[0]
dl.click()
time.sleep(10)
gk=driver.find_elements_by_class_name('close-btn.default-bg')#关闭广告
gkc=gk[0]
gkc.click()
time.sleep(5)
driver.execute_script('window.scrollBy(0,200)')#特殊
zc=driver.find_elements_by_class_name('read-all')#再次点击继续阅读
zcc=zc[0]
driver.execute_script("arguments[0].click();",zcc)#特殊,以及这个点击形式能不能变得传统
xt=driver.find_elements_by_class_name('reader-word-layer')#爬取文章内容
xt2=[str(i.text) for i in xt]
print(''.join(xt2))
这个代码遇到图片旋转验证的时候需要手动操作
复制代码
到参训单位都没问题,之后的内容就不行了
[attach]134887[/attach]
作者:
心中所想
时间:
2021-10-22 09:30
可以手动操作一遍,查看sj加载后有没有全部的文本数据,没有的只能每点击一次存储一次,或抓取动态请求的文本url,生成URL,再次请求(用requests也行快一点)一般有sj加密。
作者:
qqq911
时间:
2021-10-22 10:44
网页上操作试试
作者:
海海豚
时间:
2021-10-22 11:23
是之后的内容都没有爬下来吗,对比一下两部分内容的区别
欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/)
Powered by Discuz! X3.2