Python selenium爬取某文库的文本内容有残缺 - 51Testing软件测试论坛

from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://wenku.baidu.com/view/83a62ad5316c1eb91a37f111f18583d048640f3c')
time.sleep(5)
elements=driver.find_elements_by_class_name('read-all')#继续阅读
element=elements[0]
element.click()
time.sleep(5)
yhm=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')#用户名登录
yhmd=yhm[0]
yhmd.click()
yh=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')#用户名
yh=yh[0]
yh.send_keys('账号')
mm=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')#密码
mm=mm[0]
mm.send_keys('密码')
dl=driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')#点击登录按钮
dl=dl[0]
dl.click()
time.sleep(10)
gk=driver.find_elements_by_class_name('close-btn.default-bg')#关闭广告
gkc=gk[0]
gkc.click()
time.sleep(5)
driver.execute_script('window.scrollBy(0,200)')#特殊
zc=driver.find_elements_by_class_name('read-all')#再次点击继续阅读
zcc=zc[0]
driver.execute_script("arguments[0].click();",zcc)#特殊，以及这个点击形式能不能变得传统
xt=driver.find_elements_by_class_name('reader-word-layer')#爬取文章内容
xt2=[str(i.text) for i in xt]
print(''.join(xt2))
这个代码遇到图片旋转验证的时候需要手动操作

复制代码