51Testing软件测试论坛

标题: 运用selenium进行爬虫时,获取的网页中的body内的内容被字符“正在载入中代替”,... [打印本页]

作者: 测试积点老人    时间: 2022-1-24 10:02
标题: 运用selenium进行爬虫时,获取的网页中的body内的内容被字符“正在载入中代替”,...
运用selenium进行爬虫时,获取的网页中的body内的内容被字符“正在载入中代替”,请问如何解决。这导致了我无法对网页进行元素提取。
  1. print("开始执行")
  2. op = webdriver.Chrome(r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')
  3. op.get('http://www.sci-hub.tw.cn/')
  4. e01=op.find_element_by_tag_name('input')
  5. e01=op.find_element_by_tag_name('input')
  6. e01.send_keys('此处为账号')
  7. e02=op.find_elements_by_tag_name('input')[1]
  8. e02.send_keys('此处为密码')
  9. e03=op.find_element_by_tag_name('button')
  10. e03.click()
  11. time.sleep(5)
  12. op.refresh()
  13. html=op.page_source
  14. print(html)
复制代码

下面务必注意html文件中的“正在载入”

下为输出的html源代码:

  1. <html lang="en"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  2. <title>【SciHub学术】免费文献检索论文下载平台</title>
  3. <meta name="keywords" content="SciHub">
  4. <meta name="description" content="SciHub学术文献下载服务平台汇集中国知网、万方数据、维普、读秀等文献数据库,不限地址,随时免费下载,为广大科研人员在学术道路上提供方便快捷的服务!">
  5. <meta name="viewport" content="width=device-width, initial-scale=1.0">
  6. <meta content="always" name="referrer">
  7. <link rel="stylesheet" href="/bootstrap/2.0.4/css/bootstrap.min.css">
  8. <link href="/bootstrap/2.3.2/css/bootstrap-responsive.min.css" rel="stylesheet">   
  9. <link href="/ext/font-awesome/3.2.0/css/font-awesome-ie7.css" rel="stylesheet">
  10. <link href="/ext/font-awesome/3.2.0/css/font-awesome.css" rel="stylesheet">
  11. <link rel="stylesheet" href="/skin/bootstrap_lib/css/matrix-style.css?13">

  12. <script src="/skin/Home/Default/js/jquery.min.js?1808"></script>
  13. <script src="/bootstrap/3.2.0/js/bootstrap.min.js?1808"></script>
  14. <script src="/skin/bootstrap_lib/css/matrix.js?18"></script>
  15. </head>

  16. <body style="">
  17. <!--Header-kefu-->
  18. <div class="helper-button" style="position:fixed; width:42px;height:118px;right:6px;top:112px;z-index:10000; _position:absolute;_bottom:auto;  _top:expression(eval(document.documentElement.scrollTop+112));  "> <a href="http://wpa.qq.com/msgrd?v=3&uin=3366582257&site=qq&menu=yes" target="_blank"></a> </div>
  19. <!--Header-part-->
  20. <div id="header">
  21. <img src="/images/logo/sci.png" alt="学术助手-数字资源">
  22. </div>
  23. <!--close-Header-part-->
  24. <div id="user-nav" class="navbar navbar-inverse">
  25. <ul class="nav">
  26. <li class="dropdown active" id="profile-messages"><a title="" href="#" data-toggle="dropdown" data-target="#profile-messages" class="dropdown-toggle"><i class="icon icon-user"></i>  <span class="text">Hi,2201231213</span><b class="caret"></b></a>
  27. <ul class="dropdown-menu">
  28. <li><a href="/r=user/cp"><i class="icon-user"></i> 用户信息</a></li>
  29. <li class="divider"></li>
  30. <li><a href="/r=user/EditInfo"><i class="icon-key"></i> 修改个人信息</a></li>
  31. <!--li class="divider"></li>
  32. <!--li><a href="/r=member/UpdatePassword"><i class="icon-check"></i> 修改密码</a></li-->
  33. <li class="divider"></li>
  34. </ul>
  35. </li>
  36. <li class="active"><a data-original-title="会员时长:11天" class="tip-bottom" href="#"><i class="icon icon-group"></i> <span class="text">有效期(天):11</span></a></li>
  37. <li class=""><a data-original-title="退出登陆" class="tip-bottom" href="/r=user/logout"><i class="icon icon-signout"></i> <span class="text">安全退出</span></a></li>
  38. <li class=""><a data-original-title="公告: 系统开放支持卡密直接登陆!!" class="tip-bottom" href="#"><i class="icon icon-volume-up"></i> <span class="text">公告: 系统开放支持卡密直接登陆!!</span></a></li>   
  39. </ul>
  40. </div>
  41. <div id="sidebar"><a href="#" class="visible-phone"><i class="icon icon-home"></i> 资源导航</a>
  42. <ul style="display: block;">
  43. <li class="active"><a href="javascript:load_cont('/lit/vip/',0);"><i class="icon icon-book"></i> <span>中文数据库</span></a> </li>
  44. <li class=""> <a href="/r=user/cp"><i class="icon icon-th-list"></i><span class="text-red">用户信息</span></a></li>
  45. <li class=""> <a href="/tbuy" target="_blank"><i class="icon icon-th-list"></i><span class="text-green">资源订阅</span></a></li>
  46. <!--li> <a href="/r=user/EditInfo"><i class="icon icon-th-list"></i><span class="text-red">修改密码</span></a></li>
  47. <!--li> <a href="http://www.chinacnki.cn/" target="_blank"><i class="icon icon-th-list"></i><span class="text-green">论文查/降重</span></a></li-->
  48. <!--li><a href="/e/tool/gbook/?bid=2"><i class="icon icon-tint"></i> <span>诚招代理</span></a></li-->
  49. <!--li class="content taskStatus" align="center">
  50. <span class="pending"></span>
  51. <span class="text-green">手机扫码快捷访问</span>
  52. <div class="stat" align="center"><img src=""></div>
  53. </li-->
  54. </ul></div>

  55. <!-- 客服系统 -->
  56. <script type="text/javascript" src="/skin/qqkefu/index/js/qqkf/service.js"></script>
  57. <link href="/skin/qqkefu/index/js/qqkf/qqkf.css" type="text/css" rel="stylesheet"><div id="content">
  58. <div id="content-header">
  59.     <div id="breadcrumb">
  60.         <a data-original-title="返回首页" href="/" class="tip-bottom"><i class="icon-home"></i> 首页</a>
  61.         <button type="button" class="btn btn-default navbar-btn btn-success" onclick="load_cont('/lit/vip/',0);">中文库</button>
  62.             </div>
  63. </div>
  64. <div class="container-fluid" id="ct">正在载入...</div>
  65. </div>
  66. <script>
  67. function load_cont(val,index)
  68. {
  69. var tVal=val+'?'+parseInt($.now()/30000);
  70. $("#ct").value="正在载入...";
  71. $("#ct").load(tVal);
  72. changeBg(index);
  73. }

  74. function changeBg(index)  
  75. {  
  76. var alllinks=document.getElementById("sidebar").getElementsByTagName("li");  
  77. for(var i=0;i<alllinks.length;i++){  
  78. alllinks[i].className="";//默认未点击时引用的样式  
  79. }
  80. alllinks[index].className="active";//点击切换样式
  81. }  
  82. load_cont('/lit/vip/',0);
  83. </script>





  84. </body></html>
复制代码








欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2