51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 820|回复: 0
打印 上一主题 下一主题

运用selenium进行爬虫时,获取的网页中的body内的内容被字符“正在载入中代替”,...

[复制链接]
  • TA的每日心情
    无聊
    4 天前
  • 签到天数: 530 天

    连续签到: 2 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2022-1-24 10:02:49 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    1测试积点
    运用selenium进行爬虫时,获取的网页中的body内的内容被字符“正在载入中代替”,请问如何解决。这导致了我无法对网页进行元素提取。
    1. print("开始执行")
    2. op = webdriver.Chrome(r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')
    3. op.get('http://www.sci-hub.tw.cn/')
    4. e01=op.find_element_by_tag_name('input')
    5. e01=op.find_element_by_tag_name('input')
    6. e01.send_keys('此处为账号')
    7. e02=op.find_elements_by_tag_name('input')[1]
    8. e02.send_keys('此处为密码')
    9. e03=op.find_element_by_tag_name('button')
    10. e03.click()
    11. time.sleep(5)
    12. op.refresh()
    13. html=op.page_source
    14. print(html)
    复制代码

    下面务必注意html文件中的“正在载入”

    下为输出的html源代码:

    1. <html lang="en"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    2. <title>【SciHub学术】免费文献检索论文下载平台</title>
    3. <meta name="keywords" content="SciHub">
    4. <meta name="description" content="SciHub学术文献下载服务平台汇集中国知网、万方数据、维普、读秀等文献数据库,不限地址,随时免费下载,为广大科研人员在学术道路上提供方便快捷的服务!">
    5. <meta name="viewport" content="width=device-width, initial-scale=1.0">
    6. <meta content="always" name="referrer">
    7. <link rel="stylesheet" href="/bootstrap/2.0.4/css/bootstrap.min.css">
    8. <link href="/bootstrap/2.3.2/css/bootstrap-responsive.min.css" rel="stylesheet">   
    9. <link href="/ext/font-awesome/3.2.0/css/font-awesome-ie7.css" rel="stylesheet">
    10. <link href="/ext/font-awesome/3.2.0/css/font-awesome.css" rel="stylesheet">
    11. <link rel="stylesheet" href="/skin/bootstrap_lib/css/matrix-style.css?13">

    12. <script src="/skin/Home/Default/js/jquery.min.js?1808"></script>
    13. <script src="/bootstrap/3.2.0/js/bootstrap.min.js?1808"></script>
    14. <script src="/skin/bootstrap_lib/css/matrix.js?18"></script>
    15. </head>

    16. <body style="">
    17. <!--Header-kefu-->
    18. <div class="helper-button" style="position:fixed; width:42px;height:118px;right:6px;top:112px;z-index:10000; _position:absolute;_bottom:auto;  _top:expression(eval(document.documentElement.scrollTop+112));  "> <a href="http://wpa.qq.com/msgrd?v=3&uin=3366582257&site=qq&menu=yes" target="_blank"></a> </div>
    19. <!--Header-part-->
    20. <div id="header">
    21. <img src="/images/logo/sci.png" alt="学术助手-数字资源">
    22. </div>
    23. <!--close-Header-part-->
    24. <div id="user-nav" class="navbar navbar-inverse">
    25. <ul class="nav">
    26. <li class="dropdown active" id="profile-messages"><a title="" href="#" data-toggle="dropdown" data-target="#profile-messages" class="dropdown-toggle"><i class="icon icon-user"></i>  <span class="text">Hi,2201231213</span><b class="caret"></b></a>
    27. <ul class="dropdown-menu">
    28. <li><a href="/r=user/cp"><i class="icon-user"></i> 用户信息</a></li>
    29. <li class="divider"></li>
    30. <li><a href="/r=user/EditInfo"><i class="icon-key"></i> 修改个人信息</a></li>
    31. <!--li class="divider"></li>
    32. <!--li><a href="/r=member/UpdatePassword"><i class="icon-check"></i> 修改密码</a></li-->
    33. <li class="divider"></li>
    34. </ul>
    35. </li>
    36. <li class="active"><a data-original-title="会员时长:11天" class="tip-bottom" href="#"><i class="icon icon-group"></i> <span class="text">有效期(天):11</span></a></li>
    37. <li class=""><a data-original-title="退出登陆" class="tip-bottom" href="/r=user/logout"><i class="icon icon-signout"></i> <span class="text">安全退出</span></a></li>
    38. <li class=""><a data-original-title="公告: 系统开放支持卡密直接登陆!!" class="tip-bottom" href="#"><i class="icon icon-volume-up"></i> <span class="text">公告: 系统开放支持卡密直接登陆!!</span></a></li>   
    39. </ul>
    40. </div>
    41. <div id="sidebar"><a href="#" class="visible-phone"><i class="icon icon-home"></i> 资源导航</a>
    42. <ul style="display: block;">
    43. <li class="active"><a href="javascript:load_cont('/lit/vip/',0);"><i class="icon icon-book"></i> <span>中文数据库</span></a> </li>
    44. <li class=""> <a href="/r=user/cp"><i class="icon icon-th-list"></i><span class="text-red">用户信息</span></a></li>
    45. <li class=""> <a href="/tbuy" target="_blank"><i class="icon icon-th-list"></i><span class="text-green">资源订阅</span></a></li>
    46. <!--li> <a href="/r=user/EditInfo"><i class="icon icon-th-list"></i><span class="text-red">修改密码</span></a></li>
    47. <!--li> <a href="http://www.chinacnki.cn/" target="_blank"><i class="icon icon-th-list"></i><span class="text-green">论文查/降重</span></a></li-->
    48. <!--li><a href="/e/tool/gbook/?bid=2"><i class="icon icon-tint"></i> <span>诚招代理</span></a></li-->
    49. <!--li class="content taskStatus" align="center">
    50. <span class="pending"></span>
    51. <span class="text-green">手机扫码快捷访问</span>
    52. <div class="stat" align="center"><img src=""></div>
    53. </li-->
    54. </ul></div>

    55. <!-- 客服系统 -->
    56. <script type="text/javascript" src="/skin/qqkefu/index/js/qqkf/service.js"></script>
    57. <link href="/skin/qqkefu/index/js/qqkf/qqkf.css" type="text/css" rel="stylesheet"><div id="content">
    58. <div id="content-header">
    59.     <div id="breadcrumb">
    60.         <a data-original-title="返回首页" href="/" class="tip-bottom"><i class="icon-home"></i> 首页</a>
    61.         <button type="button" class="btn btn-default navbar-btn btn-success" onclick="load_cont('/lit/vip/',0);">中文库</button>
    62.             </div>
    63. </div>
    64. <div class="container-fluid" id="ct">正在载入...</div>
    65. </div>
    66. <script>
    67. function load_cont(val,index)
    68. {
    69. var tVal=val+'?'+parseInt($.now()/30000);
    70. $("#ct").value="正在载入...";
    71. $("#ct").load(tVal);
    72. changeBg(index);
    73. }

    74. function changeBg(index)  
    75. {  
    76. var alllinks=document.getElementById("sidebar").getElementsByTagName("li");  
    77. for(var i=0;i<alllinks.length;i++){  
    78. alllinks[i].className="";//默认未点击时引用的样式  
    79. }
    80. alllinks[index].className="active";//点击切换样式
    81. }  
    82. load_cont('/lit/vip/',0);
    83. </script>





    84. </body></html>
    复制代码



    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-25 10:43 , Processed in 0.064316 second(s), 21 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表