Selenium 网页爬虫开发基础（Java）

Mario洁 发表于 2018-3-12 16:26:47

Selenium是一个多平台的Web应用程序测试的工具，支持包括IE、Mozilla Firefox、Google Chrome等。
他可以模拟人的操作，如点击，输入，键盘操作等。适合于抓取由JavaScript生成的页面或其他需要
互动的页面。
Anyway， Selenium是模拟人执行浏览器一个自动化工具。
本文介绍的是Java平台下，如何用Selenium，与网站交互并爬取相关内容

Selenium Project有四个：Selenium WebDriver、Selenium Grid（已废弃）、Selenium IDE、Selenium
Remote Control。本文使用的是WebDriver Project，其中IDE Project是可视化类型的，适合于非开发
性自动化。
一、准备

１、开发准备

基础Java开发环境不做赘述，Selenium官方网址：–>seleniumhq官网 <– 这上面有很多资料，纯
英文的。但不必太纠结，国内中文资料很多，而且十分够用，可自行百度。这里给大家推荐按一个：
自动化测试
在官网Download页面，找到如下图所示的下载内容即可。不得不说的是，这个网站偶尔会无法访
问，可能是被墙了。在公司访问基本都没出过问题，因为是比利时节点。
为了方便大家，我在网盘上也给大家分享了，链接如下：http://pan.baidu.com/s/1c1KDNI4 密码：rxnh
官网下载页面

２、引入Jar

解压出来的Jar包应该是这样的，lib文件夹中还有更多的。为了方便管理，可以将Jar放入的User
库，项目需要就统一加入。
Lib下包众多，作者比较好奇每个包具体功能，想在项目中直接只加入合适的包。这个我查了一下，
没找到，如果有了解也可以告诉我。

文件夹

创建User库的方法是：Windows–>Preferences–>User libraries下先New，再分别add Jar即可。
在需要的项目上，右击buildpath配置进去即可。
Eclipse配置

若使用构建工具，相关dependency 如下
--Gradle--
dependencies {
compile(＂org.seleniumhq.selenium:selenium-java＂);
}
--Maven--
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.4.0</version>
</dependency>OK，当你完成以上时候，项目的准备就基本完成了。下面就是具体功能Coding的部分。

二、小试牛刀

1、Selenium大致实现思路

配置相关参数驱动以及浏览器位置等等
系统根据配置加载Drive驱动此时自动化操作的浏览器打开
Drive加载URL 访问URL页面
操作Drive对浏览器执行操作执行已设定操作

相关代码粘贴如下，代码提供了三种浏览器的执行方案，分别是IE（速度很慢）、FIrefox、
Chrome。需要注意的是Chrome在win下只支持32-bit，并且drive的驱动与浏览器版本是相关的，
向下不兼容。
/**
* Get WebDriver
* @param url
* @return driver
*/
public static WebDriver getWebDriver(String url) {
   //Use IE. u need to set drive path and capabilities
/*       System.setProperty("webdriver.ie.driver", "D:/drive/IEDriverServer.exe");
         DesiredCapabilities ieCapabilities = DesiredCapabilities.internetExplorer();
         ieCapabilities.setCapability(InternetExplorerDriver
                        .INTRODUCE_FLAKINESS_BY_IGNORING_SECURITY_DOMAINS,true);
         WebDriver driver = new InternetExplorerDriver();*/

   //Use Firefox.need set property and install path;
/*       System.setProperty("webdriver.gecko.driver", "D:/drive/geckodriver.exe");
         System.setProperty("webdriver.firefox.bin", "C:\\Program Files\\Mozilla Firefox\\firefox.exe");
         WebDriver driver = new FirefoxDriver();*/

   //Use Chrome ,but support 32-bit only
   System.setProperty("webdriver.chrome.driver", "D:/drive/chromedriver.exe");
   WebDriver driver = new ChromeDriver();
   driver.get(url);
   return driver;
}2、操作浏览器

以抓取百度为例，用户浏览器打开后。Selenium根据关键字找到输入框，并点击搜索，并将
最终结果输入。注意：下面这段代码可能有问题,因为点击搜索后页面需要加载后才会出现结果。
所以应该有判断加载结果出来后再抓取结果的过程，这里为简便就只是线程sleep了2秒钟。
//get input box
   WebElement keyword = driver.findElement(By.id("kw"));
   //enter keyword
   keyword.sendKeys("selenium");
   //get search button and click it
   WebElement searchBtn = driver.findElement(By.id("su"));
   searchBtn.click();
   Thread.sleep(2000);//waiting for the result
   //get result and print out cyclical--搜索结果是h3标签class=“t”，故以此为条件
   List<WebElement> titles = driver.findElements(By.cssSelector("h3.t"));
   for(WebElement title:titles){
         WebElement webTitle=title.findElement(By.tagName("a"));
         System.err.println("webTitle:"+webTitle+":"+webTitle.getText());
   }三、Selenium基本操作

1、元素定位(按推荐指数排列，后三个没用过)
//id 定位
WebElementwebElement = driver.findElement(By.id(“id的值”))；
//name定位
WebElementwebElement = driver.findElement(By.name(“name的值”))；
//TagName 标签名称定位
WebElementwebElement = driver.findElement(By.tagName(“标签名称”))；
//Class 名称定位
WebElementwebElement = driver.findElement(By.className(“class属性”))；
//css 方式定位
WebElementwebElement = driver.findElement(By.cssSelector(“css表达式”))；
//链接的全部文字定位
WebElementwebElement = driver.findElement(By.linkText(“链接的全部文字”))；
//链接的部分文字定位
WebElementwebElement = driver.findElement(By.partialLinkText(“链接的部分文字”))；
//xpath 方式定位
WebElementwebElement = driver.findElement(By.xpath(“xpath表达式”))；2、元素简单操作
// 点击
webElement .click();
// 输入
webElement .sendKeys("hello selenium");
// 获取属性
webElement .getAttribute("value");3、元素等待

显示等待
设定等待的条件，满足条件测试代码才会继续向后执行，如案例中，等待百度的搜索结果。需
要注意的是，如果超过设定的最大显式等待时间阈值，这测试程序会抛出异常。Selenium预设了一
些，可以直接调用ExpectedConditions下的。如果没有，可以自己实现接口。以下是两种演示：
//等待10s，出现id为kw元素出现后才继续执行
new WebDriverWait(driver, 10).until(ExpectedConditions.presenceOfElementLocated(By.id("kw")));
   //等待验证码，当验证码拥有某些值时候才可以继续
   try {
         new WebDriverWait(driver, 500).until(new ExpectedCondition<Boolean>(){
               public Boolean apply(WebDriver d){
                     return d.findElement(By.id("yzm_img"))
                                       .getAttribute("src")
                                       .contains("base64");
                     }
               });
} catch (Exception e) {
}隐式等待
隐式等待方式（implicitlyWait）脚本在查找元素时的最大等待时间：
// 其中second为等待的秒数
driver.manage().timeouts().implicitlyWait(second, TimeUnit.SECONDS);
1
2
4、iframe切换

定位元素最好的方法就是id，如果id确定，元素很容易找到。之前开发中就遇到过一个很复杂的
页面，点击提交表单后弹出一个iframe，显示报表信息。由于元素拥有id，所以想着很容易找到报表
中数据。用IE一直没问题，可是生产部署时要调整至Chrome浏览器，就是找不到，Always IN ERRO
R！最后查到的原因就是iframe，所以需要注意的，不同浏览器可能会出现iframe问题。

//swith to dialog frame that named "dialog-body"
driver.switchTo().frame("dialog-body");
// 回到主窗口
driver.switchTo().defaultContent();

5、浏览器操作
// 最大化
driver.manage().window().maximize();
//跳转至Page
driver.navigate().to("Page");
// 刷新
driver.navigate().refresh();
// 浏览器退出...这里需要留意quit和close的区别，一般默认quit
driver.quit();当然，这些只是一些比较基本的操作，推荐一个比较完整的博客，可以去看看，我就不再造轮子了
：操作手册

以上就是Selenium抓取的基本内容，利用Selenium做Webservice接口，将验证码抓给用户填写并
完成整个操作，将会在Selenium实现交互式WebService中和大家介绍，谢谢

梦想家 发表于 2018-3-14 14:01:25

:victory:

梦想家 发表于 2018-5-14 16:07:41

:victory:

页: [1]

51Testing软件测试论坛 's Archiver

Selenium 网页爬虫开发基础（Java）