【干货】使用python和Selenium爬取新浪微博信息（上篇）

阿蛮的开心姐 发表于 2018-10-23 11:32:35

本帖最后由阿蛮的开心姐于 2018-10-24 15:08 编辑

相关作品链接：点击链接
新浪微博现在是各个行业语料库中一个很重要的获取点，这篇文章就给大家介绍一种使用Python和Selenium爬取自定义的新浪微博语料。这种方式使用方法简单，但是速度比较慢，希望可以对你有所帮助。

（1）Login Weibo 登陆微博登陆微博是因为，新浪微博很多数据如果没有登录是不能获取或者访问的，当点击下一页、个人详细信息等的超链接就会跳转到登录界面，这也是开发者对平台的保护措施。但是同时，每个公司都会提供API接口让开发者进行操作，但是本次我们操作是使用selenium模拟浏览器进行爬取的。函数login weibo(username, password) 实现，随后就会自动打开浏览器并且输入用户名和密码，同时在登录的过程中会涉及到验证码，所以建议大家暂停十五秒到二十秒，手动输入验证码后等时间到了就会自动点击登录。这一步的核心代码如下：driver.get("http://login.weibo.cn/login/")elem_user = driver.find_element_by_name("mobile")elem_user.send_keys(username) #用户名elem_pwd = driver.find_element_by_xpath("/html/body/div/form/div/input")elem_pwd.send_keys(password) #密码elem_sub = driver.find_element_by_name("submit")elem_sub.click() #点击登陆
登陆过程中也可称出现报错：WebDriverException: Message: "Can't load the profile. Profile Dir:这个可能是使用的Selenium、Python、Firefox版本不一致导致的。
登录成功后会保存Cookies或Session信息，这时候就可以跳转访问了，否则就会出现重新跳转会登录界面。这里使用Selenium的driver.get(url)实现跳转。完整源码。
（2）VisitPersonPage(user_id) 访问跟人网站，获取个人信息很多网站设计都是 URL+用户名ID的访问链接，比如新浪微博中柳岩的链接：http://weibo.cn/guangxianliuyan所以我们定义一个TXT文件列表包含所有用户的ID信息，然后依次通过读取文件来爬取信息，核心代码： user_id = inforead.readline()while user_id!="": user_id = user_id.rstrip('\r\n') VisitPersonPage(user_id) #访问个人页面user_id = inforead.readline()
这样其中的用户ID列表就会在我们定义的SinaWeibo_List.txt 中了，效果如图：我们可以通过分析HTML源码，获取节点位置，然后通过Selenium函数定义位置获取信息，最后再通过正则表达式或字符串处理获取我们想要的值。如获取昵称：str_name = driver.find_element_by_xpath("//div[@class='ut']")#空格分隔获取第一个值 "Eastmount 详细资料设置新手区"str_t = str_name.text.split(" ")num_name = str_t print u'昵称: ' + num_name 再如括号之间数字内容：#微博关注粉丝分组 @他的 str_gz = driver.find_element_by_xpath("//div[@class='tip2']/a")guid = re.findall(pattern, str_gz.text, re.M)num_gz = int(guid)print u'关注数: ' + str(num_gz)

阿蛮的开心姐 发表于 2018-10-23 11:34:42

本帖最后由阿蛮的开心姐于 2018-10-23 11:39 编辑

之后我们点击"关注"就可以获取关注列表，这里我们是需要爬取明星的资料，所以选择关注表而不是粉丝表，粉丝表信息太多不利于我们构建的关系网，而关注表就不一样了，关注表中覆盖的明星信息更多。

（3）获取微博内容，同时http://weibo.cn/guangxianliuyan?filter=0&page=1实现翻页
我们通过对 URL 链接的分析，可以发现 Page=n 就代表访问第n页的微博，从而实现微博的翻页跳转。
Filter=1 时表示原创，这样我们可以分析它对应的开头的几种类型。
我们可以通过下边的函数来获取内容：
info = driver.find_elements_by_xpath("//div[@class='c']")
我们可以设置，如果发布的微博以"转发了..."为开头的是转发微博，反之则是原创微博。代码：
info.startswith(u'转发')
我们也可以爬取微博的点转发数、点赞数等等，代码：
str1 = info.split(u" 赞")[-1]
if str1:
val1 = re.match(, str1).groups()
print u'点赞数: ' + val1
infofile.write(u'点赞数: ' + str(val1) + '\r\n')

http://bbs.51testing.com/data/attachment/forum/201810/23/112931np2crrecljqemmcr.jpeg
这样我们就可以获取了我们想要的数据，希望这篇文章可以对你有所帮助！

阿蛮的开心姐 发表于 2018-10-24 16:45:56

有没有喜欢爬虫的，可以一起研究研究

页: [1]

51Testing软件测试论坛 's Archiver

【干货】使用python和Selenium爬取新浪微博信息（上篇）