阿蛮的开心姐 发表于 2018-10-23 11:32:35

【干货】使用python和Selenium爬取新浪微博信息(上篇)

本帖最后由 阿蛮的开心姐 于 2018-10-24 15:08 编辑

相关作品链接:点击链接
新浪微博现在是各个行业语料库中一个很重要的获取点,这篇文章就给大家介绍一种使用Python和Selenium爬取自定义的新浪微博语料。这种方式使用方法简单,但是速度比较慢,希望可以对你有所帮助。

(1)Login Weibo 登陆微博登陆微博是因为,新浪微博很多数据如果没有登录是不能获取或者访问的,当点击下一页、个人详细信息等的超链接就会跳转到登录界面,这也是开发者对平台的保护措施。但是同时,每个公司都会提供API接口让开发者进行操作,但是本次我们操作是使用selenium模拟浏览器进行爬取的。函数login weibo(username, password) 实现,随后就会自动打开浏览器并且输入用户名和密码,同时在登录的过程中会涉及到验证码,所以建议大家暂停十五秒到二十秒,手动输入验证码后等时间到了就会自动点击登录。这一步的核心代码如下:driver.get("http://login.weibo.cn/login/")elem_user = driver.find_element_by_name("mobile")elem_user.send_keys(username)      #用户名elem_pwd = driver.find_element_by_xpath("/html/body/div/form/div/input")elem_pwd.send_keys(password)       #密码elem_sub = driver.find_element_by_name("submit")elem_sub.click()            #点击登陆
登陆过程中也可称出现报错:WebDriverException: Message: "Can't load the profile. Profile Dir:这个可能是使用的Selenium、Python、Firefox版本不一致导致的。
登录成功后会保存Cookies或Session信息,这时候就可以跳转访问了,否则就会出现重新跳转会登录界面。这里使用Selenium的driver.get(url)实现跳转。完整源码。
(2)VisitPersonPage(user_id) 访问跟人网站,获取个人信息很多网站设计都是 URL+用户名ID的访问链接,比如新浪微博中柳岩的链接:http://weibo.cn/guangxianliuyan所以我们定义一个TXT文件列表包含所有用户的ID信息,然后依次通过读取文件来爬取信息,核心代码: user_id = inforead.readline()while user_id!="":    user_id = user_id.rstrip('\r\n')    VisitPersonPage(user_id)         #访问个人页面user_id = inforead.readline()
这样其中的用户ID列表就会在我们定义的SinaWeibo_List.txt 中了,效果如图: 我们可以通过分析HTML源码,获取节点位置,然后通过Selenium函数定义位置获取信息,最后再通过正则表达式或字符串处理获取我们想要的值。如获取昵称:str_name = driver.find_element_by_xpath("//div[@class='ut']")#空格分隔 获取第一个值 "Eastmount 详细资料 设置 新手区"str_t = str_name.text.split(" ")num_name = str_t   print u'昵称: ' + num_name 再如括号之间数字内容:#微博 关注 粉丝 分组 @他的 str_gz = driver.find_element_by_xpath("//div[@class='tip2']/a")guid = re.findall(pattern, str_gz.text, re.M)num_gz = int(guid)print u'关注数: ' + str(num_gz)




阿蛮的开心姐 发表于 2018-10-23 11:34:42

本帖最后由 阿蛮的开心姐 于 2018-10-23 11:39 编辑



之后我们点击"关注"就可以获取关注列表,这里我们是需要爬取明星的资料,所以选择关注表而不是粉丝表,粉丝表信息太多不利于我们构建的关系网,而关注表就不一样了,关注表中覆盖的明星信息更多。

(3)获取微博内容,同时http://weibo.cn/guangxianliuyan?filter=0&page=1实现翻页
我们通过对 URL 链接的分析,可以发现 Page=n 就代表访问第n页的微博,从而实现微博的翻页跳转。
Filter=1 时表示原创,这样我们可以分析它对应的开头的几种类型。
我们可以通过下边的函数来获取内容:
info = driver.find_elements_by_xpath("//div[@class='c']")
我们可以设置,如果发布的微博以"转发了..."为开头的是转发微博,反之则是原创微博。代码:
info.startswith(u'转发')
我们也可以爬取微博的点转发数、点赞数等等,代码:
str1 = info.split(u" 赞")[-1]
if str1:
   val1 = re.match(, str1).groups()
   print u'点赞数: ' + val1
   infofile.write(u'点赞数: ' + str(val1) + '\r\n')

http://bbs.51testing.com/data/attachment/forum/201810/23/112931np2crrecljqemmcr.jpeg
这样我们就可以获取了我们想要的数据,希望这篇文章可以对你有所帮助!

阿蛮的开心姐 发表于 2018-10-24 16:45:56

有没有喜欢爬虫的,可以一起研究研究
页: [1]
查看完整版本: 【干货】使用python和Selenium爬取新浪微博信息(上篇)