51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 3415|回复: 6
打印 上一主题 下一主题

[转贴] 如何优雅地找工作

[复制链接]
  • TA的每日心情

    1720761397
  • 签到天数: 1 天

    连续签到: 1 天

    跳转到指定楼层
    1#
    发表于 2017-6-28 15:34:13 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
    嗯,标题党了。此文所讲的找工作,不是一般通过浏览招聘网站找工作。此文所讲的找工作,是通过爬虫以及数据分析,自动精确匹配工作机会。如果还是传统的浏览招聘网页,确实有点不够优雅。如果你观望工作,可以做成推送,这样就不会与你理想的工作失之交臂,而且悄无声息。
    本文以拉勾网为例,爬取一线城市软件测试工作机会的数据。

    通过chrome浏览器工具,我们可以发现,拉勾网页的数据,可以通过json获取到。


    发个请求就可以获取,都不需要用爬虫框架。

    1. import requests
    2. import numpy as np
    3. import pandas as pd
    4. import matplotlib.pyplot as plt

    5. url = 'http://www.lagou.com/jobs/positionAjax.json?city={}&yx={}&needAddtionalResult=false'
    6. cities = ['北京', '上海', '广州', '深圳']
    7. salaries = ['2k-5k', '5k-10k', '10k-15k', '15k-25k', '25k-50k']

    8. def get_page(url, page_num, keyword):      
    9.     if page_num == 1:
    10.         boo = 'true'
    11.     else:
    12.         boo = 'false'

    13.     page_data = {
    14.         'first': boo,
    15.         'pn': page_num,
    16.         'kd': keyword
    17.     }
    18.     page = requests.post(url,page_data)
    19.     return page.json()
    复制代码

    执行起来就是这样的:


    于是得到了一现城市软件测试岗分布的Dataframe.
    统计行,用图例展现出来,就得到了总数分布图,如下:

    从图中可以看出:
    帝都机会最多,遥遥领先。
    广州最弱,差不多是深圳的一半。
    上海深圳相差不大。

    把这个Dataframe用图表展现出来,就得到了薪水分布图。

    此图可以看出:
    帝都对中高端测试人员需求较多,分布均匀。
    其他城市对5-10K的人员需求较多,薪水越越往上,职位数量呈剧烈直线下降趋势。

    由此可以看出,就软件测试行业来看:帝都工作岗位,无论是数量上,还是质量上,都完胜其它城市。

    我们都希望自己的工作,钱多,事少,离家近。
    事情多少不太好说。但是其他两项,可以统计分析。

    我们对上海,15-25K这个区间段为例进行具体分析:
    取一些自己感兴趣的tag来爬取数据。

    1. number = count_frame.loc[cities[1], salaries[3]]
    2. page_number = int(number / 15)
    3. tags = ['companyFullName', 'companyLabelList', 'companySize', 'district', 'financeStage', 'industryField',
    4.                  'positionAdvantage', 'positionLables', 'positionName', 'workYear']

    5. for page_index in range(1, page_number):
    6.     page = get_page(url.format(cities[1], salaries[3]), page_index, keyword)
    7.     page_result = page['content']['positionResult']['result']
    8.     jobs = (page_result[index][tag] for index in range(0, 15) for tag in tags)
    9.     job_list = list(jobs)
    复制代码

    爬出来的数据,保存到excel中,得到一个如下的图表。

    首先对公司福利进行统计,为了直观,做了个图。

    多数公司强调提供发展平台,空间。
    也用弹性,氛围来吸引人才。

    读取这个excel, 通过dataframe 来filter关键字,就能精确匹配到你期望的工作。

    当然,打铁还需自身硬。 期望的工作定位到了,你还得有匹配工作的实力。

    加上定时功能,每天就可以定时给你推送了。

    注意,现在的网站反爬能力也越来越强。可能一不小心就会是这样。

    具体如何应对,下回再说。

    此方法可以适用其它工作岗位。

    最后套用葛大爷的一句话:“我们吃着火锅,唱着歌。”就把工作给定位到了,美哉妙哉。

    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2024-7-12 13:16
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]测试小兵

    5#
    发表于 2017-6-28 16:45:21 | 只看该作者
    可以尝试分析他们app的包。
    不是大司,经常对app的请求根本不设防
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2024-9-19 09:07
  • 签到天数: 11 天

    连续签到: 2 天

    [LV.3]测试连长

    4#
    发表于 2017-6-28 16:44:54 | 只看该作者
    到头来还是要弄ip池啊。。。。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    3#
    发表于 2017-6-28 16:44:28 | 只看该作者
    有技术、有想法的懒人,就会搞出一些高大上的偷懒方法,赞
    回复 支持 反对

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-24 08:29 , Processed in 0.070849 second(s), 24 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表