问一个关于爬虫的问题。
要想爬虫月工资八千到一万,需要掌握哪些东西,有没有da lao们给点建议,指个方向。能使用Tesseract,百度AI, HOG+SVM,CNN等库进行验证码识别;
能使用数据挖掘的技术,分类算法等避免死链等;
会使用常用的数据库进行数据存储,查询,如Mongodb,Redis(大数据量的缓存)等;下载缓存,学习如何通过缓存避免重复下载的问题;Bloom Filter的使用;
能使用机器学习的技术动态调整爬虫的爬取策略,从而避免被禁IP封号等;
能使用一些开源框架Scrapy, Scarpy-Redis,Celery等分布式爬虫,能部署掌控分布式爬虫进行大规模的数据抓取。 能使用Tesseract,百度AI, HOG+SVM,CNN等库进行验证码识别;
能使用数据挖掘的技术,分类算法等避免死链等;
会使用常用的数据库进行数据存储,查询,如Mongodb,Redis(大数据量的缓存)等;下载缓存,学习如何通过缓存避免重复下载的问题;Bloom Filter的使用;
能使用机器学习的技术动态调整爬虫的爬取策略,从而避免被禁IP封号等;
能使用一些开源框架Scrapy, Scarpy-Redis,Celery等分布式爬虫,能部署掌控分布式爬虫进行大规模的数据抓取 参考下一楼给的建议 没有深入了解
页:
[1]