测试积点老人 发表于 2022-5-23 10:56:57

问一个关于爬虫的问题。

要想爬虫月工资八千到一万,需要掌握哪些东西,有没有da lao们给点建议,指个方向。

郭小贱 发表于 2022-5-24 09:47:52

能使用Tesseract,百度AI, HOG+SVM,CNN等库进行验证码识别;
能使用数据挖掘的技术,分类算法等避免死链等;
会使用常用的数据库进行数据存储,查询,如Mongodb,Redis(大数据量的缓存)等;下载缓存,学习如何通过缓存避免重复下载的问题;Bloom Filter的使用;
能使用机器学习的技术动态调整爬虫的爬取策略,从而避免被禁IP封号等;
能使用一些开源框架Scrapy, Scarpy-Redis,Celery等分布式爬虫,能部署掌控分布式爬虫进行大规模的数据抓取。

qqq911 发表于 2022-5-24 10:18:34

能使用Tesseract,百度AI, HOG+SVM,CNN等库进行验证码识别;
能使用数据挖掘的技术,分类算法等避免死链等;
会使用常用的数据库进行数据存储,查询,如Mongodb,Redis(大数据量的缓存)等;下载缓存,学习如何通过缓存避免重复下载的问题;Bloom Filter的使用;
能使用机器学习的技术动态调整爬虫的爬取策略,从而避免被禁IP封号等;
能使用一些开源框架Scrapy, Scarpy-Redis,Celery等分布式爬虫,能部署掌控分布式爬虫进行大规模的数据抓取

bellas 发表于 2022-5-24 10:22:31

参考下一楼给的建议

jingzizx 发表于 2022-5-24 16:39:06

没有深入了解
页: [1]
查看完整版本: 问一个关于爬虫的问题。