51Testing软件测试论坛

标题: Python 爬虫的工具列表 [打印本页]

作者: 测试积点老人    时间: 2019-1-14 14:15
标题: Python 爬虫的工具列表

这个列表包含与网页抓取和数据处理的Python库


网络

通用



异步



网络爬虫框架

功能齐全的爬虫


其他



HTML/XML解析器

通用


清理


文本处理

用于解析和操作简单文本的库。

通用

转换
字符编码
Slug化

通用解析器

人的名字
电话号码
用户代理字符串

特定格式文件处理
解析和处理特定文本格式的库。

通用

Office
PDF
Markdown
YAML
CSS
ATOM/RSS
SQL
HTTP
微格式
可移植的执行体
PSD

自然语言处理
处理人类语言问题的库

浏览器自动化与仿真

多重处理


异步
异步网络编程库

队列
云计算

电子邮件
电子邮件解析库

网址和网络地址操作
解析/修改网址和网络地址库。

网络地址
netaddr – 用于显示和操纵网络地址的Python库。

网页内容提取
提取网页内容的库。
HTML页面的文本和元数据


视频

维基





作者: Miss_love    时间: 2021-1-5 13:38
支持分享




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2