51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1430|回复: 0
打印 上一主题 下一主题

centos7 pyspider环境安装

[复制链接]
  • TA的每日心情
    擦汗
    3 天前
  • 签到天数: 527 天

    连续签到: 4 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2018-12-4 16:28:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。
    网上的参考文档:
    • http://www.jianshu.com/p/8eb248697475
    • http://cuiqingcai.com/2652.html
    • https://yq.aliyun.com/articles/75518


    1.搭建环境:
        python版本:3.6.3
        系统环境:centos7.3

    1.1.搭建python3环境:
    # 下载依赖
    1. <p>yum install -y ncurses-devel openssl openssl-devel zlib-devel gcc make glibc-devel libffi-devel glibc-static glibc-utils sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libcurl-devel</p>
    复制代码
    # 下载python
    1. wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz
    复制代码
    #解压
    1. tar -xf Python-3.6.3.tgz
    复制代码
    #编译安装
    1. ./configure --prefix=/usr/local/python3.6 --enable-shared
    复制代码
    1. make && make install
    复制代码
    # 建立软链接
    1. <p>ln -s /usr/local/python3.6/bin/python3 /usr/bin/python3</p><p>
    2. </p><p>echo "/usr/local/python3.6/lib" > /etc/ld.so.conf.d/python3.5.conf</p><p>
    3. </p><p>ldconfig</p>
    复制代码
    # 验证python3
    1. <p>[root@ceph-host-01 local]# python3</p><p>
    2. </p><p>Python 3.6.3 (default, Oct  9 2017, 04:01:24) </p><p>
    3. </p><p>[GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux</p><p>
    4. </p><p>Type "help", "copyright", "credits" or "license" for more information.</p><p>
    5. </p><p>>>> </p><p>
    6. </p><p>
    7. </p><p>
    8. </p><p>#pip</p><p>
    9. </p><p>/usr/local/python3.6/bin/pip3 install --upgrade pip</p><p>
    10. </p><p>ln -s /usr/local/python3.6/bin/pip /usr/bin/pip</p><p>
    11. </p><p>
    12. </p>
    复制代码
    1.2.安装pyspider
    1. pip install pyspider
    复制代码
    启动python中的pycurl模块出现如下问题
    1. ImportError: pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)
    复制代码

    解决方法:
    1. <p>pip uninstall pycurl</p><p>export PYCURL_SSL_LIBRARY=nss</p><p>pip install pycurl</p>
    复制代码

    1.3.安装phantomjs
    官网下载:http://phantomjs.org/download.html
    1. wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
    复制代码
    解压:
    1. <p>yum -y install unbzip2</p><p>
    2. </p><p>bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 </p><p>
    3. </p><p>tar -xf phantomjs-2.1.1-linux-x86_64.tar</p><p>
    4. </p><p>mv phantomjs-2.1.1-linux-x86_64 phantomjs</p><p>
    5. </p><p>ln -sv /usr/local/phantomjs/bin/phantomjs /usr/bin/phantomjs</p>
    复制代码
    1.4.启动pyspider
    由于放在公网,编辑了一个配置文件config.json ,用于登录认证
    1. <p>[root@ceph-host-01 local]# vim config.json </p><p>
    2. </p><p>
    3. </p><p>
    4. </p><p>{</p><p>
    5. </p><p>    "webui": {</p><p>
    6. </p><p>        "port": "5000",</p><p>
    7. </p><p>        "username": "abc",</p><p>
    8. </p><p>        "password": "123456",</p><p>
    9. </p><p>        "need-auth": true</p><p>
    10. </p><p>    }</p><p>
    11. </p><p>}</p><p>
    12. </p><p>开启进程</p><p>
    13. </p><p>nohup pyspider --config config.json &</p>
    复制代码


    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-18 06:40 , Processed in 0.064090 second(s), 24 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表