关于爬虫selenium的使用问题

测试积点老人 发表于 2022-5-6 10:17:13

这是爬虫文件，就这个一个爬虫
class FirstSpiderSpider(scrapy.Spider):
name = 'first_spider'
allowed_domains = ['movie.douban.com']
start_urls = ['https://read.douban.com/?dcm=original-nav']

def parse(self, response):
   title = response.xpath('//*[@id="react-root"]/div/div/div/div/div/div/div/div/div/div/div['
                           '2]/h4/a/span/text()').extract_first()
   print(title)
有一个下载中间件，而且启用了
class LolDownloaderMiddleware:
def process_request(self, request, spider):
   url = request.url
   # 开启selenium
   driver = webdriver.PhantomJS(executable_path=r'D:\tool\phantomjs-2.1.1-windows\bin\phantomjs.exe')
   driver.get(url)
   c = driver.find_element(By.XPATH, '//*[@id="react-root"]/div/div/div/a')
   c.click()
   time.sleep(1)
   data = driver.page_source# 获取页面源代码
   driver.close()# 关闭selenium
   return HtmlResponse(url=url, body=data, encoding='utf-8', request=request)我的问题就是它的执行流程，爬虫启动一开始，注意我说的最开始，start_urls里面的这个唯一地址，是先经过下载中间件，再到下载器，然后再返回给爬虫处理？

bellas 发表于 2022-5-7 10:35:34

等大神

kallinr 发表于 2022-5-7 11:32:12

中间

qqq911 发表于 2022-5-7 12:25:20

可以的

jingzizx 发表于 2022-5-7 20:43:26

先启动吧

页: [1]

51Testing软件测试论坛 's Archiver

关于爬虫selenium的使用问题