Python + Selenium 爬取网易云课堂课时标题及时长 - 51Testing软件测试论坛

from selenium.webdriver import Firefox
　　from selenium.webdriver.firefox.options import Options
　　from lxml import etree
　　import csv
　　from helper import Chapter, Lesson
　　# 请求数据
　　url = 'https://study.163.com/course/introduction.htm?courseId=1006078212#/courseDetail?tab=1'
　　options = Options()
　　options.add_argument('-headless') # 无头参数
　　driver = Firefox(
　　 executable_path='../drivers/geckodriver',
　　 firefox_options=options)
　　driver.get(url)
　　text = driver.page_source
　　driver.quit()
　　# 解析数据
　　html = etree.HTML(text)
　　chapters = html.xpath('//div[@class="chapter"]')
　　TABLEHEAD = ['章节号', '章节名', '课时号', '课时名', '课时长']
　　rows = []
　　for each in chapters:
　　 chapter = Chapter(each)
　　 lessons = chapter.get_lessons()
　　 for each in lessons:
　　 lesson = Lesson(each)
　　 chapter_info = chapter.chapter_info
　　 lesson_info = lesson.lesson_info
　　 values = (*chapter_info, *lesson_info)
　　 row = dict(zip(TABLEHEAD, values))
　　 rows.append(row)
　　# 存储数据
　　with open('courseinfo.csv', 'w', encoding='utf-8-sig', newline='') as f:
　　 writer = csv.DictWriter(f, TABLEHEAD)
　　 writer.writeheader()
　　 writer.writerows(rows)

复制代码

复制代码