会在何处见到你,莫非前尘已注定
今天凑时间研究了下requests_html模块,它是requests模块作者开发的另一款爬虫神器。此模块主要结合了xpath网页源码获取功能,以及pyppeteer网页动态渲染功能。后者方便我们获取js动态渲染的源代码,而前者方便从源代码中获取想要的内容。
模块下载安装
|
|
注意目前只支持python3.6版本
模块基础用法
|
|
其他response方法
动态渲染页面
requests-html模块提供了render()方法,用于动态渲染网页。当第一次执行render方法时,会自动下载Chromium(无头浏览器)到~/.pyppeteer/目录下,如下图所示:
使用非常简单,只需要在response中调用render方法:
实例演示
这里以http://sec.didichuxing.com/present 网站为例,可以先利用浏览器查看网页源码:
从上图中可以看到,此网页内容主要为js动态渲染而来,我们先尝试不用动态渲染的方式获取网页源码
输出:
然后加上render方法
输出:
可以看到网页上的内容被动态渲染出来了,简直方便。
异步
request_html同样支持异步,具体使用方法:
更多使用文档,请移步:https://github.com/psf/requests-html
说明:关于requests_html模块暂时没有研究太多,日后用到了再补充!!!