Web Scraper和使用NodeJs的网络抓取工具

最后编辑于 2019年03月05日 开发

网络抓取,英文是Web scraping,就是从网站提取数据,一般都是使用机器人或网络爬虫进行自动化抓取。抓到的数据通常存储于数据库、CSV表格或电子表格Excel中,再做检索、分析、处理。

网络爬虫又叫做Web Crawler或Web Scraper。最常用的是谷歌Chrome的Web Scraper扩展插件,无需写代码就可以通过Chrome浏览器抓取网页上的文字、链接、图片、表格等各种内容。

Web Scraper扩展插件的开发者是Martins Balodis(Mārtiņš Balodis),来自拉脱维亚的里加(Riga, Latvia)。
https://www.webscraper.io/

下面几个都使用了NodeJs进行网络抓取。

Puppeteer,木偶操纵者的意思,是谷歌Chrome团队开发的一个NodeJs库,提供了一些API,可以通过DevTools协议控制无界面版本的Chrome或Chromium,当然也可以使用完整的Chrome或Chromium。Puppeteer在自动化方面做得不错,很多活都可以自动完成。
https://developers.google.com/web/tools/puppeteer

Request-Promise,来自npm的请求库的变体, 是一个具有Promise支持的、简化了的HTTP请求客户端的Request。
https://www.npmjs.com/package/request-promise

Cheerio,是一个有点像jQuery的库,可以遍历和操作文档,构建在CSSSelect库之上。
https://cheerio.js.org/

NightmareJs,是一个高级浏览器自动化库,每个方法都是一个简单的英文命令:goto,refresh,click,type。
http://www.nightmarejs.org/

登录注册后才能评论。