抓取网页内容(爬虫)一些方法介绍

抓取网页内容的一般流程

  1. 发HTTP请求
  2. 解析请求返回的结果
  3. 得到的结果持久化

常用的抓取网页内容的方法和工具

命令行

  • cURL

PHP:

Python

NodeJS

可能遇到的问题和困难

  • 登录:保存Cookie, 认证
  • 被屏蔽
  • 验证码
  • 执行JS
  • 其他

另外一种思路

利用界面自动化测试工具进行抓取,简单点讲就是:程序唤起浏览器后模拟用户行为进行操作

适用场景:

  • 登录验证比较麻烦、或者验证码无法破解
  • 目标地址有强大的反爬机制
  • 一次性操作

目前的一些方案

Selenium

demo

Puppeteer

demo
screenshot

PhantomJS (项目已暂停)

更临时的一种方法

适用场景:临时性的一次性抓取

Fetch API

demo