抓取网页内容的一般流程
- 发HTTP请求
- 解析请求返回的结果
- 得到的结果持久化
常用的抓取网页内容的方法和工具
命令行
- cURL
PHP:
Python
NodeJS
- curl-request
- 爬虫开发框架:node-crawler
可能遇到的问题和困难
- 登录:保存Cookie, 认证
- 被屏蔽
- 验证码
- 执行JS
- 其他
另外一种思路
利用界面自动化测试工具进行抓取,简单点讲就是:程序唤起浏览器后模拟用户行为进行操作
适用场景:
- 登录验证比较麻烦、或者验证码无法破解
- 目标地址有强大的反爬机制
- 一次性操作
目前的一些方案
Selenium
Puppeteer
PhantomJS (项目已暂停)
更临时的一种方法
适用场景:临时性的一次性抓取