python 爬虫初步学习
python 爬虫学习
前言
爬虫是自动化抓取网页数据的一种技术
爬虫的实现原理是:
- 模拟浏览器,向目标网站发送请求
- 获取网页数据,对数据进行解析,保存
爬虫的分类:
- 通用爬虫
- 聚焦爬虫
学习爬虫不要心急,慢慢来收获会很多。
一、Robots协议是什么?
Robot协议是国际互联网通行的道德规范,告诉人们那些可以爬,那些不可以爬,但是没有写入法律。
二、爬虫的使用步骤
1.获取网页
基础技术:request,urllib,selenium。
进阶技术:多进程多线程抓取,登录抓取,突破IP封禁,服务器抓取。
2.解析数据
基础技术:re正则表达式,BeautifulSoup,lxml。
进阶技术:解决中文乱码。
3.存储数据
基础技术:存入txt文件,存入csv文件,存入json文件。
进阶技术:存入SQL数据库。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 微光zc的网络小窝!
评论