python 爬虫学习

前言

爬虫是自动化抓取网页数据的一种技术
爬虫的实现原理是:

  • 模拟浏览器,向目标网站发送请求
  • 获取网页数据,对数据进行解析,保存

爬虫的分类:

  • 通用爬虫
  • 聚焦爬虫

    学习爬虫不要心急,慢慢来收获会很多。

一、Robots协议是什么?

Robot协议是国际互联网通行的道德规范,告诉人们那些可以爬,那些不可以爬,但是没有写入法律。

二、爬虫的使用步骤

1.获取网页
基础技术:request,urllib,selenium。
进阶技术:多进程多线程抓取,登录抓取,突破IP封禁,服务器抓取。

2.解析数据
基础技术:re正则表达式,BeautifulSoup,lxml。
进阶技术:解决中文乱码。

3.存储数据
基础技术:存入txt文件,存入csv文件,存入json文件。
进阶技术:存入SQL数据库。