python 爬虫初步学习

发表于2023-04-17|更新于2025-07-27|Python

|总字数:243|阅读时长:1分钟|浏览量:

python 爬虫学习

前言

爬虫是自动化抓取网页数据的一种技术
爬虫的实现原理是：

模拟浏览器，向目标网站发送请求
获取网页数据，对数据进行解析，保存

爬虫的分类：

通用爬虫
聚焦爬虫

学习爬虫不要心急，慢慢来收获会很多。

一、Robots协议是什么？

Robot协议是国际互联网通行的道德规范，告诉人们那些可以爬，那些不可以爬，但是没有写入法律。

二、爬虫的使用步骤

1.获取网页
基础技术：request，urllib，selenium。
进阶技术：多进程多线程抓取，登录抓取，突破IP封禁，服务器抓取。

2.解析数据
基础技术：re正则表达式，BeautifulSoup，lxml。
进阶技术：解决中文乱码。

3.存储数据
基础技术：存入txt文件，存入csv文件，存入json文件。
进阶技术：存入SQL数据库。

文章作者: 微光zc

文章链接: https://wzcwzc10.github.io/2023/04/17/python%20%E7%88%AC%E8%99%AB%E5%88%9D%E6%AD%A5%E5%AD%A6%E4%B9%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源微光zc的网络小窝！

python 爬虫代码学习

来一杯燃油饮

微信
支付宝

相关推荐

python 学习第一天

python 学习第一天

python 学习第九天

python 学习第九天

python 学习第三天

python 学习第三天

评论

数据加载中