推广 热搜： 金中国服务公司企业未来行业设备政策基金

爬虫篇｜爬取百度图片（一）

日期：2024-12-06 作者：caijiyuan caijiyuan 评论：0 移动：http://lanlanwork.gawce.com/mobile/news/11887.html

核心提示：什么是爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地

什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。（来源：百度百科）

爬虫篇｜爬取百度图片（一）

爬虫协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。（来源：百度百科）

爬虫百度图片

目标：爬取百度的图片，并保存电脑中

首先数据是否公开？能不能下载？

从图中可以看出，百度的图片是完全可以下载，说明了图片可以爬取

首先，明白图片是什么？

有形式的事物，我们看到的，是图画、照片、拓片等的统称。图是技术制图中的基础术语，指用点、线、符号、文字和数字等描绘事物几何特征、形态、位置及大小的一种形式。随着数字采集技术和信号处理理论的发展，越来越多的图片以数字形式存储。

然后需要图片在哪里？

图片是在云服务器的数据库中的保存起来的

每张图片都有对应的url，通过requests模块来发起请求，在用文件的wb+方式来保存起来

但是有谁为了爬一张图片去写代码，还不如直接去下载。爬虫是目的就是为了达到批量下载的目的，这才是真正的爬虫

首先了解json

JSON(Javascript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAscript (欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。

json 就是js 的对象，就是来存取数据的东西

JSON字符串

Python字典

但是在python中不可以直接通过键值对来取得值，所以不得不谈谈python中的字典

导入python 中json，通过json.loads(s) -->将json数据转换为python的数据（字典）

Ajax 即“Asynchronous Javascript And XML”（异步 Javascript 和 XML），是指一种创建交互式网页应用的网页开发技术。

图片是通过ajax 方法来加载的，也就是当我下拉，图片会自动加载，是因为网站自动发起了请求，

构造ajax的url请求，来将json转化为字典，在通过字典的键值对来取值，得到图片对应的url

在一个json 的有30张图片，所以发起一个json的请求，我们可以爬去30张图片，但是还是不够。

首先分析不同的json中发起的请求

其实可以发现，当再次发起请求时，关键就是那个 pn在不断的变动

最后封装代码，一个列表来定义生产者来存储不断的生成图片url，另一个列表来定义消费者来保存图片

爬取过程

爬取结果

文章首发于：

https://blog.csdn.net/weixin_44510615/article/details/93088867

本文地址：http://lanlanwork.gawce.com/news/11887.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 女星金子涵微博全部清空，疑似退圈	• 北京市连续第二年出台支持创新医药发展的专项政
• 延长手机电池寿命，手机电量剩多少时充电效果才	• miui秒解bl锁_小米最新秒解锁BL分析申请解锁小
• 9800x3D千元座驾，微星MAG B850M MORTAR W	• 手机快充充电时手机发热是怎么回事手机充电发热
• 手机辐射污染奔迈手机「手机辐射污染」	• 斗破苍穹：大美女花锦最后怎么样了？是死了还是
• 索尼手机频频削减机型 5G款被指落后主流厂商2年	• LCD党狂喜，史上最小5G手机来了：“小而美”的

爬虫篇｜ 爬取百度图片（一）

什么是爬虫

爬虫协议

爬虫百度图片

JSON字符串

Python字典

导入python 中json，通过json.loads(s) -->将json数据转换为python的数据（字典）

爬虫篇｜爬取百度图片（一）