授人以鱼不如授人以渔下载君V1.0,能自动寻找并爬取漂亮...
导读
下载君V1.0,能自动寻找并爬取漂亮小姐姐图片的下载利器,搬运贴不知道违规不违规
一、前言
几天前,在编程语言区看到不少有关小姐姐的爬虫贴,但是跟帖中有不少针对于环境安装问题、规则问题等不少不便于使用的地方,由此诞生一个想法:开发一个相对较为通用的图片下载器——下载君。
至于为啥叫下载君,那是因为直到编译前的最后一刻这个工具依然没有名字(其实也有啦,叫做自动找XXX,但后来才发现这好像歧义了!undefinedundefined)。看到论坛热门中“扫描君V4.10”帖子,于是,下载君这个名字就这么愉快的诞生了。
二、工具介绍
下载君说:我的宗旨是你只要提供一个网址,剩下的交给我!!
下载君能下美女图片、壁纸图片、头像图片等等,只要是图的,尽量争取都能下载,是一款有一定通用性的图片下载利器。
下载君会自动发现给定目标网址所在的网站的页面,不会跑到站外去的。
------------------【2022-04-28】版本V1.0------------------
更新日志:
1、支持定义蜘蛛访问深度。
2、支持定义图片线程。
3、支持图片尺寸过滤。
三、下载君使用教程
访问深度:不要设置太竿娆因为这东西是超级指数型增长的,比如设置3,就能发现几千新页面(网站不同,这个也不同)。
图片线程:也不要太竿娆够用就行,高了一方面对网站不友好,另一方面则有可能因为访问频次太高而被Ban掉,得不偿失。要以时间换空间。
工具只需要正确配置网页元素的xpath就可以愉快的运行了,所以重点还是介绍一下如何正确使用xpath。我们拿一个网页举例(可不能拿漂亮小姐姐举例):
http://www.duoziwang.com/head/haokan/974756.html
使用chrome浏览器打开网页,可以看到我们想要的文章内部图片一共15张,其他图片不是我们要的。
在目标图片上右键,选择【检查】,打开网页元素页面:
在元素上,右键>copy>copy xpath,如下图:
我们将得到这么一条xpath:
//*[@id="syno-nsc-ext-gen3"]/div[3]/div[3]/div[1]/div[1]/ul/li[7]/img
可以看到他是按照html的网页结构一层一层定位到这张img的元素上的,而我们需要所有元素怎么办呢?
我们往上一级查看,图片在
中,而
- 中有2个
,图片所在的
是第一个。
因此,改造一下xpath:
//*[@class="pics"]/*/img
意为寻找class属性为pics的元素其内部的img元素。至于前后的*表示任意层级。
找到元素后,我们需要获知的是其src属性值(图片地址),于是图片的xpath就变成了:
//*[@class="pics"]/*/img/@src
我们测试一下,成功发现15张图片,如下图:
至于标题,可以默认不变,会找网页整个的标题,此时配合【标题过滤】可以剔除一部分通用的文字,但如果想要更加精确,就需要准确找到其大标题了
如上图,标题所处的元素是
内,其在
内的文字,因此要加text()方法,最终如下:
//*[@class="hd"]/p[1]/text()
测试:
到这里,就可以直接点【开始】了。
四、致谢
感谢《扫描君V4.10,文字识别,文件扫描,老照片修复,word转jpg,关键是老照片修复。》提供的名字灵感。
感谢《 爬取漂亮小姐姐(有点反爬机制)》楼主提供的网址及反馈回帖中的问题反馈。
最后,感谢自己作为男人喜欢漂亮小姐姐这样的原生动力。
五、下载地址
好孩子看不见
https://wwb.lanzouh.com/iDcH503y1qwh
密码:aomx