授人下载爬取寻找不如

授人以鱼不如授人以渔下载君V1.0,能自动寻找并爬取漂亮...

网络资讯 2023-01-19 22:37:22 19

导读

下载君会自动发现给定目标网址所在的网站的页面,不会跑到站外去的。……

下载君V1.0,能自动寻找并爬取漂亮小姐姐图片的下载利器,搬运贴不知道违规不违规

一、前言

几天前,在编程语言区看到不少有关小姐姐的爬虫贴,但是跟帖中有不少针对于环境安装问题、规则问题等不少不便于使用的地方,由此诞生一个想法:开发一个相对较为通用的图片下载器——下载君。

至于为啥叫下载君,那是因为直到编译前的最后一刻这个工具依然没有名字(其实也有啦,叫做自动找XXX,但后来才发现这好像歧义了!undefinedundefined)。看到论坛热门中“扫描君V4.10”帖子,于是,下载君这个名字就这么愉快的诞生了。

二、工具介绍

下载君说:我的宗旨是你只要提供一个网址,剩下的交给我!!

下载君能下美女图片、壁纸图片、头像图片等等,只要是图的,尽量争取都能下载,是一款有一定通用性的图片下载利器。

下载君会自动发现给定目标网址所在的网站的页面,不会跑到站外去的。

------------------【2022-04-28】版本V1.0------------------

更新日志:

1、支持定义蜘蛛访问深度。

2、支持定义图片线程。

3、支持图片尺寸过滤。

三、下载君使用教程

访问深度:不要设置太竿娆因为这东西是超级指数型增长的,比如设置3,就能发现几千新页面(网站不同,这个也不同)。

图片线程:也不要太竿娆够用就行,高了一方面对网站不友好,另一方面则有可能因为访问频次太高而被Ban掉,得不偿失。要以时间换空间。

工具只需要正确配置网页元素的xpath就可以愉快的运行了,所以重点还是介绍一下如何正确使用xpath。我们拿一个网页举例(可不能拿漂亮小姐姐举例):

http://www.duoziwang.com/head/haokan/974756.html

使用chrome浏览器打开网页,可以看到我们想要的文章内部图片一共15张,其他图片不是我们要的。

在目标图片上右键,选择【检查】,打开网页元素页面:

在元素上,右键>copy>copy xpath,如下图:

我们将得到这么一条xpath:

//*[@id="syno-nsc-ext-gen3"]/div[3]/div[3]/div[1]/div[1]/ul/li[7]/img

可以看到他是按照html的网页结构一层一层定位到这张img的元素上的,而我们需要所有元素怎么办呢?

我们往上一级查看,图片在

  • 中,
  • 中,而

      中有2个

      ,图片所在的

      是第一个。

      因此,改造一下xpath:

      //*[@class="pics"]/*/img

      意为寻找class属性为pics的元素其内部的img元素。至于前后的*表示任意层级。

      找到元素后,我们需要获知的是其src属性值(图片地址),于是图片的xpath就变成了:

      //*[@class="pics"]/*/img/@src

      我们测试一下,成功发现15张图片,如下图:

      至于标题,可以默认不变,会找网页整个的标题,此时配合【标题过滤】可以剔除一部分通用的文字,但如果想要更加精确,就需要准确找到其大标题了

      如上图,标题所处的元素是

      内,其在

      下,而这个div内部有2个p,我们选第一个。而我们要的是

      内的文字,因此要加text()方法,最终如下:

      //*[@class="hd"]/p[1]/text()

      测试:

      到这里,就可以直接点【开始】了。

      四、致谢

      感谢《扫描君V4.10,文字识别,文件扫描,老照片修复,word转jpg,关键是老照片修复。》提供的名字灵感。

      感谢《 爬取漂亮小姐姐(有点反爬机制)》楼主提供的网址及反馈回帖中的问题反馈。

      最后,感谢自己作为男人喜欢漂亮小姐姐这样的原生动力。

      五、下载地址

      好孩子看不见

      https://wwb.lanzouh.com/iDcH503y1qwh

      密码:aomx