[nodejs实战:校花网学妹图片采集+站点发布]六、批量下载校花图片:管道流保存图片
蒙奇·D·撸码客 发布于 2017-02-21 10:26:44
当我们把所有校花信息采集完之后,打开对应的html文件,发现都可以看。但是里面的图片都是远程图片,如果咱采集的这个校花网倒闭了(呸呸呸乌鸦嘴),那么这些图片也就都打不开了。最保险的措施就是把这些图片也都批量下载下来。批量下载图片的思路也不难,遍历之前采集的html文件,取出里面的...
蒙奇·D·撸码客 发布于 2017-02-21 10:26:44
当我们把所有校花信息采集完之后,打开对应的html文件,发现都可以看。但是里面的图片都是远程图片,如果咱采集的这个校花网倒闭了(呸呸呸乌鸦嘴),那么这些图片也就都打不开了。最保险的措施就是把这些图片也都批量下载下来。批量下载图片的思路也不难,遍历之前采集的html文件,取出里面的...
蒙奇·D·撸码客 发布于 2017-02-06 14:29:07
上一篇的批量采集其实只是一个开头,是为了批量采集而搜集大量的url,而本篇文章才是真正的批量采集。上一篇已经把校花网搜索校花的页面url存入了urlList.txt文件中,在批量采集前需要先读取这个文件:fs.readFile('urlList.txt',&nbs...
蒙奇·D·撸码客 发布于 2017-02-06 10:22:02
前三篇文章基本完整的讲述了怎么去采集一个页面,但是一个页面的妹子不够看咋办啊,我都想要采集下来慢慢看啊!这很简单啊,采集一个页面只要输入当前页面的url就可以,采集多个页面只要输入多个url不就得了。当然肯定不能逐个手动输入,但是我们可以把这些url存入数组中,然后遍历数组不就可...
蒙奇·D·撸码客 发布于 2017-02-06 10:14:16
打开上一篇下载的xiaohua.html文件发现,我们把所有代码原封不动的都下载下来了,甚至连校花网的广告都没放过,但是图片因为校花网用的是相对路径而不能正常显示的情况。而我们需要的仅仅是学妹的资料跟图片就可以了。那我们怎么从这些代码中筛选这些内容呢?我第一时间想到的是利用正则,...
蒙奇·D·撸码客 发布于 2017-02-05 13:58:44
上一篇nodejs实战:校花网美女图片采集+站点发布[http.request采集内容]中,我们已经通过http.request获取到校花网http://www.xiaohuar.com/news-1-1722.html页面的内容,那怎么把获取到的内容保存下来呢?这就需要Node...
蒙奇·D·撸码客 发布于 2017-01-06 10:44:47
我们需要采集校花网的哪些数据呢?最重要的当然是校花妹子们的靓照啊!如果能看到照片又能了解学妹们的名字、生日、就读学校等信息就更完美了!那该怎么获取这些信息呢?下面以网页:http://www.xiaohuar.com/news-1-1722.html为例。先说说采集数据的流程,首...
蒙奇·D·撸码客 发布于 2017-01-05 18:10:14
声明:本系列文章是青岛知了互动前端部的内部培训资料,未经本人允许不得已任何形式转载!读本教程之前最好有一定的nodejs基础,不需要多高深,比如知道怎么使用npm安装模块,怎么用node命令运行写好的代码就行。本教程更偏实战,理论方面的叙述会有问题,我尽量保持严谨。-------...