scrapy爬取某个手机app的文章数据

   日期:2024-12-21    作者:sqf1zl 移动:http://g8akg8.riyuangf.com/mobile/quote/8276.html

简单说明最近大致了解了一下scrapy框架,爬取自己做了个测试,爬取了某个app上的数据(暂时不公开是哪个,完成了数据抓取,数据去重,数据存储,由于资金和技术水平问题,没有放到服务器上,也没有采用分布式。

scrapy爬取某个手机app的文章数据

前期准备
1. 手机抓包工具采用了fidder,使用方法见http://blog.csdn.net/wuzhiguo1314/article/details/49589227
2. 安装数据采集框架scrapy、键值对数据库redis、数据存储数据库mongodb

开始项目建立
1. scrapy startproject tutorial 新建一个项目
2. 在spider文件夹下新建出ExampleSpider文件
3. 用上面的手机抓包工具fidder工具,获取我们想要的数据网址,分析出我们需要传递的数据,包括头信息,cookie,agent等等
4. 编写ExampleSpider,抽取出我们想要的数据字段,获取新的数据网址,在itmes定义好想要的数据结构,通过添加新的访问,通过返回数据给pipline
5. 定义piplines
(1)去重pipline
去重采用了redis数据库,self.r = redis.Redis(host=’localhost’,port=6379,db=0)数据库初始化,如果键值对存在与数据库中self.r.exists(‘id:%s’ % item[‘mId’]),就引发DropItem异常,不进行该item的存储。代码如下

(2) 数据存储pipline
经过筛选的item在这里进入到mongodb数据库中,有关服务器的设置在settings文件中,后面提到。mongodb数据库操作很简单,插入item的方法self.collection.insert(dict(item)),代码如下

(3)settings中设置pipline,以及数据库的配置

6 . 动态更换agent
(1)定义一个middlewares.py

(2)setting 中设置下载中间件


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号