推广 热搜: 行业  设备    系统  参数  经纪    教师  机械  中国 

BeautifulSoup库TapTap评论爬虫

   日期:2024-11-17     作者:b1255150    caijiyuan   评论:0    移动:http://qyn41e.riyuangf.com/news/1212.html
核心提示:最近在写关于评论数据主题建模和情感分析的作业,本来想用八爪鱼直接爬TapTap的评论数据,但是自动识别网页总是定位

最近在写关于评论数据主题建模和情感分析的作业,本来想用八爪鱼直接爬TapTap的评论数据,但是自动识别网页总是定位错误,还是回归BeautifulSoup和Request来进行评论内容的爬取,具体操作步骤如下

BeautifulSoup库TapTap评论爬虫

 

BeautifulSoup库:BeautifulSoup是基于re开发的,可以从HTML或XML文件中提取数据的python库;它能够通过转换器实现惯用的文档导航、查找、修改文档的方式 ,可以提高提取数据的效率和爬虫开发的效率。

Requsts库:equests是基于urllib,使用Apache2 Licensed许可证开发的HTTP库。其在python内置模块的基础上进行了高度封装,使得Requests能够模拟浏览器的需求,轻松完成浏览器相关的任何操作。

首先进入需要爬取的评论界面,复制网页URL,这里以无限暖暖 - 游戏评价 - TapTap为例,进入界面后,按F12或者鼠标右键选择检查,打开控制台,选择网络。

BeautifulSoup库TapTap评论爬虫

刷新网页,即可看到刷新出review

BeautifulSoup库TapTap评论爬虫

点击review,拉到最下方,可以看到User-Agent,复制下来,它很重要

BeautifulSoup库TapTap评论爬虫

Ctrl+Shift+C,选择页面中的评论数据

BeautifulSoup库TapTap评论爬虫

复制 outerHTML,这里太长了就只用图片来表示

-------------------------------------------------------------------------------------------------------------------------------- 

 (不过这里用不到

我们可以发现,所有的评论都嵌套在text-box__content中,就find_all来匹配就好了。我一开始误以为嵌套在heading-m14-w14中,结果爬出来的评论数据每一条评论都重复,大家不要犯这种低智的错啊。

 

主程序如下

 

在实际操作的过程中,需要将user_agent换成你自己的。 

本文地址:http://g8akg8.riyuangf.com/news/1212.html    迅易网 http://g8akg8.riyuangf.com/ , 查看更多
 
标签: 评论 爬虫
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号