分享好友 最新动态首页 最新动态分类 切换频道
爬虫实战三:关键词搜索小红书帖子
2024-11-01 23:31

没想到上一篇阅读量还不错,正好有朋友也提了抓小红书帖子的需求,我们一起来看下:

爬虫实战三:关键词搜索小红书帖子

上次提到,抓数难度上 App>网页版>=微信小程序,所以当时选择小红书的微信小程序来下手的。但经过测试后发现小程序有个限制:选择不同的品类可以返回上限1000条,但搜索关键词时却只能返回100条帖子,数量太少。

小红书的网页版没有搜索关键词的入口,小红书App中搜索关键词是没有100条数目限制的(但经过测试有1000条的限制,我们后续再讲)。

正常的爬虫流程都是研究搜索关键词的请求,然后去破解相关参数来仿造请求;但今天我来展示一种不破解、纯刷帖的爬虫方法,同样可以安全快速抓取到想要的结果。

先说下大致思路:首先配置好手机和电脑 Charles,使得手机端浏览小红书帖子时在电脑端可以抓包(手机端刷到的帖子可以在电脑端 Charles 加载出来);完成配置后在手机端运行脚本自动下划刷帖子;最终将 Charles 中的数据包进行解析拿到结果。

1. root手机配置

此方法最难的点就是 Charles 抓包,正常情况下我们手机打开小红书 App 是抓不到包的,这时就只能拿 root 过的手机来碰运气。

手机ROOT通常是指针对Android系统的手机而言,它使得用户可以获取Android操作系统的超级用户权限。 百度百科-手机ROOT

比较幸运,拿root过的手机可以直接截到小红书搜索关键词的包(废话,不然也不会有这篇文章了):

root 手机是个比较复杂的工程,我也是工作需要才接触到这玩意,所以这也算是层门槛,没有资源的朋友权当看个思路吧。

2. 脚本刷帖

想必大家也听说过手机自动刷抖音、刷帖子,这里推荐下 AutoJS (只适用于安卓机)。我们只需先在小红书中搜索特定关键词,之后设置好刷帖动作和间隔时间,运行脚本便可以自动刷帖了:

经过脚本的测试,发现搜索关键词出的帖子是有1000条数目限制的,手机端刷到最后是这样的:

电脑端抓到最后:

3.抓包并解析

将 Charles 中所有帖子对应数据包保存到本地,针对其数据格式通过代码解析成 Excel 格式的数据结果。

比如 Charles 端加载的数据格式如下:

最终按所需的字段整理出 Excel 结果:

最终,便能顺利抓取到每个关键词对应的 1000 条帖子内容了。

如果觉得1000条帖子太少,注意看下小红书搜索关键词时可以还有很多可选项,比如“最热”、“最新”,以及相关的分类。同时虽然是关键词搜索,但其返回的结果也是推荐流形式,所以不同的时间、不同的账号、不同的限定条件下刷出的内容大概率也不相同。

毕竟海量帖子里随随便便捞1000条都是轻而易举的,比如搜“行驶证”:

再比如搜个“滑雪”:

4.爬虫的价值

单纯从数据层面上看,这些爬虫抓取到的帖子可以分析广告、商品投放情况等,还可以针对不同品类下的帖子内容进行研究等。

我们普通用户刷小红书是满足个人需求基本用不到爬虫,通常爬虫数据都是拿来做数据分析和调研。这里也可以比较直观地看到爬虫在某些情景下也是高效获取数据的途径。

那么回归现实,如果自己做不到爬虫想去买数据,我随便搜了下淘宝爬虫小红书的商家,问了下价格:

数据很值钱。

最新文章
运维新手入门——BIOS和UEFI的启动项
先插一句话,现在很多人用UEFI BIOS这个称呼。这里为了区分:BIOS一律指传统BIOS,UEFI BIOS一律称呼为UEFI。UEFI下的BIOS设置,一律称为UEFI设置。一直就想写这个,因为自己折腾Hackintosh。最初BootThink,后来Chameleon,现在Clover。每
马云的焦虑,俞永福如何治
  今年双十一体验,普遍反馈不好。还没等这个负面发酵,高管俞永福离职的消息就被丢出来了。业界也就顾不得什么双十一了,阿里的公关还是业界的标杆。  俞永福是现任阿里大文娱的董事长兼CEO,2014年俞永福带着自己创立的UC并入阿里后
牙克石网站排名优化软件,提升网站流量的秘密武器,牙克石信息平台
牙克石网站排名优化软件是一款专为提升网站流量的工具,通过精准优化网站内容和结构,提高搜索引擎排名,从而吸引更多潜在客户。该软件采用先进算法,分析用户搜索习惯,智能推荐关键词,提升网站曝光率。该软件还具备实时数据监控功能,让
搜索引擎技巧.pdfVIP
搜索引擎技巧搜索引擎可以帮助使用者在Internet上找到特定的信息,但它们同时也会返回大量无关的信息。如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息。类别搜索1许多搜索引擎(如Yahoo!)都显示类
高清美女写真生成新潮流:用AI轻松打造你的虚拟女友!
步骤2:输入描述 在文本框中输入你想要的美女写真特点,比如“长发,蓝眼睛,穿着白色衬衣的模特”。保持描述的简洁且具体,系统会更容易理解你的需求哦。步骤3:选择风格(可选) 如果你对风格有特别要求,比如想要梦幻效果或者写实风格,
最新说说发布中心,最新说说发布中心SEO攻略:如何提升内容被百度收录的机会?
  最新说说发布中心揭秘:如何被百度收录及其建议提醒  摘要:本文将围绕“最新说说发布中心”这一主题,探讨内容如何被百度有效收录,并给出相应的建议以提醒大众。文章将从关键词选择、内容创作、网站优化等方面进行详细阐述,旨在帮
谷歌SEO中,如何轻松获得高排名?
在当下这个信息爆炸的时代,每一个企业或个人都渴望自己的网站能在谷歌搜索引擎中脱颖而出,获得更高的排名,从而吸引更多的流量和潜在客户。基于我多年的实战经验和对SEO行业的深刻理解,我发现,要想在谷歌SEO中轻松获得高排名,并非一朝
谷歌SEO里,你既爱又恨的SEO工具是什么?
在SEO行业的摸爬滚打中,我逐渐发现,那些让人又爱又恨的工具,往往是最具争议也是最有效的。今天,我们就来聊聊我在谷歌SEO实战中,对某个既爱又恨的SEO工具的深刻体会。一、谷歌SEO里,我难以割舍的双刃剑作为一名SEO老鸟,我深知每个工
揭秘2024新奥资料,免费获取精准资源全攻略
随着科技的飞速发展和信息时代的到来,资料获取变得日益重要,对于即将迈入新奥时代的我们来说,掌握一手的、精准的2024新奥资料,无疑将为我们的发展带来巨大的优势,本文将为您详细介绍如何免费获取这些精准资料,助您在新奥时代站稳脚跟
域名收录 批量查询域名收录的方法
互联网世界是一个庞大而复杂的网络,每天都有数以亿计的网页在其中产生、消失,网站的排名与权重更是对于一个网站的存在和发展至关重要。但是,对于普通用户来说,如何了解一个网站的真实情况?如何判断一个网站的价值与可信度?这就需要借
相关文章
推荐文章
发表评论
0评