由于迫近美国对 Tiktok 美区封杀政策的最后期限,前几天大批的 Tiktok 用户涌入小红书 RedNote,并自称 Tiktok Refugees;
相关话题数次登上小红书热搜,小红书 App 也数次登顶各大国家的 App 免费榜,这波泼天的富贵被小红书接住了,
依稀记得那几天,小红书首页推荐全是上缴猫税的 American,好不热闹,
透过现象看本质,除了深刻的洞察力,有时候也需要数据实证分析支持结论;
虚拟经济、实体经济,线上线下各种智能决策、分析推理,都需要数据的支持;
数据是智能时代的石油,它广泛分布在各类社交平台为代表的传统互联网、以各种终端传感器为代表的工业互联网等等
所以数据采集就像是开采石油,google 和百度就好比是石油开采公司,我们的每一次搜索就是在消费石油。
说远了,继续回到小红书 Tiktok Refugees 数据采集,
Tiktok Refugees 笔记采集
小红书的笔记数据无论是网页版本还是 App 版本,
一个关键词搜索出来的笔记最多能看到的条数在四位数,也就是1-n千条左右;
这是后端 API 接口限制所致,前端只是显示;
不过 App 单屏幕显示的笔记数有限,不如 PC 网页版一屏加载几十篇笔记,需要下翻 N 多次才到底;
所以就有一个误区,App 能够看到无限的笔记,这其实是一个错觉,
按照我的经验,App 确实稍微比 PC 版本数据多一点,
所以要想一次性采集小红书所有的 Tiktok Refugees 笔记数据,显然不可能,
除非监控,并且在 Tiktok Refugees 话题出来还没爆之前,
持续采集最新笔记,追加到数据库中,
我做了一个小红书采集软件,目前仅有 windows 版本,持续维护中,
可以以多种采集条件,采集任意关键词下面的笔记,
并且可以选择是否下载对应笔记的详情、对应笔记的评论区,
采集结果保存在对应的 csv 文件中,
包含标题、内容、点赞数、分享数、评论数、ip 属地、图片等 20 多个字段
结果仅用作数据分析,毋作他用。
Tiktok Refugees 评论采集
采集到一些 10w+ 热门的笔记后,这些笔记的评论区也是非常重要的第一手分析资料的来源,
可以作为笔记文本数量不足的补充,刚好评论区采集是几乎没有限制的,
查看了 Tiktok Refugees 话题下评论最多的笔记,有 64,000+ 评论文本,
选几条热门笔记的评论区,数据量很容易就过 100,000 了,