文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

6eh9f

http://g8akg8.riyuangf.com/com6eh9f/

相关列表
文章列表
  • 暂无文章
推荐文章
联系方式
  • 联系人:李先生
【入门数据分析】淘宝用户行为分析
发布时间:2024-11-08        浏览次数:3        返回列表

分析目的:本文基于淘宝1年的交易数据对其用户行为进行多角度分析,对相关问题进行解释并提供建议。 分析工具:MySQL、excel 主要模型:AARRR模型

【入门数据分析】淘宝用户行为分析

本文采用淘宝电商的用户行为数据,基于AAARR、漏斗转化模型,采用多维度拆解、假设检验、对比分析的方法分析以下问题:

1)用户生命周期分析,通过AARRR模型,对用户进入淘宝后的每一步行为进行流程效率拆解,对用户增长、活跃、留存和购买情况进行分析,找出影响新增用户数的原因、不同时期用户活跃规律和需要改进的转化环节,探究用户使用习惯,为整体运营提供数据支撑; 2)用户行为路径分析,从整体到局部,根据转化率漏斗图,查看用户在整个购物过程中的转化情况,若转化率低,通过假设检验、对比分析,找到转化率低的原因并提出改善转化的建议; 3)用户消费偏好分析,找出用户最喜欢的商品,并通过假设检验分析出畅销商品好卖的原因,为商品的运营及营销提供策略支持; 在这里插入图片描述

1、数据来源

数据获取:阿里云天池 数据源于阿里巴巴提供的一个淘宝用户行为数据集,该数据集包含了 2017/11/25 至 2017/12/3/ 之间约1亿条随机用户的所有行为(包括点击、购买、加购、收藏)。数据集的每一行表示一条用户行为,由用户id、商品id、商品类目id、行为类型和时间戳组成,各个字段间以逗号分隔。

2、数据取样

原数据集一共有1亿条数据记录,数据量过于庞大,考虑到数据处理性能和耗时,本次分析抽取了其中约100万条记录,由于数据量庞大,这里以MySQL为主进行数据的处理和分析。

3、数据描述

关于数据集中每一列的详细描述如下: 在这里插入图片描述 在这里插入图片描述

1、数据导入

首先建库,并建立原始数据表。

 

将原始数据导入到数据库:

 

在这里插入图片描述 原始数据导入成功,这个原始数据表留着下面做抽样用。(小感:光是这一步就花了我近一两个小时的时间,终于深刻体会为什么DBA要做查询和索引优化了,一想到内嵌复杂子查询和函数的查询速度…忍不住颤抖)

2、数据抽样

由于原始数据量近1亿,过于庞大,直接进行分析,我的小机器身板怕是不够硬,而且数据IO的时间会是数据分析时间的几倍。所以这里用MySQL进行抽样,总共抽取300多万条数据,以此来进行分析。

 

3、空值、重复值处理

查看缺失值

 

在这里插入图片描述 可以看出没有缺失值。

再查看重复值:

 

在这里插入图片描述 发现有一行重复,后面通过设置主键将其去除。

建立分析表 tb,这里通过设置非空避免缺失值,设置 (userid,itemid,timestamp)为主键,避免重复值。

 

将样本数据表 sample 里的数据插入分析表 tb 中:

 

验证设置的主键是否有重复值:

 

在这里插入图片描述 查询结果为空,说明去重成功。

3、变量处理

将时间戳转化为标准日期时间格式,并取出其中的日期和时间作为新字段。

在这里,使用 Linux 系统的用户需要注意 MySQL 时区问题,使用 Windows 系统的用户可能会忽略此类问题,因为 Windows 系统中下载安装的 MySQL 时区默认是北京时间,在后面进行时间戳转换时也会转换为北京时间的标准日期格式,而笔者用的是 Ubuntu 系统默认不是北京时间,如果不做更改会导致后面时间维度分析结果令人匪夷所思(~~当时的我一脸懵逼)。

 

在这里插入图片描述 转换成功。

4、异常值处理

省去查看日期的异常值,直接删除可能超出研究时段的数据记录:

 

在这里插入图片描述 总共删除了1467条异常日期数据。

这里采用AARRR模型分析用户使用产品的整个流程,包括从浏览到最终购买的用户转化、用户留存情况以及用户的复购率等,以此分析用户行为。

1、基于AARRR模型的用户生命周期分析

1)获客

获客阶段,由于没有其他渠道类的数据,所以这里统计日新增用户数,定义日新增用户为出现第一次购买行为的用户:

 

在这里插入图片描述 用excel折线图绘制出表格: 在这里插入图片描述 可以看到11/25-12/3期间,日新增用户数整体呈现下降状态,12/1-12/2期间有小幅度回升,应该是由于举行了相关的营销活动或是双十二的临近,从而吸引了新用户增加。

2)转化激活
  • 用户跳失率

求出用户跳失率,这里定义跳失率 = 只浏览了 1 次页面便离开的访问次数 / 总访问次数。 说明: 由于前面已经设置了 userid、itemid 和 timestamps 为主键,所以这里不存在相同用户、相同商品、相同时间点下的重复用户行为。但考虑到同一用户对同种商品可能会点击进入浏览不止 1 次,所以这里只以 userid、itemid 分组,去除时间点限制,找到同一用户和商品下,只浏览页面 1 次便离开的访问次数作为跳失数。

 

在这里插入图片描述 这些跳失用户的总访问数为 50157,占总访问量约1.9%,低的可以忽略不记,说明淘宝在用户停留方面有非常强大的吸引力。

  • 用户活跃分析

UV、PV 和 PV/UV计算:

分别计算出淘宝整体的 PV(访问次数)、UV(独立访问人数)、PV/UV(人均访问次数):

 

在这里插入图片描述 按日:

以天数为单位,统计从 2017/11/25 - 2017/12/3 用户的UV、PV、PV/UV 和用户点击、加购、收藏、购买的活跃状态: