分享好友 最新动态首页 最新动态分类 切换频道
难倒95%数据分析师的面试题!
2024-11-07 21:53
今天,从网上整理了11道数据分析面试真题,供大家参考学习~

01 统计学部分

难倒95%数据分析师的面试题!

c8de961a0a4a4bc86c9ad7d2bfcc29fc.gif

1、一副扑克牌一共54张,平均分成2份,求这2份都有2张A的概率。

639d2fb7442f57fc21eea5e53ddb160b.png
参考答案

先求分母

54张牌,分成2份,每份应该27张。

第一步:我们从54张牌取27张,作为第一份,就是第二步:剩下的27张牌取27张,作为第二份,就是

这样分母就有了:把第一步和第二步相乘,就是54张牌,随机平均分成2份的组合数量,因此分母=

再求分子

一副牌有4张A,50张非A的牌。

为了保证两份都要有2张A,在挑第一份的时候,应该先在4张A里面挑2个A,50张非A的牌里挑25个非A。然后第二份就是在剩下的2个A里挑选2个,25个非A里面挑25张。

第一步:从4张A里挑2张A,50张非A里挑25张,第二步:从2张A里挑2张A,25张非A里挑25张

分子

所以概率是

2、男生录取率增加,女生录取率增加,总体为何减少?

b6f47fb13ce28f5897ea2060f7fd4728.png
参考答案

此题考查的是辛普森悖论,因为男女的录取率可能有较大差异,同时低录取率群体的占比增大。

如原来男性20人,录取1人;女性100人,录取99人,总录取率100/120。

现在男性100人,录取6人;女性20人,录取20人,总录取率26/120。

即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。”

3、置信度与置信区间是什么意思

9b2af32250f901dd00b82271b1c47401.png
参考答案

置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。

举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里。

那么在这里,95%是置信水平,而计算出的范围,就是置信区间。

如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

4、p值的含义

4b1ee8c8d425d81d6f2ce516999255cd.png
参考答案

假设检验的基本原理只有3个

  • 一个命题只能证伪,不能证明为真

  • 在一次观测中,小概率事件不可能发生

  • 在一次观测中,如果小概率事件发生了,那就是假设命题为假

证明逻辑就是

我要证明命题为真——证明该命题的否命题为假——在否命题的假设下,观察到小概率事件发生了——否命题被推翻——原命题为真

比如:要证明A是合格的投手——证明“A不是合格投手”这个命题为假——观察到一个事件(比如A连续10次投中10环,而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05——小概率事件发生,否命题被推翻。

可以看到p越小——这个事件越是小概率事件——否命题越可能被推翻——原命题越可信

5、怎么向小孩子解释正态分布

4237580f4a0c48c551cf17de9cca2b25.png
参考答案

先拿出小朋友班级的成绩表,每隔2分统计一下人数(因为小学一年级大家成绩很接近,画出钟形。然后说这就是正态分布,大多数的人都集中在中间,只有少数特别好和不够好。

拿出隔壁班的成绩表,让小朋友自己画画看,发现也是这样的现象;然后拿出班级的身高表,发现也是这个样子的。

大部分人之间是没有太大差别的,只有少数人特别好和不够好,这是生活里普遍看到的现象,这就是正态分布。

02 业务思维部分

15331459d91887a68fa7a4aa4b55f199.gif

1、卖玉米如何提高收益?价格提高多少才能获取最大收益

ae9c8d8ed0e4693424782a99a64355c1.png
参考答案

收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销售规模。

提高单位溢价的方法

  • 品牌打造获得长期溢价,但缺陷是需要大量前期营销投入

  • 加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如礼品化等

  • 价格歧视,根据价格敏感度对不同用户采用不同定价。

销售量=流量x转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。

收益 = 单价x流量x转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。

2、店铺销售额降低如何分析

33966d632a1e6c8580220cbcaa3a15f4.png
参考答案

先定位问题:运用多维度分析法和七何分析模型定位到异常现象。

拆分维度有

  • who:用户(新用户/老用户、渠道、画像等

  • when:访问时段

  • where:产品(产品类型

然后拆分问题:运用多维度分析法从指标构成拆分。

  • 销售额=浏览量转化率客单价

  • 销售额=GMV-取消订单金额-退货订单金额

  • 假设检验:确定问题源头,分析原因,提出假设再验证,再假设再验证

可以从以下角度提出假设

  • 内部原因:产品、价格、渠道、促销(4P营销理论

  • 外部原因:政治、经济、社会、技术(PEST分析

3、若用户留存率下降如何分析

d51ce73cc39afb878a85451419c968ac.png
参考答案

先定位问题:运用多维度分析法定位到异常现象发生的具体位置和程度。

拆分维度有:新用户/老用户、渠道、画像(用户特征)等,分析不同维度下的用户留存情况、定位到问题人群。

然后假设检验:提出假设再验证,再假设再验证

  • 内部:用户获取及激活(AARRR模型)、产品

  • 外部:PEST,主要考虑竞品影响

4、我们有一款游戏收入下降了,你怎么分析

bdbcd9f7b47d879bbee983ba0df30c76.png
参考答案

两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了

指标拆解:收入 = 玩家数量 * 活跃占比 * 付费转化率 * 付费次数 * 客单价进一步细分,如玩家数量 = 老玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的数据进行对比,发现哪些环节导致收入下降

原因分析:a. 内部:产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等b. 外部:用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等

如何提高:基于乘法模型,可以采用上限分析,从前往后依次将指标提升到投入足够精力(假设优先分配人力、经费与渠道)后的上限,然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段,就是我们提高收入的关键任务。

03 数据挖掘部分

8494dad6410b0cd5d0915ce3ca3866d5.gif

1、数据库与数据仓库的区别

e430083fdaad46a63ee2fc491e837481.png
参考答案

简单理解下数据仓库是多个数据库以一种方式组织起来,数据库强调范式,尽可能减少冗余;而数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询。

数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签;数据库采用行存储,数据仓库一般采用列存储。

数据仓库的特征是面向主题、集成、相对稳定、反映历史变化,存储数历史数据;数据库是面向事务的,存储在线交易数据。

2、什么是聚类分析

5a2a1f4daa87ffd93568e2779318784c.png
参考答案

聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总。

聚类方法主要有a. 层次聚类 b. 划分聚类:kmeans c. 密度聚类 d. 网格聚类 e. 模型聚类:高斯混合模型

来 源:成都数据分析

db3949df5750fa7a1040e2760a7da1bc.gif

NO.1

往期推荐

Historical articles

Python 数据可视化全方位讲解,建议收藏

整理了10个经典的Pandas数据查询案例

用Python绘制了几张有趣的可视化图表

20个数据分析师必知必会的SQL查询语句

长按👇关注- 关于数据分析与可视化 -设为星标,干货速递

分享、收藏、点赞、在看安排一下

62d4dd904afeaca467586b34780e2d6d.gif

55db87c5307a91860ac50f98ed7dedb1.gif

26999d9ecb21339d76f18dd45aa48f20.gif

最新文章
史上最全大型互联网“Java架构师成长路线”首发,对标BAT等互联网大厂P6+需求
上述知识点,囊括了目前互联网企业的主流应用技术以及能让你成为“香饽饽”的高级架构知识,每个笔记里面几乎都带有实战内容。 很多人担心学了容易忘,这里教你一个方法,那就是重复学习。 打个比方,假如你
云南排名前十seo公司(云南百度推广排名查询)
其实云南排名前十seo公司的问题并不复杂,但是又很多的朋友都不太了解云南百度推广排名查询,因此呢,今天小编就来为大家分享云南排名前十seo公司的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!本文目录网络seo排
AI+传媒:全维赋能开启新纪元,2025年大展宏图!
在迅速发展的科技浪潮中,人工智能(AI)正在全方位推动各行各业的变革。最近,北京人工智能产业联盟发布的《人工智能蓝皮书:中国通用人工智能发展报告(2024)》一方面揭示了生成式人工智能的创新动态,另一方面也昭示着AI在传媒领域的广
如何选择合适的邮箱进行OpenAI注册
如今,AI技术的发展已经渗透到了各个领域,并对我们的生活产生了深远的影响。OpenAI作为全球领先的人工智能研究机构,致力于推动AI技术的创新与发展。如果你对AI技术感兴趣,想要注册OpenAI账号,那么一个有效的邮箱是必不可少的。选择合适
12种文本数据采集方法
grabage_0.1_nk提供最基础的采集功能,有经验的开发人员可以将其嵌入到系统模块中用于采集数据。nk版本的内容检查不算完整,只能匹配部分发布时间,对于部分网页将作者,来源,发布时间混合在一起的情况,未能很好的解决。该问题会在将来的
AIGC重塑文旅行业新场景、新业态、新消费
(来源:中陆必得旅游规划)编者按AIGC(人工智能生成内容)在文旅产业中发挥着越来越重要的作用。通过深度学习、自然语言处理和计算机视觉等技术,AIGC能够自动化地分析和理解大量数据,从而生成丰富多样的内容。这不仅提高了内容创作的效
AI代码生成器——Cody
Cody由Sourcegraph开发,是一款人工智能驱动的编码助手,它不仅仅是一个简单的代码完成工具,更是一项功能强大且富有创新精神的工具。其主要优势在于能够深度理解代码编写的上下文,为开发人员提供准确、有意义的建议和评论。 Cody能够利用
会议OA项目之会议审批(亮点功能:将审批人签名转换为电子手写签名图片)
Java实现支持人脸识别的会议签到系统,方便参会人员高效签到,提高会议签到的安全性。采用深度学习进行模型训练以提高识别准确率,需要设计并优化相关的人脸识别算法。基本功能​ 1、支持基本的会议管理功能,包括会议申请、开始会议、会议
用AI绘画,让创意从未如此简单!搜狐简单AI带你开启智能创作之旅
在这个信息化高速发展的时代,创意和效率是任何行业中立足的关键。然而,对于许多人来说,面对日益增多的工作任务,如何高效且富有创意地完成工作成为了不小的挑战。想象这样一个情境:小李,一位营销专员,正在为即将到来的产品发布会寻找
WordPress 发布文章,出现发布失败与更新失败的解决办法
新版的Wordpress出来后,用新版的覆盖了之前老板的文件之后,出现了无法发布文章,更新老文章失败等错误提示。 这是什么原因呢?我通过网络查询,收集了以下原因和解决方法。1.古腾堡编辑器出错 这种情况非
相关文章
推荐文章
发表评论
0评