分享好友 最新动态首页 最新动态分类 切换频道
毕业设计 大数据B站数据分析可视化系统
2024-12-29 21:42

毕业设计 大数据B站数据分析可视化系统

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是

🚩 毕业设计 大数据B站数据分析可视化系统

🥇学长这里给一个题目综合评分(每项满分5分)

难度系数:3分
工作量:3分
创新点:4分

🧿 项目分享:见文末!

视频效果

以下做一个简单的demo作为讲解,是非常基础的数据挖掘可视化过程,demo过于基础仅作大致原理解释和介绍,就不放在最后的工程里了,网上很多类似的案例,想学习的同学自己模仿。

为了便于后续的数据的使用,我们从老师规定的三种可视化方案中选择了pycharts方案,因而后端也就选择了Flask,一个使用Python编写的轻量级 Web应用框架。

对于数据的抓取,则选取了Urllib这一python内置的HTTP请求库来进行抓取。

对于前端,我们采用了flexible使用rem自适应布局,使用jQuery Ajax对图表进行实时的更新。

对于数据处理,主要使用到了python的一些内置库,除此之外,对于综合评分分析中,使用到了灰色关联度分析与主成分分析,用到了sklearn库,详细的内容在可视化部分进行详解。

本次数据来源于哔哩哔哩排行榜,服务器后台中每5min对排行榜数据爬取,通过jQuery Ajax+flask实时更新到网页上。

以下是数据爬取过程

本次爬虫教程使用requests第三方库,一个强大的基于urllib3的第三方库。

首先分析哔哩哔哩排行榜的源码

不难发现榜单都在 < li >标签中,所以可以先找出该全部标签,然后再详细分析里面的信息。

可以看出,大厂的网站写的还是很棒的,很有体系,可以说bilibili甚至很适合新手来练手爬虫。

因为比较条理且为静态网页,直接使用requests,遍历li并对其进行find操作,找到对应标签内的内容,存储即可完成热榜爬取。

此时部分数据需进行一定的处理,但均较为简单,转换格式以及去除空格、‘ ’等。

但哔哩哔哩排行榜的内容只包括排名,视频名称、播放量、弹幕数、综合得分、作者、链接,并没有更加重要的投币、点赞、转发和收藏等关键信息。所以还需要对每一个页面内部进行爬取。

后续代码中的info_Page(bv)对此进行了实现,bv代表的是哔哩哔哩每个视频对应的唯一的bv号,使用此bv添加网站后缀即可完成info页面的访问,在info页面中,依旧十分易于爬取。

但此时爬取速度过快时会触发其反爬策略,且较难处理,故后续采用其提供接口获取内部详细数据。使用 + bv号形式获取数据,后续只需进行格式处理即可完成。

最后数据保存入bilibili.txt文件中,数据的运用及处理在各可视化案例中详细介绍。

爬虫部分到此结束

附 爬虫代码

 
 

综合得分计算指标

哔哩哔哩综合得分,是视频是否能排上排行榜的依据,若能知道其规则,对于视频内容的倾向,up主是否需要请求“一键三连”,观众们需不需要吝啬手中的币,是有很大的价值的,所以在此首先进行综合得分计算指标的分析及其可视化,此处采取灰色关联度分析(Grey Relation Analysis,GRA)来进行数据的处理

GRA是一种多因素统计分析的方法。简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受其他的因素影响的相对强弱,本项目中,就是说:我们假设B站综合得分可能是与播放、评论、收藏、投币、分享、点赞几个因素相关的,那么我们想知道综合得分与这几个因素中的哪个相对来说更有关系,而哪个因素相对关系弱一点,把这些因素排个序,得到一个分析结果,我们就可以知道哔哩哔哩综合得分,与因素中的哪些更相关,因而也就可以看出观众的一键三连的作用以及up主们更应该求的是赞、币亦或是其他。

首先是要确定子母序列,母是结果,子是影响因子,那么,毫无疑问,综合得分就是母,其他均为影响因子。将其分别存入mom_以及son_中,代码如下

 

然后要对数据进行预处理,因为我们的这些要素是不同质的东西的指标,因此可能会有的数字很大有的数字很小,但是这并不是由于它们内禀的性质决定的,而只是由于量纲不同导致的,因此我们需要对它们进行无量纲化。这个操作一般在数据处理领域叫做归一化(normalization,也就是减少数据的绝对数值的差异,将它们统一到近似的范围内,然后重点关注其变化和趋势。按公式归一化即可。

 

最终结果:B站综合得分与播放、评论、收藏、投币、分享、点赞几个因素都具有很强的相关性。

为了体现这一结果,我们采用了关系图来进行可视化

由于灰色关联度分析的权重均较为接近,但哔哩哔哩综合得分的公式也并没有公布,所以无从证实其真实性,下图为网传数据进行的关系图可视化,均仅供参考

: 灰色关联度分析及可视化

 

综合得分漏斗图

通过综合得分漏斗图可以看出,除了前三名视频以外,其他的视频差距都不是很大,其它的视频的宽度差距不大,4-20名的差距基本很小,这也说明了其名次十分焦灼,变化也比较快。

推测前三名视频是由于挂在了榜上,所以导致其经常被推送已经看排行榜的人观看,即便此视频的标题等对其可能并没有很大的吸引力。

而后续的视频,可能游客就只会对其感兴趣的视频来进行浏览,不同兴趣的用户分别点击不同的视频

也就导致了后续视频的差距很小,十分焦灼。在此部分,作者的标题与粉丝基数可能会对名次产生较大的影响。

在分析的过程中,我发现很多的视频标题中都带有感叹号与问号等字符,或许可以对一段时间内的排行榜进行数据的采集,然后进行标题的分析,或许也能找到一些吸引游客关注的方案(一定程度内,拒绝标题党)。

 

游客画像

哔哩哔哩游客画像分析,因为课程设计的时间关系,本次爬虫中主要对于排行榜视频进行爬取,以及部分排行榜作者的信息,所有并没有太多的游客的信息,本部分可视化的信息来自于我的哔哩哔哩后台数据,具有很大的个人倾向,而且数据规模也比较小。

我的视频以游戏视频为主,受众也的确多为16-25岁之间的人群,但很难以置信的是在35-40岁之间还有很多的受众,这对于视频博主来说更改自己的视频策略是非常重要的。

在游客的性别方面,也十分的出乎意料,我的游戏视频并没有明显的性别倾向,但女性观众的比例竟然都大于了3/4,这也是很难以置信的,以后也可以根据自己的受众来合理的制作视频。

对于视频观看途径,毫无悬念的Andrioid占据上风,紧随其后的是PC端与iPhone端,而站外播放几乎没有。

 

完成度

对于排行榜上的视频,视频的完成度均是特别高的,大多都处于很高的程度,但一些多p的较长的录播类型的视频播放完成度会有些稍低,如第七名。另外较短的视频的完成度均特别高,如第九名。推测视频的完成度也会对视频的综合得分有部分影响

因为第九名这一视频的其他数据并非是特别突出,但仍在排行榜前列。后面的灰色关联度分析因为视频完成度比较难以无纲量化,并没有对其进行分析,是一缺憾。但哔哩哔哩对播放完成度统计并计算也正体现当前时代的趋势,快餐文化的盛行。

但哔哩哔哩的很多博主还是很令人高兴的,并没有在快文化盛行的今天选择以快文化来吸引流量,还是选择了高质量,这一部分在视频时长与综合得分处进行详解。

 

三连

本处数据对排行榜100条数据每10条取其综合得分平均值与点赞投币收藏平均值,来计算综合得分与其余三者的变化趋势,可以显而易见的看出,综合得分与其三者之间存在着明显的线性相关性,这也对我们后续的灰色关联度分析给出了提示

由于采用取平均值的形式,所以基本没有出现投币大于点赞也就是“币比赞多”的情况,但在点赞投币收藏比例图中对此进行了体现。

可以看出,整体来说点赞大于投币大于收藏,并非是需要获得的投币是最少的,收藏反而是最少的,收藏的视频一般都是可以二次观看的为主,收藏的数量较少应当就是这种原因导致的。

 
排行榜点赞、投币、收藏与白嫖的比例

分析前排行榜前20条视频的点赞、投币、收藏与白嫖的比例,可以明显的看出,即便是这么高质量的视频,大多数的人还是选择了白嫖 = =

具体查看每个图表的标题或内容可知,投币大于点赞即“币比赞多”是很少见的情况,常出现于爱心救助

比如救助流浪狗,流浪猫,等能引起用户共鸣与感动的视频,除此之外另一种“币比赞多”的情况多出现于视频质量极高,制作难度极高,视频质量极高,让人直接把币拱手相让类型的,比如本次榜单上的mad混剪,e3d,时间重映射,发光抖动,放射光线(评论区说的)工程难度极高。

 
分析

本处的视频分析逻辑并不是很严谨,因为所有的数据均为排行榜视频数据,视频的综合得分均比较高,时长的分析应当有更加大规模的数据来进行测试与处理。但实时的对排行榜数据进行分析也能看出一些趋向。

最终可以得知,视频时长与视频的受欢迎程度是有关系的,在8min到13min附近的视频最为受欢迎,这是很令人意外的,bilibili优质视频的时长都没有太短,值得up主们考量。

篇幅有限,更多详细设计见设计论文

项目包含内容

最新文章
android维修手机,还能修手机烧屏?安卓手机屏幕测试神器
本帖最后由 QZC0607 于 2015-9-2 16:23 编辑还能修手机烧屏?安卓手机屏幕测试神器屏幕是手机的面子,也是用户面对手机最多的部件。但偏偏,手机屏幕也是厂商品控最差的部件之一,很多朋友拿到新手机,第一
2024电动牙刷十大名牌汇总,给你带来满分体验!
很开心大家能来上本次的口腔护理知识讲堂!我是一名入行九年的牙医,今天想和大家说说电动牙刷的好与差。大家可要记好了,与清洁效果差劲、伤牙危害大的不专业电动牙刷比起来,专业优质产品在核心技术地研发上投入了大量的人力物力,而且重
Deep face recognition using imperfect facial data
https://www.sciencedirect.com/science/article/pii/S0167739X18331133#b42该论文主要研究人脸各个部分对于人脸识别的影响力,以及对人脸图案进行旋转、缩放等操作后人脸识别性能的大小。在我们的实验中,我们使用一个基于CNN
2023年中国智能客服市场前景及投资研究报告
中商情报网讯:中国客服行业经历了三个发展阶段,分别为传统电话客服、PC端网页在线客服及智能客服。当前,随着人工智能技术应用日益成熟,越来越多的商家使用智能客服取代人工客服,我国智能客服行业市场规模不断扩大,行业发展前景广阔。
30% 的人月入过万,70% 的人都踩过坑!
总是被那些“月入过万,日赚千元”的说法吸引,这样的人往往容易被割韭菜。那么,国外问卷调查真的能月入过万吗?我的回答是,对大多数人来说,不能。为什么?首先,你得了解国外问卷调查有哪几种形式:口子查、站点查和渠道查,它们各自有
AI革新写作!智能美化文章,让阅读更惊艳
AI智能美化文章的定义 人工智能(即 AI)在当今社会中的重要性日益凸显,而AI智能化撰写文章作为其关键应用领域之一,展示出广阔的潜能与发展前景。具体来说,AI智能化撰写文章就是采用人工智能技术对文章进
app客服聊天系统
  App客服聊天系统是现代互联网时代的一项重要技术创新,它为企业提供了一种全新的客户服务方式。通过App客服聊天系统,企业可以与用户进行实时互动,解决用户的问题和需求,提升用户体验,增强用户粘性。  App客服聊天系统是一种通过
ai编写文案生成器
【文案生成器介绍】文案生成器是一款基于人工智能技术的智能写作工具可以快速生成各类文案提升写作效率。以下是文案生成器的详细介绍:1. 功能强大:支持生成新闻稿、广告文案、产品介绍、文章摘要等多种类型的文案。2. 智能匹配:依据使用
ChatGPT是一种创新的人工智能模型,代表了智能对话的新前沿
ChatGPT是一种出色的人工智能模型,在自然语言处理和生成领域表现突出。作为深度学习和自然语言处理领域的重要技术,ChatGPT不断演进和提升,使其能够模拟人类之间的对话。本文将探讨ChatGPT的特点和优势,并分析其对我们日常生活的影响。
ai诡异故事生成器
诡异故事生成器是一种运用人工智能技术自动生成充满悬疑、惊悚元素的故事的程序。以下是对诡异故事生成器的简要介绍,并依照序号实行排列:1. 功能特点:诡异故事生成器可以按照使用者设定的主题、情节、角色等须要,自动生成具有特别情节
相关文章
推荐文章
发表评论
0评