期刊信息
曾用名:现代图书情报技术;计算机与图书馆
主办:中国科学院文献情报中心
主管:中国科学院
ISSN:2096-3467
CN:10-1478/G2
语言:中文
周期:月刊
影响因子:0.912234
数据库收录:
北大核心期刊(2004版);北大核心期刊(2008版);北大核心期刊(2011版);北大核心期刊(2017版);中国科学引文数据库(2017-2018);中国科学引文数据库(2019-2020);中文社会科学引文索引-来源(2017-2018);中文社会科学引文索引-来源(2019-2020);国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;中国科技核心期刊;期刊分类:图书情报与数字图书馆
期刊热词:
研究论文
思考:数据分析与数据后台设计(2)
【作者】网站采编
【关键词】
【摘要】监控数据作为数据分析的基础,是一个看起来技术含量不高但频繁的行为,这个看似枯燥的行为需要对目标、数据极其敏感与了解,方能真正地发现问题以
监控数据作为数据分析的基础,是一个看起来技术含量不高但频繁的行为,这个看似枯燥的行为需要对目标、数据极其敏感与了解,方能真正地发现问题以及客观的评估效果。
监控的关键在于让我们知道,存在问题吗?
二、观察
接着聊聊观察数据。
监控数据更多在于发现问题与评估效果,由于监控数据更多聚焦于某一天的某个时段,时间周期很短,在大多数实验以及产品运行过程中,监控的数据偏少且时间短,无法作为有效且合理的参考,此时我们需要更多的数据指标、更长周期的数据来对比、评估,这个观察数据的行为建立在监控的基础上。
我们当然可以不监控直接观察数据,监控的确并不是观察的充分条件。但是少了监控,我们会缺少更加实时、及时以及详细的数据参考来支持判断。因为观察数据的目的与作用在于通过多指标、长时间的数据对比、观察数据起伏等变化来定位发现问题或是分析是否存在问题、是否按照预期发展,相对于监控的数据更加宏观的观察数据更加消耗精力,但监控依然是一个非常重要的行为。
以我亲身经历的一个小故事为例子。
曾经我所负责的游戏连续两天用户数都差不多,但是两天的用户时长却有显著差别。由于这两天并没有关注实际情况,在过了将近十天后回顾分析时一时无法得出有效的观点。
当时的我与同伴排除了产品出现异常、产品两天内有更新导致功能不同等会造成两天存在显著变化的情况。当时负责监控用户增长的同伴提供了一个线索,在后一天中由于游戏政策问题会有部分用户出现实名认证的过程,导致玩家进入游戏后被实名认证窗口卡在初始无法进入游戏。
随后我们查询了这两天的同时在线人数曲线,发现第二天曲线比前一天要明显低很多,而且从实名认证开始就出现了显著的下滑。因此我们得出了以下几个观点。
虽然用户进入了游戏,但是有部分用户未实名认证,导致他们无法进行游戏,有部分人因为各种原因未及时实名认证选择了退出游戏,因此造成了同时在线人数的下滑。
两天统计到的用户数量差别不大,是因为用户都进入了游戏,但是后一天的部分用户因为实名认证的原因很快就退出了游戏,造成这一天用户的平均时长下滑。
这是一个简单的例子,其实当时的我们完全可以凭借因为实名认证导致用户无法登录进而造成用户退出无法游戏来解释时长的下滑,但是这个观点本身就需要一些数据来支持。
此时我们监控同时在线人数就能为这个观点提供一定的支持。所以观察数据是建立在监控数据的基础之上。从观察数据的过程中,我们得出了一些观点从而找到执行策略的思路以及依据就是这个过程最大的意义。
观察数据需要较长时间的数据、较多的数据指标进行综合对比、评估方能针对一个问题得出合理的观点。
指标数值的变化之所以能反应问题,是因为这个指标是目标问题具有显著性影响的因素。很多的问题分析时,是需要确认多个因素的影响能力方能得出问题结论,所以观察数据时对于数据的要求也更高,观察时数据当满足以下几个要求时可为观察过程提供足够的支持:
- 数据粒度以日为主,时间区间长;
- 数据指标多维度、多角度;
- 数据主要以表格体现,图片为辅。
日粒度以及更大粒度的数据是为了观察时有更丰富的数据便于对比,比如互联网产品中日留存、周留存与月留存能反应产品在不同时间维度下的留存能力。
数据指标多维度多角度更多体现在需要足够数量的核心指标帮助观察数据时进行对比。由于前两点的要求,此时可视化的图相比监控数据过程重要性降低,此时数据表格可以更加便利的展示数据,当然表格+图是更好的选择。
同样举两个例子。
上图是友盟机型分析的示例图,其中提供了新增用户与启动次数两个核心指标,用以分析不同机型的新用户在游戏中的表现,进而分析不同机型用户的质量。这是一类以聚焦日粒度为主亦可跨日分析的多指标数据。
上图是友盟整体趋势的示例图,其中提供了多个体现用户数量、留存率、时长、启动次数等与用户行为直接相关的指标帮助分析者观察数据。
与上一个例子不同点在于,虽然都是多指标观察,但是这个例子是聚焦于跨时间对比分析的数据,因为活跃、新增用户数作为一个数值容易受推广、活动、节假日等因素直接影响,此时不同日期的数值对比意义并不大,这时候加上留存、时长等综合型的指标,通过不同时间的综合对比观察,就可以更加便捷且客观地得出观点。
文章来源:《数据分析与知识发现》 网址: http://www.sjfxyzsfx.cn/zonghexinwen/2021/0907/1445.html
上一篇:《十件古物中的丝路文明史》璀璨丝路文明里,
下一篇:一文读懂业务数据的分析思路