理解数据流的正确方式(数据质量系列之二)

枫棠    发布于:2019-10-31 浏览 45

由上篇的《指标对齐这么难?》,我们开始切入数据治理主题。本文核心思想:数据流,拆分为评价柳和分析流,理解好数据流,希望能给大家的工作带来改善。

由上篇的《指标对齐这么难?》,我们开始切入数据治理主题。快两月了,随着踩坑的不断增多,人物的不断达成,我们获得了一些经验。

面对一项挑战,我们最好在思想上有所准备,这是基本逻辑。因此接下去的几篇,我们基于最近的经验,帮助你做好思想准备。

本文核心思想:数据流,拆分为评价流和分析流。

决策层、业务方所接受到的数据信息,我们应该把它拆分成指标流和分析流来理解,两者的执行方式是不一样的。

评价流,我把它理解为用于“评价”的指标和维度的集合。最典型的就是KPI。这一范畴下的指标,应该做严格规范的管理。评价流中的指标,理应名称规范、口径清晰,这是数据治理的关键环节。

分析流,我理解是分析师和业务人员进行问题分析时候所应用的各种数据产出,包括样本、指标、工具、分析方法,产出的报告或者文档。

合理的情况是:在分析流中的指标,一部分继承评价流中的指标口径(评价指标本身也极具分析价值),但也应该或者一定会有很多具体问题具体分析所定义出来的指标口径(样本选择、特征工程、模型评价等都会产生很多指标)。重要的是保证“同名同义”,不要出现在信息的接受方看来,相同的指标名称对应着不同的计算结果。

如上图,在不区分评价流和分析流时,公司内部的数据流就非常复杂,决策层接受到的信息混乱,指标对不齐的问题会很明显,体感就是计算错误多、指标混乱、数据质量差,进而形成数据分析团队不靠谱的判断。

当我们把评价流单独拎出进行规范管理,目标实现如下图的情况。

决策层用来评判业务的指标,由“指标规范体系”进行了统一的管理,各业务部门的数据都按一套标准规范进行汇总。实现这样的机制后,决策层看到的指标清晰有序,且能保证一致性,指标对不齐的问题能大幅减少(注意:这个情况一定不会降到0)。

另一方面,分析流在公司中应该具备何种流程呢?个人觉得,分析流就应该百花齐放。

如上图,我并不认为数据分析是种专职工作,应该人人都会数据分析,进而好的分析成果,都能通过各种渠道传递到决策层的眼中。那么如何避免混乱呢?注意两点:

  1. 决策层或者数据产出的使用者要提高自身的认知力,能区别对待评价流和分析流,不混淆两个范畴内的指标。具备数据质量意识,在自身层面去了解清楚指标的计算口径(熟悉口径是理解业务的最基本要求,决策者看数据如果不理解怎么算的,那还是算了,别搞什么数据驱动了),进而倒逼数据流生产者改善质量。

  2. 分析的操作者,要区别理解评价流和分析流。在分析中,设计指标时,与评价指标含义相同或接近的,继承评价指标;若评价指标未覆盖的,一定要做到区别命名。另外,任何分析产出中,都要有明确的口径说明(这一点都做不到的分析师,那也就算了,趁早转行!)。

小结

理解清楚了数据流,大家在工作中就注意起来,现在也许没有人来约束你,但为了自己的将来,还是趁早改善。下一篇我们会讲讲指标治理的三个阶段。

本文转载自公众号:老树之见

作者:胡晨川

收藏此文章 点赞此文章

评论 (0)

暂无用户回复

评论此篇文章

登录后可回复
/1000