• 阅读: 414 回复: 0
    枫棠

    我所了解的数据-数据分析-数据产品

    楼主 发表于 2019-09-06 10:06:54

    本文转载自知乎账号:@停云

    做数据产品经理有一小段时间了,接下来对数据相关来一个阶段总结,以便更好的了解自己的肤浅与不足,方便接下来做改进。

    本文大纲:

    第一部分 数据

    1.数据是如何出现的?

    公元前4千年,生活在美索不达米亚平原的一些人以牧羊为生,因为羊太多了,每天早上从羊圈里放羊出去,回来多少羊根本没概念。有时候羊被人偷了,也无从对证据偷了多少只,在交易的更是遇到了大问题,因为不知道卖了多少只羊。

    在经历这些问题的过程中,基于对精确管理、公平交易等需求,他们花了近千年发展出了楔形文字的计数系统,也就是有记录最早的数据出现。数据出现主要难点在于数字是从具体实体抽象出来的,现实中没这个数的实体概念,发明数字难点在于从实体到抽象描述。 

    楔形数字--图片作者Josell7,来自维基百科

    2.数据有什么用?

    由以上可知,数字的出现主要解决的是精确管理和交易问题。如在之前不知道多少只羊,凭经验去管理、交易,到用数来标记精确知道有多少只羊,帮助做生产管理和销售相关决策,更为合理生产和交易。由此可知,数据在此的作用是:

    • 了解现状:知道自己有多少只羊,丢了几只羊、草原上的草可以养大规模的羊;
    • 辅助决策:通过数据对比哪个集市、哪个买家出的价格更高,选择合适的交易对象;

    从决策上来说,了解现状是是决策的前提。

    当然数据也不仅仅是辅助决策,也有可以直接驱动行动的:如基于以数学为基础的统筹学、统计学的智能决策可解放人工辅助,可以自行决策,如实时信息流广告自行决策给合适的用户推送合适的广告内容,阿尔狗法自行决定下哪步棋、工业4.0中智能统筹生产管理...

    3.什么是数据?

    由交易羊的历史可知,数字是从实体抽离的抽象符号,用于代表实物的数量,数据是对实物的数量的抽象概括,如1片草原、2个人、100只羊等等。

    数据的出现,为大规模商业交易奠定了基础,帮助交易得以进行持久公平进行。 

    从决策来说,所谓数据就是以数字做为依据。如用数字做为有多少只羊,交易多少钱的依据。

    从现代计算机处理的角度,能被计算机识别和处理的物理符号都称之为数据(data),如数字符号、图片、视频、声音(如模拟信号转二进制01数字信号,把实物转抽象数字)。在数据库存储时,按数据结构又分为:

    • 结构化数据:能像excel一样,能一行一行来表示的行数据。如能写进二维表的员工工资表,出勤表。
    • 半结构化数据:一般是自带描述结构如Json格式,比文本数据,有一定的结构性,但又没结构化数据那么条理,如文本日志数据。
    • 非结构化数据:与结构化数据相对,不适合数据库二维表来表现的,如图片、文档、音频、视频等。

    以上看不懂没关系,知道计算机所说的数据类型不仅仅是数值型的就好,我们看的视频也是数据。 

    4.数据之外还有什么?

    明白了数据不仅仅是数值,我们再了解一下,与数据并列的一切概念。

    这张图很巧妙地呈现了从数据分析整理、到最终形成影响力的整个历程:

    • 数据:我们在生活和工作中,会遇到各种各样的数据,如:8月10号,今天气温28度到35度,湿度92%,下雨概率50%...
    • 信息:数据经过处理和加工,变成了信息,信息=数据+时间+处理:今天气温炎热,身体感受湿腻闷热...
    • 知识:信息之间产生了联系,形成了知识,知识=what+why+how+who:如我们感知冷热,是因为皮肤与外界的温差和身体散热效率。人体由于新陈代谢不断地产生热量并散失热量,在代谢产热量、做功产热量恒定的情况下,人体蓄热的多少受热传导、辐射换热、对流换热、蒸发散热等因素的影响。

     

     

    • 洞见:通过现有知识,发现了一些知识之间的新关系,于是形成了洞见,如:下雨天,雨伞会卖得更加好。看了天气后,天气应用会根据大量样本用户的历史行为,给出下一步建议:穿什么衣服合适,洗不洗车,要不要防晒...
    • 智慧:智慧是人类基于已有的知识,针对物质世界运动过程中产生的问题根据获得的信息进行分析,对比,演绎找出解决方案的能力。如:提供给用户正需要的产品时,用户会更容易购买,所以在制作新产品时,要先了解目标用户想要解释什么样的问题。
    • 影响力:向外传播智慧,形成了影响力。如:墨迹天气应用,不仅仅提供数据感知,还提供数据分析洞见、行为驱动(告之穿衣、运动、洗车等),影响后来的天气应用设计。

     

    有没有一种方法可以帮我们把数据修炼成影响力?

    答案是有的:人生算法

    人生算法

    由上面的天气例子,可以看出,我们看天气,不是为了仅仅看多少温度、下雨概率,而是要根据温度确决定穿多少衣服、带不带雨伞出门,这里面看数据,所谓的数据,从数据分析的角度,所谓数据,就是以数为据,将数作为决策的依据。

    我在上一篇讲到,有没有一种成功人生的范式可以用于任何行动呢?

    答案是人生算法就是这个范式。人生算法是人生最底层的行动逻辑,它是底层中立、潜在无头脑、结果有保障。如看天气预报的算法应用,自动给出穿衣、带伞、洗车相关建议,无须我们再思考,但是按此建议执行,行动结果有保障。 

    5.如何发挥数据的作用?

    数据是抽象的,光看数据是没什么作用的,但一旦和实体(业务)发生的关系,它的作用就显示出来了,如何和业务发生关系? - 描述业务:数据感知、数据可视化、日常报表

    - 理解业务:数据分析、专题分析

    - 业务决策:数据决策

    - 业务行动:数据驱动 

    基于以上,能基于数据有成果展示的工作一般有:

    - 数据统计 - 数据分析

    - 数据产品

    而数据采集、数据开发是在以上的底层,光数据采集和数据开发而没有输出呈现,是没法直接帮助业务的。

     

    第二部分 数据分析

    数据分析是发挥数据作用的一种方式,从广度来看数据分析包括数据统计、数据挖掘。第一部分讲了数据,这一部分将围绕数据分析展开说明。 

    1.什么是数据分析?

    数据分析是通过数据感知,如数据采集与可视化,

    进行数据认知,所谓的认知是从数据中发现目标与现实之间的差距,找到问题,拆解和量化解决问题的方法,找到达成目标的相关性或因果性因素。

    根据认知给出决策建议:给出达到目标的最佳方案(ROI最高),

    并驱动方案执行的过程(数据驱动)。

     

    然而大多数数据分析都是无用的。因为:

    • 没目标、方向、实施流程,行动复盘导致在各个环节掉链。
    • 在感知-认知环节掉链:堆砌一堆数据,没有转化成对目标和下一步行动上有用的数据,无法形成对决策有用的量化认知。
    • 在认知-决策环节掉链:因数据不足、数据不准、先入为主等分析问题,导致认知缺失、认知偏见,夸大概率,最后不足以形成有效决策或决策错误。 
    • 在决策-行动环节掉链:明知故犯、有数据不依,一直在做低概率成功或ROI比较低的选项,资源分配不合理,或患得患失不行动。如有些人是认知高手,能算出每种选择的预期收益,但是就是无法正确的行动,那认知再高也白搭。理智上决定了的事情,情感上必须要接受,行动上必须要忠诚。
    • 在行动-感知认知掉链:不懂利用数据复盘,屡错不改,不懂提升感知、正确树立目标和策略,不断修正认知概率。 

    2.如何做好数据分析?

    (1)在数据感知层,制定合理的数据指标体系

    什么是合理,要做到业务数据化,就是能正确反应本阶段企业目标与行动的数据指标,除此之外,多一分都是技术过剩。

    制定指标之前,首要明确公司的发展在哪个阶段,如果是以产品为导向,可以先确产品处在哪个生命周期,该阶段的重点目标,就是该阶段数据指标体系建设的方向--北极星指标。 

     

     

    初创期:方向:产品-市场验证(PMF),了解用户的真正需求和市场的规模。 

    关键指标如用户留存率、产品使用率、满意度、净推荐率、产品易使用度性、稳定性 

    成长期: 方向:增长假设验证,测试各渠道的ROI,找到快速增长的渠道和推广方式。 

    关键指标如:增长率、获客成本、ARPU/用户价值、现金流 

    成熟期:方向:精细化运营和商业回报最大化。 

    关键指标如:用户留存、DAU/MAU、收入、净利率,稳定市场份额。 

    衰退期: 方向:维持稳定,削减支出,考虑转型。 

    关键指标如:老产品成本、支出、毛利率、新品流量转化。 

    用回归分析法根据不同的时期的关键指标拆解其主成分子指标: 

    Y = aX1+bX2+cX3

    主成分分析法有些类似OKR目标Object 结果是Y,关键行动结果KRs是自变量X,我们所做的行动x,最终会反映到结果y上,即主要执行好几个主成分X,最后就可以把目标Y实现。

    在业务起步数据量不大的情况:一般由高层执行公司的总目标Y,然后管理层拆分总目标,拿到各个业务线各个产品的小Y,然后提出具体决策来实现Y,数据分析将会用一套数据模型来评估Y,如:Y = aX1+bX2+cX3... 这个就是最简单最实用的数据模型。如为了要提升公众号阅读量Y,实现主要行动有广告推广增加关注量、写好标题增加打开率、写好内容增加转发率... 当然在成熟的业务数据量较大的场景可根据统计学中的主成分分析法找到自变量主成分。 

    阅读量 = 关注量 X 打开率 + 转发率X打开率

    销售额 = 购买客户量 X 客单价 = (客流量 X 转化率) X ∑(单品价格1+单品价格n)

    新产品净价值 = 新产品增加价值-替换成本 =(新产品价值-旧产品价值)-(时间成本+认知成本+金钱成本...)

    有了北极星指标和二级、三级指标后,如何找到行动的方向呢?

    通过维度的拆解,实现业务数据化,让业务和数据产生因果或相关性关联。 

    如:2010年店铺要完成1000万销售额(指标) 

    按时间维度拆分:Q1-Q4各季度的目标是多少 

    按产品维度拆分:各品类的目标是多少 

    按区域维度拆分:各省份的目标是多少 

    通过目标与现状的对比,就知道哪些维度细分指标已完成哪些没完成, 针对问题拟定下一步行动,如未完成的可以通过学习完成的经验,达成目标。

    总结以上建立数据感知的步骤:

    第一步:业务理解,首先对我们企业或产品的发展阶段进行了解,

    第二步:数据理解,根据这个阶段的目标,设定了核心指标(北极星指标)后,

    第三步:数据模型,用回归分析法的思路对核心指标进行拆解成二级、三级指标

    第四步:引入业务上维度,增加指标对业务的可指导性

    通过以上4步实现数据业务化感知。

    (2)通过数据分析找到问题和解决方案

    所谓数据分析是要解决问题的,或者为解决问题提供决策建议。常规的数据分析要解决的问题有:

    1.了解现状,发现问题,定义问题 (现在)

    2.找出问题的原因 (过去)

    3.做预测,给下一步建议 (未来) 


    了解数据分析的目的后,具体的就可以按照各种数据模型、数据分析方法,找到影响目标/问题的核心原因和次要原因,以及可以对症下药,给出下一步决策的重要数据依据了。

    常用的机器学习模型: 

    3.基于数据,给出决策建议方案

    经过数据分析,我们有了关于问题的原因或主要影响因素,基于对应的影响因素或问题,我们就可以给出相关的方案,但如何证明你给的方案是最优方案? 

    (1)能穷举的情况:

    穷举排序法/分组对比法/冒泡算法,找到所有选项,并算上各自的ROI,对比排序后选择最优的方案。

    (2)不能穷举的情况:

    利用合理抽样、二八原则、贪心算法,选择局部最优或最优停止,简单来说,根据当前有限的资源条件下找当前的最优的就好。

    比如如何给建议挑选一个好的西瓜:

    好的西瓜 y= 纹理x1+ 根蒂x2+触感X3+色泽X4+触感X5 这五项变量是可以穷举的,根据业务经验(或大数据分析)第一步判断纹理ROI最高(所需要的分支路判断最短)。

    但一个城市的西瓜没法穷举,但一个小店里的十几个西瓜还是可以穷举的,在可以穷举的的西瓜堆里,多看2家水果店(抽样),货比3家,用评分法选出评分最高的一个就好。 

     

    (摘自周志华老师西瓜书)

    以上情况是依据算法对比的情况,但一般在一开始的时候是大部分人都不会相信我们做的数据的,因为客观情况往往是数据不全,不能体现所有的实际业务细节(无法穷举/遍历事实),这时候就靠人生算法的最小闭环,从小的场景先做好数据应用,证明我们的数据分析给的建议是正确的,结果是有保障的,从而利用光环效应不断影响其他人相信我们的数据是靠谱的。

    或者我们做过业务,了解业务也往往可以推动业务数据化,给出当前局部最优建议。

    4.最后一步,有了数据,如何驱动业务?

    有了数据是没法直接驱动业务的,除非结合前面的数据感知、数据分析、最优决策建议给到决策者或行动者,可以说整个人生算法、数据分析、数据产品都是通过数据来解决业务问题,驱动业务。

    回顾数据驱动的步骤如下:

    (1)定义业务问题--感知 

    (2)量化业务问题--认知

    (3)制定执行方案--决策

    (4)监控过程与结果--行动

    (5)复盘迭代--复盘提升

    例如挑选西瓜,通过对好的西瓜进行定义,再是量化好的西瓜的指标,根据指标进行对西瓜的看、摸、听,最后选出一个西瓜,切出验证自己的结果,得到结果后再加权自己的感知指标和认知(算法模型),下次再挑的时候再根据这个算法模型挑西瓜,通过算法多挑几次西瓜不断优化迭代后,我们选的西瓜都比其它人瞎选的要好,这样在大多数情况下,我们基于数据做的决策的结果都比其他人要好、要靠谱,基于自身与大家的利益考虑,自然他们都会相信我们,从而驱动业务。 

     

    第三部分 数据产品

    上一部分讲到数据分析是发挥数据作用的一种方法,如果把这种方法固定下来,形成定式的解决方案,那这就变成了数据产品了,从数据到数据分析,再到数据产品,这就是本篇的行文逻辑。

    1.什么是数据产品

    数据,以数为据,用数据作为决策的依据。产品,是一个有交换价值的载体。数据产品,是一个能实现数据价值的载体。把数据分析中的采集数据、分析问题、指导行动的流程固定化,形成定式方案也是一种数据产品。

    粗略从是否要人工参与来划分有两种:一种是需要人工干预的,如BI;另一种是不需要人工干预的,如AI。

    2.数据产品有什么用?

    数据产品的作用就是系统性的发挥数据的作用。当我们谈到一个东西有什么用的时候,就是谈这个东西的使用价值,使用价值是和使用场景来说的,所谓场景的内涵包括时间、地点、人物,外延包括问题、机动、心情等。 

    如100块钱对于搞开发的同学来说不到一个键盘的钱,但对于我上初中的时候来说,就是一个月的伙食费。

    比如BI在不同的场景会有不同的解决方案,不能简单的说数据中台就是NB,EXCEL报表就是low,大家遇到的问题、解决问题的成本、时效都是不一样的。

    3.BI类数据产品在企业不同的发展场景下该怎么用?

    目前我在中小公司经历过excel报表、到业务数据库表数据计算(OLTP)、关系型数据仓库(ROLAP)、实时数据仓库等、以及根据参考了解数据湖与数据中台,总得来说,这些都是BI类数据产品,或者说是在不同场景下的解决数据应用的方案。

    以下是在不同场景的数据应用方案:

    人工报表阶段比较好理解,主要是用excel处理报表需求,数据处理、数据分析、数据可视化都可以在excel上解决。现在大部分由线下业务驱动的传统行业公司还处在这个阶段。 

    一旦公司有了线上业务,或者用线上工具辅助线下业务,这时候线上的数据相对好自动化采集,这时候有了数据的土壤就很容易发展出数据仓库。

    无论数据仓库自动化报表也好excel手动报表也好,对于数据的处理流程都是一样的。 

    数据采集--》数据处理--》数据分析建模--》数据报表 

    一旦大伙认可数据报表的结果,这时候我们就可以用定时调度让数据自动走完上面几个流程,自动运转起来。

    常用的相对齐全的数据仓库结构如下:

    数据仓库是由底层基础和上层应用构成的,自从数据量增加,实时、复杂的多维报表的增加数据仓库也会变得复杂起来。

    对内不仅要对数据进行处理,还要对自身的质量、安全进行管理;当然这个也是受数据量和业务驱动的,在公司不同的场景不同的阶段所遇到的数据质量问题和诉求不同,也可以用不同的方案去解决,不要想起一步到位,反正该趟的坑一个不会少。

    如数据仓库的元数据管理也是一步步来的,一开始只要有报表就行了,后面要求数据要准,在数据量大了,慢慢事就多了,通过人管是不行的,于是就做了数据字典、血缘分析、数据地图,从管理上又对业务、技术、人上做了相关的流程规范(SOP),但总的思路都是遇到问题、思考问题、解决问题,数据质量也就一步步迭代优化。

    上面数据仓库的概念和技术比较多,每一个概念都可以在百度谷歌中搜到上万条信息,后期再展开讲。

    数据产品的建设是受业务的需求驱动的,过度过急,会导致技术过剩,大牛拉小车。数据产品从底层到应用因数据量、应用的不同,复杂度也不同,但万变不离其宗,无论AI还是BI,本质上都是为了解决业务问题,或者创造业务价值,此所谓一切业务数据化,一切数据业务化。

    4.关于目前流行的数据中台

    所谓的XX中台,本质都是业务中台,直接为业务服务。中台解决模块高复用,数据统一的问题。有中台的前提是前后台不够用了,才会加一个中台解决,要了解中台,可以先了解一下SOA、微服务,接口服务化。目前我还没数据中台建设的经验,以后有经验了再讲。

    5.常见的数据产品应用

    (1)自动化报表

    所谓BI商业智能,在我理解与实践中大多是商业--业务,智能--报表,从目前来看不存在智能,最多只有自动化报表、业务数据可视化。 

    正因如此数据团队里才会有数据分析师、数据运营的角色来做数据分析和数据驱动。

    (2)标签画像

    所谓画像就是标签的集合,用大数据也可以做,用小数据也可以做,如地理、性别、RMF,没有传说中的神乎其神。数据量多了,可以用一些机器学习的方法做标签分类、动态预测标签、权重、新鲜度等等,核心还是看业务的需要。 

    用户画像的标签建模主要流程如下: 

    (3)广告

    广告有两类:流量广告和转化广告。

    广告中大数据应用主要体现在转化广告,核心是把合适的广告推送给合适的用户,一个想买,一个想卖,自然转化率高。

    转化广告怎么为用户推送广告呢?

    过滤候选:通过用户标签、关键词搜索等选择人群包过滤排序

    排序候选:如腾讯社交广告根据ECPM 根据用户与广告的匹配度、出价

    个性化输出:根据以上输出广告素材,并根据不同的点击率反馈,给广告素材重新优化排序。

    相关知识点有:

    对象:流量主、广告主、用户

    代理中介:为流量主服务的SSP,为广告主服务的DSP,协调两者的ADX

    数据支持:DMP、DSP的人群定向、点击率CTR计算

    计费模式:按流量展示付费CPM/CPD ; 按转化付费CPA/CPC/ECPM/ECPC等,实时竞价RTB

    腾讯广告后台人群选择

    其它数据产品

    能发挥数据价值的产品其实都是数据产品,生活中常见的如缴费单,看了之后可以驱动你去缴费。又或者个性化推荐、AI、智能机器人、智能客服、工业4.0中的智能生产,更多场景可以参考《未来简史》、硅基生命等等。

     

    结尾 关于未来的数据智能的思考

    从人生算法的角度,如果我们像计算机一样用数据、算法去思考整个人生,人是否是可以像如《三体》里面的高级文明中三体文明、歌者文明的人类一样完全理性思考,做到全局最优。

    如果不能,如果我们创造出一个机器人(数据产品),它可以根据客观事实,给出我们每个行动的最佳方案,辅助我们做决策、或者直接帮忙我们干活,但到那时我们是否还会具备自主思考的能力?

    正如现在互联网让大多数人变得浅薄--思考又浅又薄。原先互联网是工具,但是工具后来变成了场景依赖,如智能手机、如未来的智能AI。

    如果机器人的思考能力和执行能力都要比人类优秀(这个才是正经的商业智能),大部分人类是否会被AI所征服变成没用之人?

    那另外的一少部分人呢?

    他们是真正把AI当成工具的人。

    ......

    以上我说的都是主观且片面的,希望你可以主动思考与总结。


    对文章版权如有异议,请添加数澜客服微信号进行申诉:shulan_shouhou

  • 未登录

    回复楼主

    登录后可回复
    /1000