扭曲数据的九种方法数据分析师看起来很快

2020-01-19 15:33 来源:科创网

9种扭曲数据的主要方式,数据分析师看起来很快!

这篇文章总结了九种最常见的扭曲数据的方法,我们应该首先记住这些方法。你很可能会在年终总结、年度计划、活动评估和其他场合遇到他们。提前知道最好是早点处理。

dbbbe62562714636b6fe976f2aa6e192.jpeg

进行数据分析,只能分析数据。

如果数据不真实怎么办?

如果数据被人为扭曲了呢?

如果数据被人为扭曲,你还需要接受吗?

今天我们将讨论这个话题。春节结束前,让我们彻底清除这些坏想法。让我们整理一下心情,告别旧的,迎接新的。

段1:虚假数据

6c447cf03bdf48e2a2649ca73083993f.png

业务方故意制造虚假、虚假或未报告的数据,导致基础数据缺失和频繁出错。这种情况在使用纸张的日子里非常普遍。不过随着数据系统的普及,此问题已经越来越少.

如果仍然有使用纸张的场景,例如用户纸张申请表和问卷,这个问题仍然存在。解决办法也很简单:打包卡!注册会员什么时候还写纸质表格?

段2:人工修改

f32cc3f8ae194f8092a982d13b4c8106.png

见:

b975befa7a7040209158f3d73aa12903.png

系统死了,但人还活着。如果你想解决这个问题,你只能加强检查,检查地狱支付非法操作。这些操作具有很强的规律性,并且与特定人的行为密切相关,这可以通过分析来识别。

段3:修改口径

a6f0a6e45c5d427daac4fc988ad5751b.png

数据不好。我该怎么办?直接改变统计口径!本质上,数据指标是为了便于计算而设计的,用户可以根据自己的意愿进行更改。然而,由于口径的变化,前后数据的不一致是一个大问题。只改统计口径、不改指标名字甚至是一个更大的问题。因此,有可能改变口径。只能根据新口径报告过去的数据。

段4:控制节奏

1d887c9531fd413db06adf26a3c748c9.png

参考:

e3f71e23c0f6448ab642db1bdb12c184.png

注意,与段2不同,段2是欺骗公司的虚假数据,性质恶劣。段威4本质上没有伪造数据,而是使用销售、运营和奖励规则来最大化个人利益。

事实上,任何人都会这么做,这属于业务潜规则。我们常说“水清才有鱼”。你不能要求一个人不要为自己着想。如果你真的死了,第一线的生意肯定会换工作,然后跑掉。

作为数据分析,更多需要具备识别这些特定问题的能力,把它们放在控制在可接受的范围内。如果问题太普遍,那么看看如何在系统层面促进优化和调整(如下图所示)

c1d1000968964c6da3532dc685671e97.png

注意,从这个问题开始,我们将进入中级难度,因为下面的问题将要求个人数据分析师的分析能力越来越高。例如,它需要一些分析和经验来区分哪些是合理的隐藏规则,哪些是恶意的更改。

波段5:随机节奏

2a59370c159d4736b58c785e709adf99.png

在进行数据分析时,你必须经常听到这样的问题:

但是,你努力挖掘了很多数据,发现:没什么错吧?恭喜你,你有一整套随机节奏。商业谈话中的“衰落”、“糟糕”和“不满意”很可能是错误的主张!

bd2eb539b00e494c833764668894bfa9.png

注意,业务方面无意中扭曲了数据判断,许多新的数据分析师将直接介入。很多新人做分析,不是先问是不是,而是直接研究为什么.根据用户群、注册时间、产品类型等,数据被拆开,无法解释。几天后我回来时,我可以看到问题已经不存在了。

b7b71a9ba9574366ba9db52a3205a6a5.png

应对此类问题,切记:

然而,困难在于这三个“首要问题”违背了人类的本能。听风雨是人们最习惯的思维方式,所以这三个看似简单的问题需要大量反复强化的训练才能学会,否则它们往往会被忽略。

第6部分:满意度

4f3c1d934eb74c3cab0b8cc6b50e2004.png

这里的满意度是指那些业务部门高度重视但很难直接用系统记录数据的指标。类似的项目包括满意度、品牌影响力、产品影响力、行业地位、新产品开发计划等。由于缺乏直接记录,蛾会造成什么。在最后一篇文章《拯救猪队友》中,陈先生详细介绍了如何处理这类问题,这是可以回顾的。

Segment 7:自然增长率

d1af97e9c0db4368b8c83ad74576963f.png

最后,如果你想操纵数据,只需不断改变“自然增长率”数据。你能把你换成负数吗(如下图所示)

0628ba539dfe408993e86530cc141ef6.png

处理这种方法的最好方法是忽略他。参加活动实际的人数很容易计算清楚。如果要设定自然增长率,可以商定事先,这样以后就不会多言了。

段8:参考组

65462737825647458a4fa41707eed874.png

参考组和自然增长率是一对他是我的兄弟。人们很容易建立牌坊进行“科学评价”。事实上,他们可以随意改变,从一个地方到另一个地方,直到业务令人满意。如果业务方面想挣扎,他总是说你建立的参考小组不科学,样本是特例,不够随机,不具代表性。

实际上,只要不是全量统计,就永远能扣一个“不科学、不随机、不代表”的帽子(你真的计算了整个数量,他们说:自然增长并不排除,啦啦啦,反正它总是合理的)。

最好的解决方法是不要回应。只要分组方法是事先清楚,什么结果就会被认作什么结果,有什么好吉吉歪的。它有自己的参考组,只能用于有限频道的精确推送。建立一个参考组只是ABtest方法。Abtest本身只是测试工具之一,而不是权威规则。难道没有一个ABtest业务部门没有判断力吗?你的商业能力!你想要什么?多酷,终于可以骂回去了!

第9部分:综合评价

9cde804cfd524df5b2c70f54a86de249.png

评价一个问题,单一指标最清楚。然而,人们更喜欢用综合指标来表现“全面思考”。大量的指标必然会导致权重分配的设计。因此,骚手术来了。如果有人对评估后的结果不满意,他们会打着“这个权重不合理,不能反映实际业务”的旗号,然后强迫你改变它。当然,最终的结果是让人满意,会说你的分析是深入合理的。否则,继续奋斗。

最离谱的是,陈先生还看到企业领导手写了一份分公司排名,然后告诉我:你用大数据人工智能方法综合计算排名,不防漏。明年的合同将与你签订.这个时候你能说什么,当然:好的。签署法案很重要,科学不是屁,不是改变重量,搞得跟研究生院没一样。

应对方法:

1b12dbd7dd084320a000ccff0f27aeb3.png

以上三种方法都是在高层处理数据的方法。高等级是由于自然增长率、参考群体和综合评价本身是数据分析中经常讨论的话题。

许多没有遭受太多痛苦的新数据分析师非常喜欢炮制这些东西,认为它们越复杂,它们就会变得越高。最终的结果是,工作越复杂,就越难阐明业务的含义。商业团体对它的质疑越多,它就越被牵着鼻子走,变成“结果对业务有利就是客观全面,结果对业务不利就是缺少深入分析”乞求麻烦。

相比之下,我们会发现不同的部门使用不同的方法。对于销售、促销和供应链的一线部门来说,数据本身是他们工作的直接产物,所以篡改数据源是最简单的。运营、规划、产品等部门喜欢制定难以量化的指标,喜欢谈论“深远的影响”,喜欢建立一堆“自然增长率”和“参考群体用户”,然后消除他们,篡改的是基于数据的判断

为什么销售、促销和供应链没有受到影响?因为人们面临的问题是扎实的销售收集,推广到人和仓库交货,一个人的头脑非常清楚每一分钱,没有争议。但是当我们一起做一些事情,比如运营、规划和产品,我们总是想突出我们的贡献。然后开始没完没了的拉扯。

如果我们必须比较这两种危害,肯定是篡改数据源更有害。如果数据是假的,那么分析是不可能的。篡改数据源代表了公司混乱的管理和薄弱的渠道控制。有趣的是,总部的所有职能部门都讨厌这种弱点,所以在这个问题上,总部各部门经常处于枪口下。

但是就数据判断而言,通常是乱自上做。总部的运营、产品和规划人员为了自身利益任意改变标准,这对实现真正的数据驱动非常有害。不敢面对事实,用数据粉饰形势。最终的结果是,业务部门本身越来越失去判断能力,回到拍着脑袋做决定、拍着屁股离开的原始状态。这是我们不想看到的。

理想的状态,是数据源真实丰富,数据判断简单清晰,数据分析深入立体。把精力多放在找原因、做预测、测试效果上,这样才能输出更好的成果。

#专栏作家#

禁足陈老师:禁足学校,每个人都是产品经理专栏作家。高级顾问,在互联网、金融、快衰落、零售、耐用、美容等15个行业拥有丰富的数据相关经验。Unsplash的主题地图,基于CC0协议

标签: 段位 数据 问题