互联网大厂分析岗面试宝书精益分析——Lean Analytics案例分析

互联网大厂分析岗面试宝书精益分析——Lean Analytics案例分析

无论你是一个初创公司的创始人,还是想从内部引发变革的成员,最大的挑战莫过于创造出人们真正想要的产品。精益分析(Lean Analytics)可以引导你朝着正确的方向前进。它背后的核心理念是:通过了解你的业务类型和所处的阶段,你可以跟踪和优化当前业务的最重要指标。现在,Lean Analytics已被众多企业应用,帮助公司通过数据判断最佳产品和定位,让公司更快更好地发展。

本文将以《Lean Analytics》这本书为基础,介绍以下几点内容:如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据分析新工具MindsDB–用SQL预测用户流失
DS数据科学家和DA数据分析师:要学习什么不同内容?
数据分析师需要知道的10个Excel函数
数据分析如何在Fintech中发挥作用?

  • 精益分析的概念和目的
  • 如何定义精益分析的关键指标
  • 如何在不同商业模式中运用精益分析
  • 如何实际应用精益分析

首先,我们来看一下传统方法,比如瀑布式方法,在开发人员很清楚自己的问题和解决方案是什么的情况下,很适合传统式的软件开发,。举个例子,我们需要打造一个数据库,会需要一些数据,需要知道怎么去访问SQL,接下来还需要一个数据管理系统,我们需要很清楚整个流程,清楚问题和解决方案是什么,只需要按瀑布的流程一步步走下来就可以。

随着大数据时代来临,互联网的信息越来越多,要开发的东西也大多是面向互联网企业,而不是传统的软件行业,所以强调的是敏捷的开发方式。比如,你要开发一个电商的网站,你知道用户需要什么,卖什么商品给用户,帮助卖家完成销售的过程,但具体应该怎么做呢?你可能并不太了解这个解决方案是什么。首先你会涉及到一些大数据的处理,用到一些机器学习的方法和模型,还会需要分析客户,分析客户的成长。所以,虽说很多时候你清楚问题是什么,但并不像传统的数据库,每个问题的解决方案都不太一样。

精益分析这个方法主要针对你不了解内容,这也是最关键的,它适合比较新的商业模式,没有前人的经验可以借鉴。

精益分析和敏捷一样,也是有一个迭代的过程的,可以参考图片中的大概流程:提出想法—初步实现—生产产品—衡量—收集到数据—学习—实现想法。但是在实际操作中,很多人都会忽视这样的流程,这也是《Lean Analytics》这本书的作者想要强调的内容。

很多人愿意把自己的假想认为是对的,是最好的,这就不免有一些自欺欺人的感觉,然后再很快的去将自己的想法进行实现,这时候我们发现,可能一开始方向就错了,所以做得越快,错的越多。如果没有一个很好的衡量标准,那么得出的数据也没有太大意义,导致最终无法实现自己的想法。

我们的想法是一直在改变的,很多新公司一开始不太清楚需要做什么,如上图所示,很多公司的现有业务都不是他们一开始想做的,比如Hotmail,原本是计划做database的,而不是Email,而且Hotmail也一直在创新。

再比如大家非常熟悉的Wikipedia,在一些概念性、科学性、历史性等方面,它有一些很明确的解释和词条,但一开始时,他们只是想让一些专家去写内容,控制这个系统的质量,但是到了一定的阶段之后,碰到了瓶颈,局限性太大了,所以开始允许一些有一定专业知识也愿意去分享的人来做这件事情。Twitter一开始是做广播电台的一家公司,后来也是在发展过程中开始创新,做出改变和转型。

通过以上例子,我们可以发现精益分析是非常重要的,可以帮助公司及时找出问题和痛点,发现新的机会并做出改变。

分析可以帮到我们,要针对我们的商业目标去衡量我们的举措。比如,一个新的网站需要很多新用户,这个时候最简单的办法是去线下发传单,还可以投放广告,可以分析不同的广告渠道的转化率和留存率,每个客户的生命周期,最终这个分析所产生的结果都可以让公司去优化自己的产品,使得自己的产品更符合市场上大多数用户的需求。

首先从不同的维度、角度、和方向找到最合理的指标;最后得出一个非常准确合理的指标。当你宣传你的新兴公司时,你怎么定义指标才是合理的呢?这个例子中,不太合理的指标可能是有哪些宣传渠道,分别花了多少钱。因为你并不能衡量哪个渠道对增加用户基础是有效的,你可能知道在A渠道花了很多钱,但是可能效果并不好。所以在这里,最简单的就是看转化率,比如你投了1块钱或100块钱,有多少顾客会打开你的广告,或到网站上使用。

当然这个是相对抽象的问题,怎么才算是一个好的指标呢。A good metric是非常重要的一节课,当然大家可能觉得这几点都非常常见,但是在日常工作中往往很容易忽视。

  • 第一个是可理解性。它非常重要,尤其是对于跨部门团队的合作,如果你的指标没有清晰的定义,或者让别的部门很难理解,那你就得不得不疯狂地去解释这个指标。所以,如果你的东西很难理解,那它就不具有实现性,没有机会去实践它,或者是把它应用到生产上。
  • 第二个是要有可比性。比如有投放广告的宣传渠道A、B、C,你的指标不能只适用部分渠道。或者你的指标对A、B、C是一个定义,对C、D、E是一个定义,对F、G又是一个定义,那么不同的定义的指标就没有可比性。无法比较出这些渠道中哪些是最有价值的,在这种情况下,指标要做到合理性。
  • 第三是比例。比例可以告诉我们每一块钱能够给我们带来多少顾客,它更有意义,而且有比较性。所以有些时候不能衡量总数,比如不能看哪个渠道投入最多。
  • 最后一点是可以让行为发现改变。指标是有指导性建议的。比如前面那些不同的宣传渠道,如果知道它的转换率是多少,就可以知道这些宣传渠道中A的转换率是最高的,就可能在A这个渠道投入更多的钱,在B和C中少投入一些钱。

以上这些是你可以做出改变的行为,指导一些改进,让广告的投放更有效率。但是,有些指标可能没有那么直观地改变你的行为,比如最近的销售额,过去三个月里整个网站的销售额是多少,逐步增加、逐步降低或者有波动。如果是看销售额总数,只能看到波动曲线,除此之外,你可能没有更多的了解。如果销售量有波动或者增加、降低,我们能做什么去增加销售量减少成本?所以这也不是一个好的指标,因为它没有办法给你一个指导性的建议让你去改变你的行为,改善你的业绩。

比如购物网站的顾客情况,有些用户在90天购买超过1次的情况有1-15%的占比,有15-30%和大于30%的,可以看出这是一个很好的指标。这是用户生命周期几个不同的阶段,用户90天内购买1次的比例比较低,他可能是刚刚建立联系的新客户,还在Acquisition的阶段。15-30%是Hybrid,可能是来了一段时间但是还没有那么忠诚,超过30%是忠诚的客户。

1-15%的Acquisition是1年就买过1次,Hybrid可能1年买2-2.5次,Loyalty是每年购买次数超过2.5,基本上把顾客也进行了分级。

如上图所示,70%的零售商大部分都是拥有大量新顾客,顾客买的次数很少。一般来说零售行业也是一个长尾效应,少部分比较厉害的在线营销商可能会占据很大份额,剩下很多很小的企业瓜分了剩下的份额。如果你的顾客每年购买次数比较多,回购率比较高,达到了15-30%,那你可能会和20%的经销商类似。剩下10%就是比较厉害的经销商,他们的用户留存率很高,从这些指标中可以看出处于这个行业什么位次。

这有一些指导性建议,比如你是一个比较小的零售商,用户的忠诚度也不高,这个时候,你可能就需要降低获客的成本。因为你的客户大部分都是新来的,如果你想要增加销售额,就必须不断获取新的客流,降低获客成本,因为你的销售都依赖于新的顾客,每来一个新客户你就要付市场营销的成本。如果要保证有一个比较好的购买情况,比如一个客户购买很多东西,或者是买一些单价比较高的东西,即使你来了一个新客,需要付获取客户的成本,但是还是有很大价值的。

如果你到了下一个阶段,顾客有一定忠诚度,每个人购买2-3件东西,这个时候需要提升这些顾客的忠诚度。他们愿意回头来买我们网站的东西,说明他对我们的网站和产品是感兴趣的,那么怎样增加他们的回头率,想办法提升用户购买东西的频次呢?无论是新用户还是有一定忠诚度的客户达到一定规模后,都可以考虑整个市场的占有率或份额,这个可能是我们关心的点。

如果你有很多忠诚的顾客,要考虑的又不一样,如果已经有了相当一批忠于你网站或商品的粉丝,怎么提升或保持住他们的忠诚度呢。因为你好不容易培养出这个用户群体,不希望轻易地让他们流失。

所以,保证他们忠诚度,当然还要考虑到选品,商品的多样性,因为一旦你的顾客达到一定忠诚度,说明他对你网站上的信赖度是很高的。不论是支付安全,品质都比较高,这个时候你就可以扩大商品销售的范围,进行更多的向上销售(cross-sell)交叉销售(up-sell),这样也可以增加利润。

用户画像、用户群体的分析、或者不同用户生命周期的分析,在这本书也提到怎么做数据的切分、做AB test或对数据分析、用户群体分析中常见的概念等等。

上图有不同颜色的层,每一层代表一类顾客,叫Cohort。Cohort是沿着时间线对相似群体进行比较,一个Cohort就是一类人。同样以电商网站来举例,从上至下第二层就是时尚的白领,通常他们有自己特定的消费行为,第一层是年长的级别的,下面其他颜色可能是其他学生或年龄较小的小朋友,他们的消费行为也不太一样。

这里还提到了Segment,用于分析某一个特定时间点的指数,比如某个时间点竖向切分,就会看到不同用户的分层,有学生、白领、老人。Cohort关注的是随着时间的发展一群人在同一个分层他们的行为变化,和Cohort的关注点不同,Segment是说在某个特定的时间点不同分层的人他们的行为有什么变化或者不同。

接着是AB Testing,对一个电商网站来说,如果页面或商品的排序发生了变化,对用户的转换率、购买率会产生影响。AB Testing就是尽量抛开其他一些外界因素的干扰,关注改变这个因素会不会影响用户的行为以及公司的业绩。

也可以做多变量分析,对于一般的AB Testing一次就改变一种因素,但是对于大型数据网站,不可能运行几周就等一个结果,可能同时会在线上分不同的组做AB Testing实验。每个实验都有自己控制条件,但是如果多个实验都在同一时间进行,实验和实验之间可能会相互干扰。对于大型公司来说,需要考虑清楚同一时间做很多不同的AB Testing,怎么确保这些实验相互之间不会干扰,我们是有机制可以做多维的实验。

前面也提到了Cohort分析,只看销售额是不够的。比如每个顾客在这家公司的消费情况,1-5月份都比较稳定,但是分析Cohort,就会发现5组的人完全不一样,每个不同的Cohort花费的钱都不一样。同样的数据在不同层的细分下,得出来的结论就会完全不一样。所以在分析时,需要从不同的维度分析,对数据进行聚合,同样做数据仓库时也会使用数据透视表做相同的分析。

指标中有lagging和leading。有些指标没有指导意义,比如销售的历史数据是已经完成的,主要是解释过去发生了什么。leading是更好的指标,比如像机器学习等一些预测模型,除了历史数据以外,还能根据历史数据找到规律或模式预测未来,使用今天的数据预测未来可以让企业的发展如虎添翼。在一定程度上,如果知道将来会发生什么事情,会有一个更好的应对策略。一般来说,leading的KPI比较难做,但是对公司来说会更有价值。

在KPI分析时,常见的疑惑之处是相关性(Correlated)和因果分析(Causal)。相关性是指,在做数据分析时分析两个变量之间是否correlated。

我们经常会看两个变量之间是不是Correlated,Correlated是指两个因素有相关性,但如果是依赖于其他发生而发生的,那么这两个因素之间并没有决定性的因果关系。比如说,夏天吃冰淇淋和发生溺亡事故的比例都在增加,所以这两个因素是正向相关的;但能否说有些人吃了冰淇淋之后就会溺水呢?这肯定是不合理的,因为两者之间没有因果关系。

相反,他们的因果关系是什么呢?到了夏天大家就更容易去买冰淇淋吃,也更容易去户外游泳,所以更容易发生溺水事故,所以我们可以认为——夏季和冰淇淋数量的增加是因果关系;或者夏季和溺水是因果关系。我们在平时分析的时候,要清楚分析两者是相关还是因果关系,如果只是相关的话有时并不能说明什么,但是如果能找到因果关系就很重要。

leading指标可以预测未来,如果还可以带有因果关系,那这种metrics的话就是非常有价值的,leading可以在一定程度上告诉我们未来会发生什么,因果关系是可以帮助我们做一些决策。

让我们也了解一下metrics的不同阶段。

  • 第一个就是同理心(empathy),是比较初级阶段的;
  • 第二个是让用户有粘性,就是要想到除了解决用户目前的需求以外,怎样还能让用户持续地使用服务和购买产品;
  • 第三个是病毒式的营销和传播,比如说一个东西用户用了之后感觉特别好,他不仅自己用的很愉快,还愿意分享朋友,或者就是如果分享给其他人会有一定的奖励诸如此类的,这样口口相传会更容易增加用户;
  • 接下来用户的习惯和用户的群体已经培养出来了,业务和服务的产品的特性也越来越多,自然而然就会进入自然增长的阶段;最后的阶段中,业务是可持续发展的,而且比较容易扩展。

《Lean Analytics》这本书也会讨论6个商业模型。包括E-Com、SaaS、Mobile、2-Sides、Media、UCG。

简单拿E-commerce为例。首先在一开始的阶段一般比较简单,可能有一些采访、调查、或者是interview让用户打分,这样比较容易知道市场上现在需要什么样的E-commerce website,这在不同的业务上启动都差不太多,都是比较原始的方法就可以了。

对E-commerce来说,让用户有一些粘性就要专注在顾客的忠诚度和转换率上面,再往后如果想要达到病毒式的传播,就要分享这个网站上有哪些好玩的或者是有趣的东西可以购买,像现在有一些拼团、砍价这种某种程度上也是病毒式的传播,也是希望通过这些方式来让更多的用户来使用电商的平台。后面到达了一些稳定的阶段,也就是到达了一定的规模、可以产生足够的营业额、或是达到了一定的利润之后,可能更多考虑的是交易方面的指标。

最后来总结一下精益分析的流程,在一开始,我们可以选择出指标;通过这些指标,找到能够改进的地方;如果没有数据,那就要进行一些猜测,如果有数据支持,就要找到一些共性来做一个假设;有了假设之后,我们可以在产品化中做一些改变,或是设计一个测试(如AB testing);接下来就可以衡量结果,来看我们是否成功了,如果成功了,就可以如此循环,如果没有成功可以再有一些迭代的过程进行一些尝试。基本上就是这样往复循环的过程。

以上就是本文的全部内容,感谢你的阅读!精益分析可以被应用在不同的商业模式中,让我们一起探讨研究。精益分析系列读书会正在进行中,欢迎扫描文章下方二维码免费参与!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

Recap 作者:数据应用学院
美工编辑:过儿
校对审稿:佟佟
公开课回放链接:https://www.youtube.com/watch?v=FukXbd7ECqQ&t=338s