这3类人必须理解的两个大数据模型(产品、运营和用研)

作者:媛媛大王(个人公众号:用户研究社)

 

这篇文章我们来谈谈大数据,因为我们是物流集团,所以中间会用到一些大数据在物流行业的应用例子,以京东物流为例谈谈如何通过大数据提升业务指标。

很多同学一听到大数据可能会脑补两个形象:高大上、技术党。但是今天我们说的是比较基础的两个大数据模型,不需要有数据分析和技术背景,或者说其实更多的是为产品、运营、用研、业务的同学们而写的,是我们非技术人员也应该理解的两个大数据模型。

这两个大数据模型来自京东高级总监、京东物流系统负责人李鹏涛,我觉得非常有价值,所以补充了更多的信息后以文字的形式分享给大家。大家对京东并不陌生,但是对京东的物流系统,作为京东的资深用户也不一定清楚。京东的物流系统,叫青龙系统,是最早开发立项的时候刘总给取了这个名。所以青龙系统在京东,就是指物流系统。青龙系统是从2012年开始做1.0版本,到2016年迭代到6.0版本。对京东来讲,物流是核心竞争力。

这篇文章的思路如下:

  1. 先来了解一下大数据的特点;
  2. 说说为什么很多号称正在实施大数据、标榜以大数据作为驱动的企业并不成功;
  3. 重点介绍第一个模型“大数据场景的选择”,和第二个模型“大数据的系统演进”;
  4. 大数据在用户研究上也有了初步的应用,以我们团队的两个项目为例。

 

一、大数据的特点

学习大数据,必须知道大数据比较经典的一个定义,也是大数据的特点,我们可以称之为:4V。

  • Volume
    数据容量大,从TB级别,跃升到PB级别。
  • Variety
    数据类型繁多,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  • Value
    商业价值高,价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
  • Velocity
    处理速度快1秒定律,这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

总结一下就是:海量的数据规模、多样的数据类型、巨大的数据价值、快速的数据流转。对京东物流来讲,每天处理的数据量是上亿的;数据的流转是非常快的;业务相对来说比较复杂(包含了很多结构化和非结构化的数据);从价值的角度来看,京东是一个电商公司,也是一个运营型公司,物流的成本占非常大的比例,如果通过大数据能节省1%的成本,基本上就是上亿的节省。所以可以说,京东确实是在做一个大数据的工作。

 

二、为什么很多号称正在实施大数据、标榜以大数据作为驱动的企业并不成功。

很多号称正在实施大数据、标榜以大数据作为驱动的那些企业并不成功,为什么?

他们在实施大数据时都存在共同的问题,就如前腾讯数据协会会长傅志华所说,有三个最为典型和严重的问题。

问题一:产品部门/运营部门/业务部门没有清晰的大数据需求和规划

很多企业,尤其是传统向互联网转型中的企业,产品部门、运营部门、业务部门都不了解大数据,他们知道大数据是一件阳春白雪的事情,知道这件事该做,但是却因为不了解大数据的应用场景和价值,因此很难提出大数据的准确需求。接着,因为他们提不出清晰的需求,而大数据部门又是非盈利部门,所以企业高层就会担心在大数据中投入的成本过高,从而在搭建大数据部门时犹豫不决或者处于观望尝试的态度,在根本上影响了企业在大数据方向的发展,也阻碍了企业积累和挖掘自身的数据资产,甚至由于数据没有应用场景,删除很多有价值历史数据,导致企业数据资产流失。因此,让更多的产品、运营、业务部门了解大数据的价值,与大数据从业者一起,推动和分享大数据应用场景。

问题二:企业内部数据碎片化严重、数据仓库基础建设混乱。企业启动大数据最重要的挑战是数据的碎片化。

在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致企业内部自己的数据都没法打通。或者在前期运营推广时为了完成KPI,导致脏数据、假数据过多,数据质量完全没法保障。如果不打通这些数据、保障这些数据的基础质量,大数据的价值则非常难挖掘。大数据需要不同数据的关联和整合才能更好的发挥理解客户和理解业务的优势。如何将不同部门的数据打通,并且实现技术和工具共享,才能更好的发挥企业大数据的价值。

问题三:组织架构上未能有效支撑大数据实施。

很多企业或机构在实施大数据的时候,只是简单的建立大数据技术部门,仅从技术、算法角度考虑,或者再添加个“数据产品经理”。而高管团队中却没有专人负责制定大数据战略、跟进、监控和指导大数据战略的实施,也就是没有CDO(首席数据官),则很难把数据分析和数据挖掘所发现的机会应用于企业战略层的业务发展决策以及相应的组织层面的变革。这些企业往往不能科学的考虑大数据团队内部应该招聘和培养哪些方面的人才。同时,更不会考虑不同大数据团队和业务部门如何更好的协同作战、或者协同做出的产品经常被忽视,导致大数据不能充分有效的在业务场景的中落地。

上面说到的很多企业不了解大数据的应用场景和价值,因此很难提出大数据的准确需求,那么今天的第一个模型就是给大家介绍建立大数据使用场景时的区分维度。

 

三、第1个模型:大数据场景的选择

大数据规划首先是应用场景的规划,企业需要确定不同业务投入大数据的优先级,确定大数据的切入点。企业需要优先考虑业务的哪些方面投入大数据可以为企业提升绩效。在企业中,大数据应用场景包括业务运营监控、用户洞察与用户体验优化、精细化运营和营销、业务市场传播、经营分析等常见的方面。

应用场景的规划对于研发、产品、运营都是非常重要的,它是开始做大数据的起点。首先要分析清楚的是你的业务适用于那种场景,在规划应用场景时,可以按照两维(应用场景的实时性和一致性)划分成四种组合,分别对应于四类业务应用场景。

一个维度是对数据实时性的要求,比如你的业务是秒计的还是离线的?是24小时以后拿到结果也是没问题的、还是说业务发生后就要立即拿到结果?

另外一个维度是一致性,比如对生产的数据到底是什么要求,是要100%一致,还是说可以不那么一致?

可能看到这张图,产品和运营人员会说:我们肯定是要求完全实时性的、100%一致性的!但是如果你非常了解你的业务的话,心里一定是清楚其实不是这样的。在非常大的数据量下,要做到实时性和一致性的话,代价是非常大的。换句话说,你的ROI(投资回报率)是不是够高?

  1. 举例1:以数据报表举例,其实报表很多是离线的,可能是24小时之前的数据,或者甚至是一周前的数据,也就是只要求数据是准确就可以了,对一致性的要求很高、但是对实时性的要求并不高。
  2. 举例2:做一些传统的总结时,一些总结型数据对一致性的要求也不是非常高,只需要能展示一个数据变化的趋势就可以了,当然对实时性的要求也不会高。
  3. 举例3:和金融相关的一些业务对一致性要求是比较高的,和财务相关的大数据信息如果丢失的话就会出大问题,但是这些财务的大数据也并不是按秒来算的实时性数据。
  4. 举例4:订单的跟踪对实时性的要求很高,实时性做不好的话就会出现应该通知收货了但是过了几个小时才知道消息,这样对用户体验的影响太大。

所以作为产品和运营人员,如果能把场景划分清楚,对研发人员是非常有帮助的,因为针对不同场景有对应的解决方法,研发人员可以用最经济的方法去解决你的问题并且解决的也会比较好。现在关于大数据处理,包括数据的采集和传输、存储、计算、展示,都有一些成熟的技术和开源的技术。如果把你的场景能够界定清楚,选择一个合适的技术应该是比较容易的。

 

四、第2个模型:大数据的系统演进

首先,通过大数据提升业务指标需要两个基础,一是系统的线上化、二是能够拿到可靠的数据。

然后,在此基础上我们再来看怎么利用大数据提升业务,可以做四件事。

第一步:通过大数据准确、及时的还原业务,做好业务展示

图形化的展示是非常重要的,一图胜千言。业务的展示至少有两种维度,一种是时间维度,即实时展示业务的节点、业务的生产情况、节点之间的差异;另一种是地理维度,如京东有派送员包裹轨迹的展示。如果在移动端能够做到很好的业务展示,对业务方就会有很大的帮助,因为很多管理人员并不是在电脑前做管理,现在特别强调的是现场管理,打开APP看到实时的情况,会起到非常好的作用。如果通过不同维度角度把业务的主要环节展示出来,让管理人员非常方便的看到业务的实际运作情况,就能够提高他的现场管理能力。

第二步:通过大数据来评估业务
  1. 举例1:以业务的日报、周报和月报举例,在没有大数据之前也是非常重要的。现在企业如果发展了体系非常大的业务 ,没有大数据技术做支撑的话,要去从多个维度来分析报表就变得非常困难。
  2. 举例2:像物流、电商、零售等劳动密集型的行业,做排行榜是对业务非常有帮助的,现场的管理人员非常关注排行榜,因为一般现场的业务都是KPI驱动,如果能够通过大数据实时的做一些排行榜,例如做各个机构、各个片区、各个站点的排行,那么管理者就可以用管理手段去做提升。京东的各级领导也非常关注排行榜,如果能做到非常实时的排行,对现场的激励作用是非常明显的。
  3. 举例3:现在很大企业都能够拿到同行的数据或者是行业内的标杆数据,我们通过数据分析能看到业务的哪些指标在同行中处于领先或是弱势的地位,从而就能有针对性的提升。
  4. 举例4:互联网应用现在都可以做灰度版本,选择不同的区域来做验证,采集到数据后进行评估来看优化是否确实有效。
第三步:通过大数据来做预测

大家都知道预测是大数据的核心,大数据现在很多的相关性分析,对我们的结果有很大的预测作用。

举例:对于双11来讲,如果能提前知道订单量的话,那么对现场的管理和资源的调度是非常有意义的。京东对时效的考核非常严,如果没有办法对业务做预测的话,就只能按峰值来做准备,会造成非常大的浪费。现在可以通过大数据比较好的对订单量有一个预测,并提前通知分拣中心、车队、站点,如预测未来2小时的订单量是多少,那么他们就可以做资源的准备,帮助非常大。

从预测方法来讲,传统的方法是建模,用一个好的模型可以帮你实现预测;现在以大数据为基础的深度学习技术的发展,也能帮你做预测,目前机器学习、深度学习特别火的原因就是能够做出准确度特别高的预测。

第四步:通过大数据来做决策

最后,能不能在预测的基础之上,利用大数据来直接帮助做决策呢?先举个阿尔法狗的例子,阿尔法狗以大数据做基础的算法取得了围棋的胜利。但是目前来看,围棋相对于业务来说还是简单的。那是不是大数据在业务决策方面就没有办法呢?现在认为比较好的一个方法是利用大数据给人工决策提供一些辅助的手段,让人工的决策能够做的更加合理。

举例:京东需要建设非常多的配送站,如何决定在哪里建设配送站呢?如果没有大数据系统的支持,让人来做就只能根据自己的经验决定,当业务体量比较小的时候是没问题的,体量比较大的话就存在很大的风险。

 

五、最后,我们回到用户研究

大数据在用户研究上也有了初步的应用,比如我们利用大数据方式进行产品测试,通过网络爬虫获取用户在各大电商平台的评价和反馈进行热点与情感分析。这种与大数据的结合可以用做竞品分析、也可以配合产品迭代后的市场验收。再比如我们通过大数据获取用户(货车司机)相关的舆情信息,并对某段时间的信息来源进行跟踪,跟踪具体内容包括:信息渠道、地域分布、信息发布者分布等。

下图是我们通过大数据做的行车记录仪竞品分析。

下图我们通过大数据做的用户舆情分析

不可否认,大数据将为用户研究带来极大的研究效率提升。虽然面临着很多挑战,比如数据采集不全面、数据质量问题、数据处理和分析技术问题,但是随着大数据相关技术的发展和成熟,我们相信利用大数据能更好的洞察市场和洞察用户。

本文由“用户研究社”独立撰稿人媛媛大王授权发布在UXRen社区。

头图素材来源:http://timoelliott.com

 

 


推荐阅读

谷歌联合创始人Avinash:如何用数据分析驱动商业增长
电商平台应该分析哪些数据?具体怎么去分析?
Facebook数据分析师:通过数据分析驱动用户增长
如何用数据驱动产品和运营
腾讯前数据总监:移动互联网应用分析指标

2 条回复

  1. 头像 dasda说道:

    safsafdsdfasfsaf

  2. 头像 匿名说道:

    mBZE

dasda进行回复 取消回复

您的电子邮箱地址不会被公开。