数据驱动:从方法到实践
2018年电子工业出版社出版的图书
《数据驱动:从方法到实践》是2018年3月1日电子工业出版社出版的图书,作者是桑文锋。
编辑推荐
Alistair Croll、宋星、曹政、车品觉、王淮、吕厚昌等业界大咖联合力荐!
本书以四大行业实践谈数据驱动如何交付业务价值,破解企业数据驱动实践中面临的困惑、幻想与失望,传递真正数据驱动价值!
内容提要
《数据驱动:从方法到实践》是从理论到实践的全面且细致的企业数据驱动指南,从作者的百度大数据工作说起,完整还原其从零到一构建百度用户行为大数据处理平台经历。详解大数据本质、理念与现状,围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何将数据驱动方案落地,并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。最后通过互联网金融、电子商务、企业服务、零售四大行业实践,从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值,全面展示大数据在各领域内的应用情况与趋势展望。
《数据驱动:从方法到实践》贴近企业真实场景,兼具权威性与前瞻性,是广泛适用的普及读物,适合对大数据、数据驱动感兴趣的企业高管、决策者、创业者、IT人员、营销人员、产品经理、相关专业的学生等。
作者以实际经验指导初创公司迅速搭建数据分析平台,减少时间投入,少走弯路
目录
第1章 从百度大数据工作的经历说开 / 1
百度数据板块:网页数据和用户行为数据 / 3
搜索引擎发展 / 4
用户行为分析践行:百度知道的回答量提升 7.5% / 5
从零到一构建百度大数据分析平台 / 6
数据源与 Event 模型的重要性 / 9
大数据是屠龙术 / 10
第2章 大数据思维与数据驱动 / 11
大数据的概念 / 14
大数据之“大” / 14
大数据之“全” / 15
大数据之“细” / 16
大数据之“时” / 16
大数据的本质 / 17
数据驱动理念与现状 / 20
数据驱动的价值 / 20
企业内部数据驱动现状 / 21
理想的数据驱动 —— “流” / 23
大数据时代到来的条件 / 24
数据采集能力增强 / 25
数据处理能力增强 / 26
数据意识的提升 / 27
第3章 数据驱动的环节 / 29
数据采集与埋点 / 32
数据采集的现状 / 32
数据采集遵循法则 / 34
科学的数据采集和埋点方式 / 36
数据的准确性 / 40
数据建模 / 44
数据模型与建模 / 44
多维数据模型 / 46
多维事件模型 / 49
多维事件模型的探索经历 / 52
数据分析方法 / 55
行为事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
点击分析 / 67
用户路径 / 73
用户分群 / 75
属性分析 / 80
指标体系构建 / 82
第一关键指标法 / 82
海盗指标法 / 86
第4章 数据驱动产品和运营决策 / 89
数据驱动运营监控 / 91
用户获取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引荐(Referral) / 99
营收(Revenue) / 101
数据驱动产品改进和体验优化 / 102
数据驱动商业决策 / 104
数据驱动落地企业,要从管理者做起 / 106
数据驱动商业决策的价值 / 108
第5章 数据驱动产品智能 / 109
数据平台及用户智能 / 114
如何计算热门榜单 / 114
客服系统中的行为数据 / 114
为什么需要数据平台 / 115
数据平台提供的能力 / 116
数据应用与用户智能 / 119
基于用户行为数据的用户智能应用 / 119
用户智能分类:基于规则与机器学习 / 123
用户智能应用——用户画像 / 132
两种用户画像:User Persona与User Profile / 132
用户画像(User Profile)标签体系的建立 / 135
用户智能应用——个性化推荐 / 139
个性化推荐的概念 / 139
架构实现 / 140
数据流 / 142
业务分析与模型选择 / 143
实验与迭代 / 144
第6章 各行业实践数据分析全过程 / 147
互联网金融数据驱动实践 / 149
实践案例 / 150
企业服务数据驱动实践 / 158
数据驱动能够为企业服务做什么 / 159
面临的挑战 / 160
数据应用的阶段 / 161
实践案例 / 168
零售行业数据驱动实践 / 175
实践案例 / 176
电子商务数据驱动实践 / 186
打破企业发展经营困局:从粗放式到精细化 / 186
电商企业数据驱动瓶颈 / 187
实践案例 / 187
写在最后的话 / 197
精彩节摘
企业内部数据驱动现状
数据固然能够帮助我们看透笼罩在创造新业务和产品周围的不确定性阴霾,不可否认,这对于一些初创企业有一定困难:一个创业公司创始人无法拿到更多的数据,他需要凭直觉来决策“做一款什么样的产品”。但是要让这个阶段尽量缩短,更可控一些,以更少的代价获得一个验证的效果。
当一家企业的产品已开始被市场接纳,而在实际工作中,企业在实现数据驱动的道路上,依旧困难重重。以下是创业公司实现数据驱动道路上的常见场景。
场景1:排队等待工程师跑数据
如图 2-6 所示,企业老板、运营、产品、市场等各部门都要通过数据工程师老王获取数据,整个流程包括沟通需求 → 分析数据源 → 升级数据采集系统 → 开发程序 → 提供结果等,老王忙得痛不欲生。当然,数据需求方都对数据获取的速度很不满意,有的人等不及,还是决定拍脑袋,最终导致产品迭代效率低下。
场景2:仪表盘只能看到宏观数据
如图2-7所示,仪表盘能够帮助各个团队负责人看到宏观数据,如销售额、用户数等,这在一定程度上帮助管理者做出科学决策。然而宏观的数据价值有限,这令执行者苦恼不已。比如昨天活跃用户数暴跌 20%,是什么原因?宏观的数据这时显然丧失价值,我们需要进行深入、精细化的分析,如按照渠道、地域等维度对数据进行分解,判断某渠道或某地域是否有大的波动,进行多维度、细粒度的下钻分析,才能快速定位问题,从而有的放矢地解决问题。
场景3:无法跨越数据孤岛的藩篱
如图2-8所示,企业内部的数据孤岛现象是普遍存在的,特别对一些集团化的企业孤岛效应更是明显。做大数据分析需要与不同部门沟通协调,获得审批权限,等待数据审批完成后才能统计数据,周期较长。并且,这些数据可能因为没有统一ID而无法打通。从企业自身数据的价值角度来说,应消除部门间的数据孤岛,让数据协作更好完成。
理想的数据驱动 —— “流”
上述三个场景是典型的“需求驱动”,即根据需求去找数据。业务方提出数据需求,工程师满足需求,加上排队等待,整个效率非常低,完成一个需求都要几天甚至几周的时间。那么,理想的数据驱动应该是怎样的?
我们应该反向思考这一问题,先把数据源整好,在这个基础上提供强大的分析平台,让业务需求提出者能够自助式(Self-Service)地完成数据分析需求,从串行变成并行,完成需求从几天时间缩短到几分钟甚至几秒钟,这才是理想中的数据驱动,如图2-9所示。
我从 2008 年开始专职从事数据方面的工作,到了 2012 年才慢慢想清楚——数据处理归根到底就是一条“流”。按照数据的流向,可以把数据处理分成5个阶段,如图2-10所示。
在这个过程中,每个业务人员和数据之间都需要有一个强大的工具,将数据规范化,处理数据模型。通过这个强大的分析工具,让这些业务人员在数据分析平台上自助式地完成自己的分析需求,如图2-11所示。
从 2012 年到 2015 年 4 月,我们都是在围绕这条“流”工作。不管是推进公司的日志采集结构化,还是提供更强大的查询引擎,我们都在尝试如何把这条“流”建设得更好。创业以来,我接触的企业超过 200 家,既有互联网创业公司,又有大的传统集团,这让我更加确信了这套思路的可行性 —— 不同行业、不同企业的业务千差万别,但在数据处理这件事上,或多或少都遵循“流”的思想。
作者简介
桑文锋,神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,在百度任职8年,从无到有构建了百度用户日志大数据平台,覆盖数据收集、传输、元数据管理、作业流调度、海量数据查询引擎及数据可视化等。历任软件工程师、高级软件工程师、项目经理、高级项目经理、技术经理,2015年4月离职创建神策数据,针对企业客户推出用户行为分析产品——神策分析,帮助企业实现数据驱动。2017年7月,桑文锋荣获第六届中国财经峰会“2017最佳青年榜样”荣誉。
此外,神策数据联合创始人兼CTO曹犟,神策数据联合创始人兼首席架构师付力力,神策数据资深算法工程师邹雨晗,神策数据架构师房东雨,神策数据算法工程师韩越,神策数据数据分析总监陈新祥,神策数据用户行为洞察研究院负责人张乔,以及神策数据分析师高娜、薛创宇、李金霞、朱静芸均参与了此书的写作。
媒体评论
文锋分享了他在商业数据的真知灼见,不盲目舶来,他明确地知道哪些理论在国内是行不通的,并传递出更本土化的理论。本书的结构和内容都经过了反复打磨,无论是从技术严谨性,还是从内容的实用性上看,都堪称互联网商业数据的可贵佳作。
——宋星,互联网数据官创始人、网站分析在中国创始人
数据的价值在哪里?作者根据其丰富的百度经历以及与众多客户深度碰撞后的思考,从方法论的高度全链路定义了数据采集、数据建模、数据分析与指标四大关键环节,并以实践诠释了如何用数据驱动决策、产品和业务,值得读者细细品味。
——赵军科,百联大数据总监
得益于文锋深厚的技术背景和丰富的实践经验,这本书清晰剖析了从采集、建模到分析运用的数据驱动全链条,值得每个数据人阅读。
——赵祺,今日头条增长团队负责人,前车来了联席CEO
在不远的将来,不管你处在什么行业什么职位,数据分析都是你不得不具备的一种能力。本书提供给你一个极好的知识储备的机会,它有三点非常值得推荐:第一,浅显易懂地表达大数据的底层技术,让你能够明白数据怎么产生,怎么加工,怎么存储和运算;第二,抛开了晦涩难懂的各种模型和算法,将最普适的数据洞察和分析的方法呈现给你,让你能迅速具备“阅读数据”的能力;第三,清晰地将电商、互联网金融、零售、SaaS软件等行业鲜活的数据应用案例呈现给你,让你加深对数据应用的理解。
——胡晨川,《数据化运营速成手册》一书作者,饿了么数据专家
文锋在百度的经历积累了大量本土化的业务实战经验,这本书浓缩了他近十来年宝贵经验的精华,一如神策分析的诞生,对于整个行业来说都是值得欣喜的事情。神策数据快速武装企业的数据部门,快速积累数据,并让所有在践行数据驱动业务增长的企业,都可以快速上路,让数据驱动最终成为每个公司的“标配”。
——刘晨,纷享销客联合创始人,数据中心总经理
随着大数据和智能时代的来临,数据驱动必然会变成人人都要具备的能力。本书里面的每条经验,都是一场场实战打出来的。与很多纸上谈兵的文字不同,本书的实例信手拈来,可想而知经历多少次的打磨才能有这样的效果。这使得本书内容对实际工作有着很强的指导作用,适合每个与数据打交道的人,常读常新。
——孙文亮,杏树林数据总监
作为数据驱动在初创公司的实践者,我们经历了从手动跑数据分析的“石器时代”到实时数据分析系统的“蒸汽时代”。工具已经成熟了,但在方法层面自己则一直瞎练野拳。一见到本书,就有相见恨晚之感,数据驱动终于有了成体系的“招式”!屠龙宝刀,要配上好武学,希望本书可以帮助更多公司实现数据驱动。
——黄震昕,造数科技创始人兼CEO
前言
推荐序1
If companies were people, then we would be in the middle of one of the greatest health crises of the modern age. Once, the lifespan of a company on the Fortune 500 index of large businesses was 65 years. Today, it's only 20. In the last decade, most of the world's big, reliable firms have been displaced by digital upstarts: Apple, Amazon, Tencent, Google, Baidu, and Alibaba.
It gets worse. The chances of a company reinventing itself are low. The Corporate Strategy Board says efforts at digital transformation fail 95% of the time; Clayton Christensen, author of The Innovator's Dilemma, puts the number at 99%.
But there's some good news, too. Because technology has given us the ability to measure everything, accurately, better than ever before. We can know ourselves.
A 2011 MIT study1 found that companies that use data-driven analytics instead of intuition have 5%-6% higher productivity and profits than competitors. Over a few years, data and analytics is the difference between success and obscurity.
Data, it is often said, is the new oil. Data replaces opinions with accuracy, letting us know our customers, our suppliers, and ourselves with unprecedented clarity. And data is the food of artificial intelligence, because it's how we train machine learning algorithms.
Brynjolfsson, Erik,LorinHitt, and Heekyung Kim. “Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?” Available at SSRN 1819486 (2011).
On its own, oil isn't very useful. It just sits in the ground. To put oil to work takes an ecosystem: Refineries, gas stations, motors, regulations, roads, and more. And so it is with data. Simply collecting it won't help you; you need to extract it, clean it, analyze it, execute on what you learn, and feed that learning back into your systems.
As technology replaces many traditional tasks through automation and machine learning, we may wonder what is left for humans to do. The answer is simple: Think critically about what we want those machines to do for us. The most important skill for a human, whether they're a startup, an analyst, or a manager, is to ask the right question.
Asking good questions is harder than it seems. It requires an understanding of the existing business model, the competitive landscape, and the resources at your disposal. But it also requires that we know that the existing business model is outdated, vulnerable, and ready for change.
A world powered by real-time information creates two roads. One road is littered with the bodies of companies that couldn't make the transformation, preferring anecdote over fact. The other road is paved with the profits of those who learned to harness data and embrace analytical thinking.
You're at a fork in this road. And right now, you're holding the map that will steer you down the right path.
如果我们将企业比作人类,那么许多企业正处于壮年的巨大健康危机之中。曾经,世界500强企业的生命周期是65年,而现在仅有20年。近10年来,众多规模大、可靠的企业已被“数据新贵企业”所替代,例如苹果公司、亚马逊、腾讯、谷歌、百度、阿里巴巴等。
更糟糕的是,企业进行自我重塑的概率变得越来越低。公司战略委员会指出,95%的企业数字化的转变是失败的。《创新者的窘境》一书的作者克雷顿·克里斯滕森认为这一数字已达到99%。
当然也有好消息:科技赋予我们衡量一切事物的能力,我们能更好地认识自己。在这点上,曾经的任何时代都难以企及。
麻省理工学院的一项研究表明1,相比依靠直觉来实现决策的企业,那些通过数据驱动实现决策的企业拥有更高的生产效率和利润。这类企业的生产效率和利润普遍高于竞争对手5%~6%。显然,未来是否拥有数据分析能力,将决定一家企业是成功,还是逐渐销声匿迹。
我们经常说,数据是新石油。数据的准确性代替了“意见”的主观性,让我们更好地了解我们的供应商、我们的顾客以及我们自身。同时数据也是人工智能的基础,因为我们正是通过数据的运用来实现机器学习的。
对石油来说,一直被埋藏在地下的石油并无价值。它的价值在于应用,石油开采需要一个“生态系统”:炼油厂、加油站、汽车、规则、道路等。数据也是如此,仅仅收集数据并无价值,你需要提取、清洗、分析,让分析结果得以执行与运用,并反馈至“生态系统”中。
随着自动化操作和机器学习代替了部分传统工作,我们为此很疑惑:还有哪些工作需要人类来做?答案其实很简单:我们需要辩证地思考究竟人类需要机器来做什么。无论是初入职场的新人、分析师,还是企业管理者,提出正确的问题是他们最重要的能力。
但是,这实现起来很难。提问者既需要了解企业当前的商业模式、竞争格局以及可控资源,也需要意识到现有商业模式已经变得过时、不稳定,而且亟待改变。
信息随时随刻在产生,它为世界指出两条路:一条路布满着那些故步自封、因循守旧企业的“尸体”;另一条则为拥有数据思维和掌握数据驾驭能力的企业铺就康庄大道。而此时此刻,你正处于交叉路口,手中恰好握着一张指引正确路径的“地图”。
Alistair Croll
哈佛商学院访问执行官,Coradiant 公司联合创始人
《精益数据分析》一书作者
推荐序2
数据驱动的概念已经被各个行业广泛认同,但认同与落实之间,还是有相当的距离,这里最大的障碍是,技术人员缺乏对业务的理解,而业务人员又无法理解和充分利用技术,有数据却用不好、不会用是很常见的弊病。即便是一些有数据分析、研发实力的企业,也面临从需求到实现的巨大研发成本和时间周期等问题,导致决策效率低,对瞬息万变的市场情况,无法做出快速有效的应对。
百度早期的技术资源有限,主要技术资源优先考虑产品研发迭代,对数据分析的支持力度不足。2005年我参与创建百度的商业分析部门,因为无法得到充足的技术资源,只好自己动手,在产品部门架构内处理数据,解决业务诉求所需的数据分析,所幸那时候百度的业务数据规模有限,每日的部分业务数据日志尚处于GB级别,按照我们有限的技术能力,单服务器勉强可以应付。
2007年之后,百度的业务规模急速扩大,业务部门也越来越重视数据决策方向的诉求,幸而此时技术资源也得到了有效的扩充,在桑文锋同学的有力支持下,百度的数据分析能力和整体架构都得到了翻天覆地的革新和发展,针对诸多核心产品升级,数据决策的意义和价值也得到了充分的彰显。
能解决一个巨头公司数据分析领域的技术瓶颈,提升数据决策能力,已经是一项了不起的成就,但文锋的目标显然不止于此,搭建一套通用灵活的技术架构,显然有更广阔的应用场景。让一线业务人员在不需要充分理解技术的前提下,快速针对业务诉求完成数据分析,实现数据决策,这是神策数据(Sensors Data)项目的一个愿景。
我从百度出来后进入了游戏行业,后来辗转到海外发展,对国内行业的现状了解不多。说来也有意思,好几个游戏行业同行创业者,在不同场合主动跟我提及神策数据非常有价值,对他们的业务帮助很大,我才注意到文锋的创业项目,并钦佩于他们现在所取得的成就,这个成就,不是说这家公司收了多少服务费,赚了多少钱,而是他们真的有效提升了整个行业的数据决策能力,有效降低了数据决策的操作成本和门槛,这个价值是从业者们尤为要感谢的。
感谢文锋,提前让我阅读了这本书籍,我觉得,对于希望提升数据决策能力、了解数据决策真相的从业者,这本书是很好的读物,其内容并非晦涩难懂的技术描述,而更多是对数据驱动和数据分析的理解,并以亲身案例作为辅助讲解。建立正确的认识是做好数据决策的前提,而其中所提到的很多问题场景,相信也是很多从业者经常遇到和面对的。
以上,希望对您的阅读和选择,有所帮助。
曹 政
曾任百度商业分析部经理,现知名IT自媒体博主
互联网游戏出海领域创业者
推荐序3
我一直觉得数据分析是一种修行,“修”的是思考的能力,“行”的是落实成为方案的方法。经过多年的工作,正是不经一番寒彻骨,怎得梅花扑鼻香。回想我与文锋初次见面便谈到数据化的过程,阿里与百度都经历过这样的挑战,我想这便是他请我写推荐序的原因吧。
以前企业中只有一小部分人具备数据分析的能力,随着近几年数据平台的成熟,数据从收集到使用越来越方便,以往想要出一份分折报告可能要等上数周的日子已经一去不复返。曾经有一位业务方代表对我说过,在等候分析报告出来与拍脑之间,我选择了后者,因为时机更重要。可想而知决策的速度很关键。在后信息时代,DT的普适度将变得更直接、简单。未来的智能时代,我很相信很多分析报告也将被自动化的智能决策所取代,届时智慧的人类也将要“升级”到“神策”的阶段,人更要学会驾驭决策上的决策、逻辑上的逻辑。
当然,理想归理想,在智能决策的路上还需要很多同行们努力,而文锋在书内的描述正是他这几年创业的发现与精华。
车品觉
红杉中国专家合伙人、全国信标委大数据标准工作组副组长
推荐序4
当今物联时代,业界同仁都在谈大数据和人工智能。大数据已成众多公司的核心资产,大数据战略已成众多公司的核心战略。之所以如此,一是因为大数据技术的普及,二是因为大数据已经为无数企业带来了实打实的核心价值。大数据4V1中最重要的还是接地气的价值驱动——Value。使用大数据技术,挖掘大数据价值,不断优化用户体验、客户体验、产品体验,已然成为当今企业成功的金科玉律。
1996年我在美国正式进入职场。我在职业生涯的早期就对数据情有独钟,那个时候还没有大数据这个提法。这不仅仅是出于对数据技术的喜好,也是因为我在做数据项目的时候,真正体会到了数据给业务带来的不同。1998年我加入Yahoo!,成为第一个专门做数据的工程师,用一句话总结我在Yahoo! 7年的工作,那就是使用大数据更好地理解用户,驱动用户产品创新,更好地服务用户。2005年我离开Yahoo!加入Google是源于好奇心,当时Google的流量是Yahoo!的1/10,但收益却跟Yahoo!一样多。为什么搜索会这么赚钱?用一句话总结我在Google 6年的工作,那就是使用大数据能更好地理解客户广告诉求,驱动广告产品创新,更好地服务广告主。
2011年我有幸加入百度带领数据团队。百度是一个对大数据工作非常重视的公司。大数据工作是百度的核心竞争力之一,其核心搜索业务也是建立在大数据
4V,Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值)。
技术之上的。文锋是我在百度工作期间的爱将。在百度工作的几年中,我跟文锋、曹犟、力力、耀洲等聪明能干、充满活力的同学们一起,在实战中不断总结与学习,一同推进大数据技术的进步,这是一段非常享受并有成就感的经历。
我在百度大数据工作时,跟小伙伴们一起启动了不少项目,一切都围绕发挥大数据价值而发力。大数据价值从让数据说话开始,大数据驱动决策。几乎每一个产品都是一个闭环的生态。从产品上线的第一天起,用户就在不断用手或脚投票,告诉你哪里好用、哪里需要改进。用户越多,这个闭环正负反馈的信息量就越大。当我们可以快速地把这些信息以报表分析的形式,展现给我们的产品经理、产品研发工程师及各级决策者们的时候,就能不断地发现机会、迭代改进产品。当数据量达到一定规模后,数据所反馈的趋势就越清楚,这不仅体现在更好地理解现有需求上,也会不断挖掘新的需求,预测引导用户需求,不断改进创新产品。
搜索如此,广告如此,新领域创新也是如此。从预防疾病,提升百姓健康体验,到挖掘旅游热点,提供最佳出游体验,到因材施教,颠覆特权教育,到预测交通流量,改善交通拥堵,大数据驱动颠覆式创新
大数据的另一个更重要的价值在于让数据为用户工作,驱动个性化服务。当数据量达到一定规模后,因人工智能算法已经普及,故对用户每一次产品使用背后意图的把握就会越来越精准,从而可以做到为用户提供有针对性的个性化服务。这种个性化可以从用户群组个性化开始,也就是对不同类型的受众提供不同的服务,可以做到针对每个用户的个性化服务,甚至细化到对每一个用户每一个动作的个性化服务。大数据价值在这一点上的发力可以真正引爆产品生态闭环的马太效应。
文锋在书中把他过去丰富的实践经验做了非常好的总结,干货满满,源于实践又高于实践。文锋一直想成为中国大数据产业兴旺的推动者,他创建了神策数据(Sensors Data),不断践行自己的理想。本书字里行间生动活泼,也体现出作者对大数据领域的理想情怀和脚踏实地的实干家精神。对大数据行业的每一位实践者和企业家来说,本书都非常值得一读。
吕厚昌(Alex Lu)
曾任百度高级总监,Pinterest大数据部负责人
推荐序5
我认识桑文锋是因为投资的事情。2015年初的某一天,朋友给我介绍了一个人,说在百度做了很多年大数据基础架构,有丰富的实战经验,又是我浙江大学的学弟。这样稀少的人才,当然要见见。
我原来在Facebook做了很多年工程师,对数据驱动非常熟悉,也非常坚定地相信其价值。基于数据的决策就像船员在茫茫大海之中看到了灯塔,就像飞机飞行在迷雾之中但装有雷达。有时候凭经验拍脑袋也许有用,但有了地图的驾驶员,一定比最好的老司机更不容易掉坑里。Facebook在这方面做了很多工作,用数据来辅助所有(没错,是所有)的产品决策。日志系统、ETL、Hadoop/Hive、实时的数据仪表盘、A/B测试、灰度发布,这些琳琅满目的数据工具组成了一个套装,为Facebook在商业战场的迷雾之中提供了看清正确方向的“千里眼”和“顺风耳”。Facebook最早做Hadoop/Hive的人就是我从Yahoo!推荐过来的。我在Facebook做过的产品包括NewsFeed、Giftshop、SocialAds,无一不是深度应用数据的典型产品。我在Facebook的最后两年负责支付相关的数据平台和安全系统,这些工作更是对数据从头到尾都有很强的要求。Facebook一向的实践是相信数据,但又不迷信数据。利用数据,但不只依靠数据。
但我在2012年回到中国的时候,发现数据驱动的理念和做法在中国没有太多的公司在实际操作。当时大多数公司,都还聚焦在粗放型增长,做产品主要靠拍脑袋,没有太多应用数据的工具和能力,更可惜的是,没有应用数据来指导决策的意愿。少有的既懂理论又有实践的人,基本上在BAT这三家公司,尤其是数据技术利用最早的百度。
认识百度出来的桑文锋,在数据驱动这件事情上总算找到了知音。文锋的这本书,尝试去解决两个很有意义的问题。一是如何在思想上将原来拍脑袋决策的方式改变为用数据来辅助决策;二是如何让更多的公司更容易地获得数据驱动的能力。虽然我给很多公司做过分享,但我知道数据辅助决策的思想不会很快在中国的互联网公司实现,更何况有很多有数据而不知道怎么去用的传统企业。但桑文锋对于整个数据流程非常熟悉,例如,如何通过埋点获得数据,如何对数据进行结构化,如何对结构化的数据进行最优的存储和查询,如何将数据链条串起来进行最深度的分析,如何对数据做最好的展示以便更好地决策。在这一方面,他是我在中国见过的最有能力、信念最坚定的一个人。
我们相信桑文锋驾驭数据驱动商业的能力,也相信他身上那股坚定的信念,他愿意花很多年,付出很多努力,将数据基础能力像水和电一样提供给中国企业。我们将自己的资本和信心赌到桑文锋身上。我们也相信这本书,会给希望在商业战场上多一双数据眼睛的企业家很多帮助。
王 淮
《打造Facebook》一书作者,线性资本创始合伙人
参考资料
最新修订时间:2021-07-16 08:52
目录
概述
编辑推荐
内容提要
参考资料