来源:总裁读书会
作者:唐文,氢原子CEO、总裁读书会研究院副院长
来源:总裁读书会(ID:winnerbook_club),本文为作者11月21日关于《数据分析思维通识课》一书的领读内容

大家好,我是唐文。今天和大家解读郭炜老师作为第一作者的《数据分析思维通识课》一书。

数据的灵魂与现实疑问
我常和郭炜兄交流,总能碰撞出不少思维火花,刚才听了他的分享更是深受启发,所以忍不住要提一个尖锐问题,希望他稍后能给我们解答。
郭炜兄刚才讲开源时,是从程序员这个群体切入的,全世界的程序员在网络社区通过开源项目做出了很多优秀成果,但他后面举的例子却都落到了公司层面,比如最近很火的影视飓风。我一直在想,如果开源模式真的有效,为什么没能在医生、律师这类专业群体中普及呢?这里我指的不是公司层面,而是职业群体本身。
或许有人会说,程序员的工作不涉及个人隐私,而医生、律师的工作离不开隐私保护,因此难以推行。但美国有个知名社区叫PatientsLikeMe(患者互助社区),很多病人会在上面分享病症、治疗方案、康复周期及花费成本,即便如此,这个社区也没能诞生出像Linux那样具有里程碑意义的开源项目。因此我特别希望,郭炜兄在后续予以解答:如果“集市模式”是成立的,为什么只在程序员群体中体现得如此显著,在其他专业群体中却迟迟没有出现?
回到这本书本身,扉页上写着:“数据是有灵魂的,我将用我的一生去追寻它。”这句话特别有诗意。一般数据分析相关的书籍都偏理性,能写出这样的文字,让我一眼就记住了,甚至直接把它当作了今天分享的标题。
接下来我想讲一个关于数据分析的故事。前几年的“口罩事件”时,网上冒出很多“神预言”:有人说某某预言家多年前就预见了这件事,还有人翻出多少年前的某本书,记载“口罩事件”,描述得有鼻子有眼。当时当当网做了一场直播,邀请我去做分享,我专门聊了对这些“神预言”的看法,还讲了一个真实案例。
有个老外特别喜欢赌球,某天收到一封邮件,预言第二天一场世界杯级别球赛中,甲队会战胜乙队。他没当回事,毕竟甲队实力远胜乙队,这预言看似平常,可第二天甲队果然获胜。
过了几天,他又收到邮件,预言下一场升级赛中,甲队能击败实力更强的丙队。他当时觉得不可能,可比赛结果揭晓,竟和预言完全一致。此后,每场重要球赛前,他都会收到这类预言邮件,无论合乎情理的结果还是超乎想象的冷门,次次精准命中。直到总决赛的超级冷门也被言中,他彻底信服,认定邮件背后的“预言者”神通广大。
当下一届球赛即将开始,“预言者”发来信息,问他是否愿意花几千美元购买专属预言服务。基于此前的多次成功案例,他毫不犹豫付了钱。可没想到,付费后预言再也没准过,他这才意识到自己受骗了。
其实这背后是大数据的“筛选套路”:第一场比赛时,诈骗者群发数百万甚至数千万封邮件,将收件人分成两组,一组预言甲胜,一组预言乙胜。比赛结束后,剔除预言错误的群体,只对正确组继续分组预言下一场,依此类推。几轮下来,必然有一小群人收到的每一次预言都正确——这并非“预言者”厉害,而是大数据筛选的结果。
这正是数据时代的缩影:身边看似“神乎其神”的现象,背后往往藏着数据逻辑。而《数据分析思维通识课》这本书,就是想帮我们拨开迷雾,找到数据背后的真相。

客观数据和主观洞察相结合
数据是客观的,但是解读数据的人是主观的。数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验。中医侧重经验和对表象的洞察,西医侧重检测和仪器测出的数据,而数据分析就是把客观数据和主观洞察结合起来。
我们公司有一项业务是给企业做战略陪跑和战略解码,我常跟客户和合作伙伴说:做战略,不可无数据,但也不可全信数据。之所以这么说,是因为数据分原始数据和二次数据。原始数据是对世界的真实记录,就像石油、煤炭、天然气、风能、太阳能这些一次能源;而二次数据是通过模型算法推导出来的,就像电力这样的二次能源——没有一次能源,二次能源便无从谈起。如果只盯着二次数据,忽略原始数据的真实性和局限性,很可能做出错误判断。所以氢原子多年辅导企业的总结是:战略前置数智系统。
这里要明确核心区别:原始数据是对已发生事实的直接记录,比如一个人的身高、体重,这是最纯粹的原始数据;而判断这个人是否健康,就是基于原始数据推导的二次数据。关键在于,所有原始数据都基于已发生事实,绝不可能来自未发生的事情,未发生的场景,只能像书中提到的,通过马尔可夫链、蒙特卡罗模型这类算法推演,这并非原始数据,而是算法推导结果,与原始数据有本质区别。
战略是面向未来的,既必须以数据为支撑,又不能完全依赖数据,尤其不懂数据思维时,极易误判。比如前些年房地产一路高歌猛进,做装修、门窗、家具的从业者,看到趋势曲线持续上扬,便误判势头会一直延续,甚至押上身家性命,不料行业突然转向,如今很多人损失惨重。
如今数据分析有了广义概念,数据形态更趋多样,比如VOC(客户声音)分析、NLP(自然语言处理)中的情绪分析,这些融入了人工智能的方法,对战略和营销的指导更贴合实际。因此,思考企业经营管理尤其是战略问题时,没有数据不行,完全依赖数据也错,必须定性与定量结合,还要有洞察行业核心矛盾的能力,二者缺一不可。这正是本书的核心精华。

数据分析的六大功用
说实话,这本书的内容从基础统计学一直延伸到人工智能,像ChatGPT、马尔可夫链相关的专业算法,更适合CTO、产品经理和专业数据分析师阅读,很多CEO等企业高管未必熟悉这些专业内容。所以我们可以对书中的方法进行重组分类,主要分为两个维度:
第一个维度是复杂程度和技术门槛不同。比如财务每月用Excel做工资表、统计信息,这也是数据分析,几乎零成本;但去年,DeepMind创始人德米斯・哈萨比斯因其团队的成就获得诺贝尔化学奖,他们不仅造出战胜李世石的阿尔法狗,更通过AlphaFold(阿尔法折叠)算法,快速完成了人工计算成本极高的蛋白质折叠预测,极大推动了生命科学发展。这种数据分析的计算成本极高、复杂度极强。而本书恰好呈现了这样的进阶逻辑:从Excel表格、直方图、柱状图这类最简单的描述性统计,逐步深入到人工智能相关的复杂计算。所以大家阅读时要明确,不同数据分析的复杂度差异巨大。
更重要的是第二个分类维度核心功用。我常给头部企业讲AI和数字化转型课程,发现对CEO等高管来说,不必清楚算法的具体计算过程、所用软件、执行步骤或所需计算资源,但必须明确它的6大核心功用归属。在我看来,从Excel算工资表到阿尔法狗下围棋,再到ChatGPT生成各类内容,无论多复杂的数据分析应用,都可归为6大功用:第一是“描述”,核心是刻画事物基本特征,比如客观记录一个人的身高、体重;第二是“探索”,挖掘数据中隐藏的模式、关系或结构;第三是“推断”,通过样本数据推断整体情况、洞察全局;第四是“预测”,原始数据只关乎过去和现在,而预测算法能帮我们预判未来,如今应用场景越来越广;第五是“决策优化”,比如高德地图提示“前方道路拥堵,但你仍在最优路线上”,就是通过算法对比多个方案后选出的最优解;第六是“个性化推荐”,像抖音、快手、视频号的个性化推送,就具备极高商业价值。郭炜兄书中的众多方法,都可以归入这六大类。

我们先看第一种描述性分析,它要解决的核心问题是“发生了什么”。大家平时用Excel,大多时候都是在做这件事。比如人的智商分布遵循正态分布,68%人智商在85-115之间;人的身高同样是正态分布,这些都是典型的描述性分析。
来源:《数据分析思维通识课》一书描述性分析有个经典案例,也是最早用大数据解决实际问题的典范:19世纪中期,伦敦爆发大霍乱。当时医学落后,工业革命后的伦敦空气污浊,人们普遍误判霍乱通过空气传播,导致大量民众死亡。阻断传染病的核心是找疫苗、特效药或锁定传染源,但彼时两者皆无,关键问题便出在传染源误判上。
一位名叫约翰・斯诺的麻醉科医生,做了件看似简单却改变历史的事:他拿出伦敦地图,挨家挨户走访统计霍乱死者的居住位置,逐一标记在图上。标记完成后,清晰线索浮现:绝大多数病例都围绕宽街水泵分布。斯诺据此断定,霍乱通过饮用水传播,控制疫情的关键是改造宽街水泵。
要知道,当时没有显微镜等先进设备,无法检测到水中的霍乱病菌。斯诺仅凭对死亡案例的统计描述,就精准锁定了传播源头。后来伦敦当局改造了宽街供水系统,成功控制疫情。这件事也让伦敦人意识到需分离生活用水与污水系统,使其成为首个实现现代化市政供水的大城市。
这个案例充分说明:在统计学中,仅仅是对数据的正确描述,就能帮我们找到问题的核心解决方案。
所以做数据处理的第一件事,必然是做好正确、客观的描述,千万不要小瞧描述的力量。我讲营销或战略时,常会提到“门型框架”:上行数据、中间洞察、下行决策。所谓上行数据,就是我们这里说的描述性分析:无论研究的是企业销售、财务还是其他领域,首先要对研究对象进行客观描述;在此基础上形成核心洞察,最终落地为下行数据,也就是指导实际业务的决策与行动。这个框架的起点,正是正确的描述。而伦敦霍乱的案例,也雄辩地证明了:正确描述事件,是我们解决问题的第一步。
接下来是探索性分析,核心是“找规律”,探究“为什么会这样发生”。书中提到了多种探索方法,我举一个最常用的:聚类分析。我的合伙人罗蓓老师写过一本书叫《化繁为简》,核心是用简单分类解决复杂问题,而聚类就是分类的“兄弟”,在营销领域最常用于市场细分。比如推出一款快消品或金融产品,凭经验可能会觉得目标客群是银发族或白领,但经验未必可靠。这时候就需要收集大量用户数据和市场数据做聚类分析,才能精准判断典型客群分为几类。

从技术到商业:数据分析的价值转化
我们有个朋友做止痛药膏,最初认为目标客户是上了年纪的老人,结果通过大量市场数据分析发现,最敏感的群体竟是产后妈妈。原因很简单:产后妈妈并非单纯解决疼痛,而是要改善体态,而女性对仪态管理的需求远高于单纯的止痛需求。这种隐藏的规律,仅凭经验根本无法察觉,必须通过数据探索才能发现。郭炜兄的书中也详细介绍了这类方法,让我们在描述数据之后,能进一步挖掘背后的逻辑。
再说说推断性分析,它的核心是“一叶知秋”的能力。过去大家对大数据有个误解:觉得现在计算机算力强,就能把所有数据都算一遍。但事实并非如此。真正的数据分析,往往是在海量数据中通过样本推断整体。
我之前在支付公司工作时,经常遇到金融诈骗问题:几万个电话里可能只有一个是诈骗电话。如果用常规方式处理,会消耗大量算力资源,但精准揪出这一个诈骗电话,却能避免致命损失。这时候就需要用到推断性分析,即便目标事件在总量中占比极小,但只要存在就可能引发严重后果,推断性分析的价值正在于此。
传染病传播早期也是如此:尤其对于高传染性疾病,最开始可能几万人中只有一个感染者,但能否快速找到这个感染者至关重要,否则一旦扩散就会酿成大祸。这种场景下,推断性分析的重要性不言而喻。
下面我们聊聊预测性分析。我之前说过,数据分析的核心是形成洞察,我们不仅要知道过去是什么、现在是什么,更要预判“下一步会怎么样”。但原始数据只能记录已发生的事,明天、后天尚未发生,不可能有对应的原始数据。因此,预测性分析就成了数据分析中极具价值的一环,核心是回答“什么会发生”。
书中提到了在金融领域的应用,如我们总在猜测,股市熊市之后出现牛市的概率有多大,牛市之后转熊市的可能性又如何?这并非瞎猜,而是可以通过马尔可夫链模型预测各种情况的概率。
更典型的案例是大奖章基金,它的创始人詹姆斯・西蒙斯是很多金融从业者的偶像。这家公司主打高频量化交易,团队里大多是顶级数学家和工程师,他们的交易方式很特别:持有资产的时间极短,以微秒、纳秒计。公司的核心逻辑是“寻找市场打盹的瞬间”,只要发现市场出现几微秒、几纳秒的短暂失衡,且有百分五十几以上的胜率,就立刻完成交易。这种对极短时间窗口的预测判断,展现了预测性分析的巨大商业价值。
在我们熟悉的互联网领域,预测性分析的应用也很广泛。PC时代,就是搜索引擎优化的核心指标,PR值越高,代表网站影响力越强、可信度越高、用户访问量越大,搜索引擎也会优先给这类网站导流。而PR值的计算基础,正是马尔可夫链。可以说,马尔可夫链不仅成就了谷歌、百度这样的全球互联网巨无霸,也深刻影响了整个互联网的流量分配逻辑。
接下来要讲的是决策与优化。我们做完数据分析,最终要形成洞察(insight),落到实际业务中。比如营销里核心的客户分层、分类、分级运营,不能只停留在描述客户,更要决定优先运营哪类客户、把资源集中投向哪类客户,这正是战略和营销要回答的基本问题,而这就离不开决策与优化。
这里有个很有意思的算法叫蒙特卡洛算法,网上搜短视频,很多都是郭炜兄在书里提到的案例:用它计算圆周率π。过去我们算π要用割圆术或微积分,而蒙特卡洛算法很讨巧,在一个正方形里画一个内切圆,然后随机往正方形里打点,通过计算圆内点数和正方形内总点数的比值,就能推算出π的值。更经典的是,把马尔可夫链和蒙特卡洛结合,又能形成更强大的组合算法。
个性化分析在今天就更常见了,我们每天都身处其中。抖音、快手、视频号之所以厉害,核心就是在个性化推荐上持续发力。我做新媒体时,也常会关注这些平台的算法,抖音其实会公开部分算法基本原则,这本书里也讲了两个核心逻辑:一是找人群相似性,判断和你志趣相投的人在看什么,就把相关内容推荐给你;二是基于关联行为,比如两种产品总被一起购买,推荐系统就会主动推送。
这背后的商业价值极高。如果你做视频号,首先要搞懂平台的基本推荐规则,就像在别人的舞台上唱戏,得先知道戏台的规矩,清楚平台怎么给你导流、怎么匹配观众。表面上看,这本书讲的都是技术内容,但只要领会了这些算法的商业价值,无论是描述、预测还是决策功能,再结合实际商业场景,就能明白它的力量:马尔可夫链成就了谷歌、百度这样的万亿市值企业,个性化推荐撑起了抖音这样的互联网巨头。
理解了这一点,知道数据世界如何运转、如何改变我们的生活,你才会更有兴趣去探究背后算法的深层意义。所以我给大家的读书框架很简单:第一,明确书中每种方法对应六大功用里的哪一类;第二,挖掘这种功用在商业应用中体现的价值。
其实我觉得这本书未来迭代时,不妨跳出技术从业者的视角,从商业视角重新梳理,比如拆解数十万亿美元商业价值背后,到底是哪些算法在支撑?抖音的推荐算法和马尔可夫链Meta(原马尔可夫链Facebook)、谷歌的有什么区别?它在哪个环节实现了创新?这样就能清晰看到算法如何重塑世界。
我对深度学习印象特别深,虽然我不是技术出身,但一直好奇:同样是计算机跑程序,它和当年的“深蓝”、传统专家系统有什么不同?后来才想明白,传统编程是程序员主导(白领),计算机只提供算力(蓝领);而深度学习是通过训练数据,给数据打标签,一次次告诉计算机对错,让它自己调整程序、优化神经网络。到最后,连DeepMind团队都未必能说清阿尔法狗战胜李世石的底层逻辑,就像我一位朋友在《暗知识》里写的,这类算法的核心逻辑是“不可解释”的,我们无需懂原理,用好它的功能就行。

落地关键:边界界定与战略启示
数据思维的关键,还在于厘清业务与数据的边界。郭炜在书里有个一笔带过但极其重要的点:上证指数与用户忠诚度的指标定义。营销里常提用户忠诚度,计算公式其实很简单,但很多公司做不好数字化转型,问题就出在数据治理的第一步,指标定义不清晰。可能某个部门内部定义清晰,但全公司对同一个指标却有多种说法,等到汇集数据“挖矿”时,根基早已混乱不稳,后续一切都无从谈起。
这也印证了书中说的“数据思维是中西医结合”:既要懂业务经验,又要把数据边界定义得清晰统一,数字世界的基石才能稳固。所以我觉得这本书可以进一步迭代,把读者范围扩大到非技术、非数据分析人群,很多人分不清数据分析和统计学的区别,更搞不懂人工智能与数据分析的层级差异,从“六大功用”的视角切入,能让更多人看懂数据的意义。
最后想补充一点:前几天有位老板说“大企业有战略,中小企业不需要”,这是错的。恰恰相反,中小企业更需要战略,战略的核心是解决“聚焦什么、如何集中有限资源解决关键问题”。大企业家大业大,经得起浪费;但中小企业试错成本极低,有限的资源如果不聚焦关键问题,很容易失败。而界定关键问题的核心,正是以数据为基石,再加上能洞察行业主要矛盾的“哲学头脑”。
数智系统的特征是“事务性质”,如果只基于数智系统做经营管理,会让公司堕入平庸,战略是超越具体事务的,不可能从事务系统里得出。所以数据思维还要加上战略思维,战略前置数智系统。谢谢大家。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。
海量资讯、精准解读,尽在新浪财经APP
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 激活数据灵魂:数据分析思维重塑商业决策
头条资讯网_今日热点_娱乐才是你关心的时事








