“数据作为新石油”的隐喻在2010年代获得了吸引力,强调原始数据(如原油)需要改进才能变得有价值。有线杂志曾经在18世纪将数据与石油进行了比较,这表明那些学会有效提取和使用它的人会积累财富。在印度,2016年9月5日推出Reliance Jio象征着从物理石油到数字数据的过渡。
但是随着更精致的人工智能(AI)的兴起,越来越清楚地知道“数据是石油”类比具有其限制。首先,虽然石油是有限的地理集中资源,但数据丰富,分布广泛,并且不断生成。与使用后耗尽的石油不同,可以反复使用数据而不会损失,共享而不会耗尽,甚至与其他数据结合在一起以创建新的见解。这种独特的特征使数据成为非竞争和自我传播的资源。对其进行分析越多,就越能进一步发现,创造了连续价值产生的循环。
仅拥有大量数据并不能自动转化为有价值的见解。过去,收集数据昂贵且富有劳动性,需要手动记录和调查。如今,存储成本已经下降,计算能力激增,并且企业拥护这样的信念,即复杂的算法和大量数据集的结合可以保证成功。但是,这一假设导致数据过载的风险,在这种情况下,过多的信息,而不是实现更好的决策,导致混乱,效率低下和结论。几年前,我曾写过有关这种现象的文章,当时我建议大多数数据是在出境中死亡的,最好的事情可能是立即抛出不可使用的数据集,而不是仅仅因为它便宜而不是为了收集它们的信息。存储大量数据。
这个挑战封装在经典的“垃圾,垃圾输出”问题中。如果企业在没有明确策略的情况下收集大量数据,他们可能会发现自己陷入了无关紧要的,多余的甚至误导性的信息中。即使是最先进的算法也无法补偿质量较差的数据。关键不是数据的数量,而是与手头问题相关的数据。这类似于询问是否只是为了挖洞还是在坑顶上构建有意义的东西是在地面上挖洞的 – 数据收集背后的目的至关重要。
了解相关数据重要性的一种方法是通过信息熵的概念。在信息环境中,熵衡量数据中的障碍或不可预测性的水平。当疾病较高时,它表明缺乏明确的模式,从而使分析变得困难。充满无关信息的数据集有助于这种疾病,增加噪音而不是清晰度。例如,如果企业收集了数千个客户评论,但未能过滤垃圾邮件和主题评论,则确定客户情绪中的真实模式变得更加困难。同样,在预测建模中,过量数量的变量(其中许多无关)可能会使构建准确可靠的模型变得更加困难。
那么,关键是要企业仅收集直接有助于解决问题而不是ho积可用的数据。考虑处理欺诈检测的数字平台。欺诈者中的一种常见策略是使用新创建的电话号码和电子邮件地址来利用漏洞。当看似新的用户(实际上是欺诈者)签名时,与其收集大量的个人数据,只有三个数据点的简单链接(电话号码,电子邮件和名称)可以在识别欺诈行为方面更有效。当然,虽然360度的客户资料可能对营销有用,但在解决欺诈方面,这基本无关。换句话说,当使用数据时,请开始牢记。
从结束开始,相反的是,一种结构化的数据分析方法通常始于一个零假设,这是最简单的解释,直到另有证明才能证明。这种方法阻止了过早的结论,并迫使决策者严格验证其见解。无效假设有时被视为“无聊”,因为它表明没有任何非凡的发生,但是确保结论基于实际证据而不是假设至关重要。当人们将相关性误认为因果关系时,尤其如此 – 仅仅因为两个数据点一起移动,并不意味着一个数据点会导致另一个数据移动。这对于消除“研究人员偏见”也很重要,在这种“研究人员偏见”中,进行分析的人已经有一个假设或信息,他想传播,这意味着收集或使用的数据将倾向于确认他们的宠物假设,同时忽略他们的宠物假设可能证明假设错误的数据。这种方法也使您可以根据需要构建和使用数据集,而不是简单地将数据放在问题上。
从投资的角度来看,数据是一种非常强大的资产,但这不是魔杖。如今,许多组织都经历了悖论:他们淹没了数据,但却却陷入了见解。出现这种“洞察力干旱”的困境会出现,因为简单地积累更多数据并不能自动带来更好的理解。真正的价值在于能够提取有意义的见解并将其转化为行动的能力。
最终,在数据驱动的世界中的成功并不是要盲目遵循趋势或积累大量信息。这是关于了解数据的基本特征,认识到其局限性,并从战略上利用IT来推动更好的决策以创造切实的业务价值。
作者是技术顾问和风险资本家。