数据自身是没有价值或者说微乎其微的,价值是被赋予的,就像黄金一样,黄金的价值是他的应用前景或场景。
数据的价值就是数据能力体现出的收益,或者说投资回报率。
今天我们就来聊聊数据能力和价值。 说到大数据就不得不提数据仓库,企业数据仓库演化至最终阶段或许会变为大脑中枢神经,如果要支撑起整个复杂的大脑和神经系统,需要一系列的复杂机制配合。
一、抽象的数据能力架构我把数据能力抽象概括为四个方向:传输能力、计算能力、算法能力和数据资产量级,后面会讲述在这四个能力之上泛化出的数据应用和价值。
1. 数据传输能力
数据大部分的使用场景必然会涉及到数据传输,数据传输性能决定了部分应用场景的实现,数据实时的调用、加工、算法推荐和预测等;而传输抽象出来的支撑体系是底层的数据存储架构(当然非同机房的传输还要考虑到网络环境等。 单纯的小数据量调用等一般不会涉及到这些,但数据量级大、高并发且对SLA要求非常严格的时候,就是对数据传输能力的考验)。
从产品的角度我把数据传输能力分解为:底层数据传输效率和应用层数据传输效率。
底层的数据传输效率是指数据源进入后的预处理阶段的传输效率,即加工为产品所需的数据交付物之前阶段。
Ps:数据在可为产品所用之前需要很长的一段加工过程,应用层数据产品基本不涵盖底层数据加工环节,而数据产品会用到规定好的数据交付物(即已约定好的结构化或标准化的数据),而利用此数据交付物再经过产品对实际应用场景的匹配和加工来提供数据服务。 即使涉及底层数据管理的相关产品也是对Meta元数据、使用日志或写好的shell等的调用。
底层数据加工计算所涉及到的传输效率,直接决定了支撑数据产品高性能、高可靠的自身需求;而应用层的传输影响了用户体验和场景实现。 传输机制和体系就像毛细血管一样遍布全身错综复杂,但是流通速率直接决定了大脑供氧是否充足。
2. 数据计算能力
数据计算能力就像造血系统一样,根据多种来源的养分原料进行生产加工最终产出血液。 而源数据通过高性能的底层多存储的分布式技术架构进行ETL(抽取、转换、装载)清洗后产出的是数据中间层通用化的结构化数据交付物。 计算速度就像造血速度一样,决定了供应量。 而计算速度直接决定了数据应用的时效性和应用场景。
目前最多最普遍的就是离线数仓,离线数仓大部分担任着事后诸葛亮的角色,即没办法保证数据的及时性而延后了数据分析及应用的产出,导致更多的是沉淀经验而难以做到实时决策。 而实时数仓,甚至说对Data Lake(数据湖)的实时处理已经逐步开放应用多种场景。 我们先不考虑越来越强烈的实时性要求带来的巨大成本是否真的可以创造等值的收益。
强实时可以更接近一个“未来”的状态,即此时此刻。 这远比算法对未来的预测更有价值,因为把握眼前比构造多变的未来对一个企业更有价值。 甚至说当数据过程快过神经元的传递,那么从获取到你脑电波的那一刻起,数据处理的驱动结果远比神经元传递至驱动四肢要快。
是不是与兵马未动,粮草先行的场景相似?当然这是以数据计算能力的角度来看待这个问题。 跳出来以我个人的观点来说,整体数据能力强大到一定阶段后,会从主观改变个人的意愿,即通过引导你的大脑从而来控制或决定个人行为且不会让你感知,所以可以理解为从主观改变个人意愿。 从人的角度来说,你并不知道或者直观意愿去凭空决定下一步要做什么,因为大脑是逻辑处理器,当然这又涉及到心理学,这些观点就不在此赘述了,等往后另起一个篇幅来说数据应用未来前景和假想。
3. 数据资产能力
都在说“大”数据,那么数据量级越大越好吗?并不是,从某种角度来说大量无价值或者未探索出价值的数据是个负担,巨大的资源损耗还不敢轻易抹灭。
随着数据量级的急剧放大,带来的是数据孤岛:数据的不可知、不可联、不可控、不可取;那么散乱的数据只有转换成资产才可以更好的发挥价值。
什么是数据资产,我觉得可以广泛的定义为可直接使用的交付数据即可划为资产,当然可直接使用的数据有很多种形式,比如meta元数据、特征、指标、标签和ETL的结构化或非结构化数据等。
目前也在拓展Data Lake的使用场景,直接实时的使用和处理Data Lake数据的趋势是一种扩大企业自身数据资产范围和资产使用率的方式。 这有利于突破数仓模型对数据的框架限定,改变数据使用方式会有更大的想象空间。
数据资产的价值可以分两部分来考虑:一部分是数据资产直接变现的价值;另一部分是通过数据资产作为资源加工后提供数据服务的业务价值。
第一部分比较好理解,就是数据集的输出变现值,如标签、样本和训练集等的直接输出按数据量来评估价值;第二部分价值比如通过自身数据训练优化后的算法应用而提升业务收益的价值或依于数据的广告投放的营销变现等,甚至说沉淀出的数据资产管理能力作为知识的无形资产对外服务的价值。 这些间接的数据应用和服务的变现方式也是数据资产价值的体现并可以精细的量化。
4. 数据算法能力
其实无论是传输能力还是计算能力,都是相对偏数据底层的实现,而离业务场景最近的就是算法能力所提供的算法服务,这是最直接应用于业务场景且更容易被用户感知的数据能力,因为对于传输和计算来说用户感知的是速度快慢,从用户视角快是应该的,因此用户并不知道何时何地计算或传输。
而算法对业务应用场景是一个从0到1,从无到有的过程。 并且算法是基于数据传输、计算和资产能力之上泛化出的应用能力,或者换句话说是三个基础能力的封装进化。
而算法能力是把多元的数据集或者说获取到尽可能多的数据转化为一个决策判断结果来应用于业务场景。 算法能力的强弱反映了三个数据能力是否高效配合,是否存在木桶效应,更甚者木桶也没有。 当然单纯的算法也可以单独作为无形资产的知识沉淀来提供服务。
对于数据能力架构中的四大能力,传输、计算和资产是基础能力,而算法是高级的泛化能力。 而能力的输出和应用才能体现数据价值,数据能力的最大化输出考验着整个数据产品架构体系的通用性和灵活性。 因为需要面对的是各种业务演化出的多种多样场景,对数据能力的需求参差不齐:可能是片面化的,也可能是多种能力匹配协调的。 这对产品的通用性就是一个巨大的挑战,想更好的应对这个问题,可能就需要整个数据平台的产品矩阵来支撑和赋能。
二、数据能力对应数据价值的呈现从数据应用的角度,每个能力都可以独立开放也可以组合叠加。 如果把能力具象出来就会衍生到产品形态的问题,产品形态是对能力适配后发挥作用的交付物。 说到产品形态我们可以想象一下应用场景。
首先最基础的应用场景就是数据直接调用,数据资产的使用基本会基于特征、指标、标签或者知识等交付形态。 而对于使用方来说这些数据会作为半成品原料或依据来进行二次加工应用于业务场景中,如数据分析、数据挖掘、算法的训练与验证、知识图谱、个性推荐、精准投放(触达)和风控等。 数据资产可以统归为在数据市场中通过构建的一些OpenAPI进行赋能。
而对于一个工厂来说,仅仅进行原材料的加工(ETL)输出即除了自身原材料(数据资产)的壁垒外核心竞争力很小,需要包装一些上层的基础服务来提升竞争力,那么数据计算的能力融合进来对原材料进行二次加工(聚合统计)。
计算的聚合统计能力加入进来后可以满足大部分的数据分析场景的支持,就不单单是原材料毫无技术含量的输出,并可以以半成品的形态规避数据敏感。 因为对于统计值来说,这是一个分析结果或结论,并不会涉及到自身敏感数据的输出,因此你的核心资产不会泄露,而输出的仅仅是资产的附加值。 换句话说知识产权专利依然在你手中,通过控制专利泛化出的能力进行投资回报。
融入计算能力后的一些分析场景如:人群的画像分析、多维度的交叉分析、业务的策略分析和监控分析等多种场景。
随着时代的发展和业务场景的增多,这时工厂继续需要产业变革,要深耕服务业逐步抛弃制造业形态,全面提升更高级的数据服务。 这时算法能力的加入来更好的完善服务矩阵。
算法通过封装了传输、计算和资产能力而进行统一的更好理解的业务场景目标预测和识别等。 这样对于企业来说可以更容易接受和低成本使用数据服务而不需要再涉及到数据加工链路中,而仅仅需要一个目标结果,通过算法的决策作为参考来指导业务方向。 像算法对一些业务场景的预测分析,甚至说一些人工智能场景的识别或学习思考,都可以通过算法赋能来实现。 对于企业来说就是从无到有的突破,企业发展进程甚至可能提升好几年。
而贯穿以上能力应用场景都是对数据传输能力的考验。