数据源、数据元、元数据
标题中的这三个术语算是业内比较容易把人弄晕的,相信很多朋友都有亲身经历过,更别提后来不知道哪位同仁又造出来一个“源数据”,这四个词的关系就更乱了(笑),各种YUAN,应该怎么才能把它们说的圆啊。
先说数据源,字面上理解就很容易明白,这指的是数据的来源,比如数据来源的信息系统、数据来源的表格等。举个实际例子大家就更容易理解了,“合约信息的数据源是核心系统”,核心系统就是合约信息的数据源了。数据源这个词在企业使用的频率很高,那是因为数据源不一致(或不唯一)是企业数据质量低、数据打架的重要原因,所以统一数据源是企业的基础性数据工作。
而“源数据”这个词是后来不知道谁造出来的,可以认为这是一个口语化的用词,实际不应该作为一个正式的术语。它的产生笔者认为和“数据源”是有很大关系的,即源数据就是来自于特定数据源的原始数据,这么解释还是很绕吧(笑)。还是沿用上面的例子,我们说“合约信息的数据源是核心系统”,那么来自于核心系统的合约信息就是源数据,或者称为原始数据,是后续数据加工处理的源头数据,这样大家就容易理解了吧。数据源的主语是在“源”上,指的是来源,其本身并非数据;而源数据的主语是“数据”,来自特定源的数据。当然,在实际应用中,笔者不建议用这个口语化的词,因为确实比较不容易理解并引起混淆,建议大家直接说具体的数据即可。
好,再来说说数据元。数据元的“元”指的是元素,即数据元素,你可以简单理解为数据项。比如“贷款余额”就是一个具体的数据项,把它抽象起来就形成一个数据元素。那么为什么要进行抽象并形成数据元?其目的是为了对这些数据元素进行标准化和规范化,以便统一使用。财政部XBRL准则中引用的就是数据元(数据元素)的概念,把一项项数据进行抽象、定义和规范,形成基础元素,以便在财务报表中组合使用。在其他外部监管机构发布的各类标准中,数据元也是基本的要素,形成了数据元目录,并提供统一和标准化的定义,作为行业标准。
元数据中的“元”含义则和数据元的“元”不一样了,指的不是元素,而是,怎么说,笔者暂时还想不到一个比较合适的词来解释,因为这个“元”太高、大、上了,和“元始天尊”、“天元”中的“元”是一个意思,而且你还不好解释为“原始”,否则就成原始天尊,变成了原始人,这级别和地位一下就拉下来了(笑)。可能“本质”、“本源”这些词更能用来解释,但似乎也不是那么准确。所以,笔者试着这么来解释吧,“元”是很高大上的,元数据就是数据中的数据,是最大的!那么如何理解数据中的数据?那就是,用来解释、定义数据的数据,我们称之为元数据。如果大家还是被绕晕的话,那我们举个例子吧,例如上面说到把“贷款余额”抽象为一个数据元,那么“贷款余额”的业务定义、统计口径和计算规则、管理属性、和其他数据的关联关系等描述性的数据就是“贷款余额”这个数据元的元数据了。这么看来,元数据的重要性就显而易见了,连数据标准都属于元数据的范畴了,元数据管理也就成为了保障、提升数据质量的重要手段。
赞赏