设为首页 - 加入收藏 延边站长网 (http://www.0433zz.com)- 国内知名站长资讯网站,提供最新最全的站长资讯,创业经验,网站建设等!
热搜: 系统 芯片 小米
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

数据太多、太乱、太杂?你需要这样一套数据治理流程

发布时间:2019-09-29 08:48 所属栏目:[经验] 来源:Synced
导读:数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范

数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。

最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从而提出了一种新型大数据治理框架「HAO 治理」模型。

论文地址:http://www.jos.org.cn/1000-9825/5854.htm

数据治理真的很重要?

智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。数据收集需要人工确定数据源,或者手动写爬虫;数据处理则需要观察数据,并手动写整个清洗过程;数据标注则要根据具体业务,看看怎样给数据打标签才好。

这些过程都会耗费大量精力,有时候如果处理路径不明确,甚至会导致重复或冗余的人力工作。因此事先确定一个具体的处理流程,明确数据该怎样治理、算力该怎样分配、模型又该如何部署,那么整个开发过程能减少很多人力成本与工程负担。

作为论文一作,明略科技集团首席科学家、明略科学院院长吴信东教授表示:「数据治理的本质是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督的过程,通过提供数据服务创造价值。数据治理可对数据战略资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。」

既然那么重要,就需要一套框架,就像 DL 模型最开始都是手动写,但成为主流后就需要 TensforFlow 这样的框架。吴信东等研究者详细分析了数据治理中的各种模块,并表示数据治理从来都不是一次性的程序,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。

因此,如果我们想降低数据治理的成本,最优地调配数据、模型及算力,那么就需要一个成熟的框架。如下我们重点介绍「HAO 治理」模型的概念与过程,并从公安数据治理的角度看看该框架在实际应用中是什么样的。

什么是 HAO 治理模型

前面介绍过数据治理是从数据收集到应用处理的管理机制,而框架则规定了有关数据的流程、原则或定义。比如说我们现在有一堆图像数据集,那么从图像源、图像采集到图像储存,我们先要确定数据的接入方式是什么。

随后,因为这些图像不止用于一个任务,所以需要确定标准化的形式,并做一些清洗与预处理;当然,标注还是根据任务来确定的。最后,这些图像数据还应该统一地提供给不同的模型与任务,从而构建不同的服务,这一部分也是该统一管理的。

而明略科技设计的「HAO 治理」模型会从大数据开始,为「HI」(人类智能)、「AI」(人工智能)和「OI」(组织智能)三者协同的智能提供数据治理支持。下面举个 HAO 的例子:

??°????¤a?¤?????¤a?1±????¤a?????????é??è|?è????·????¥???°????2?????μ??¨?

其中 HAO 智能的输入不仅有各种传感器,还有人类的主观感受。后面的雾计算会分析所有信息,并将机器运算/推理结果与人的分析相匹配,形成概率化与规则化有机协调的优化判断。人类、机器和组织三者结合,它们的数据与判断相互协助,这样才能最大化地利用数据的能力。

整个人机协同系统是非常复杂的,那么这就要求有一套成熟的治理框架来规范数据与算力的分配。

这样的系统应该需要满足很多要求,例如全面的数据接入机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式。其中数据服务模式可以向使用者提供查询检索和比对排序等基础数据服务,也可以面向专业人员提供挖掘分析和专家建模等智能数据服务。

如下展示了 HAO 智能的蓝图设计,它主要包括感知、认知和行动三部分。

??°????¤a?¤?????¤a?1±????¤a?????????é??è|?è????·????¥???°????2?????μ??¨?

总体而言,整个过程会从大数据环境开始,并根据大数据、人类专家系统、人工智能和组织智能生成对应的知识图谱,从而将大知识应用到人机协同中。此外,「HAO 治理」是一种实用系统,因此也就要求模块化数据源和治理功能,它需要更快速与灵活地搭建新特性。

「HAO 治理」模型是什么样的

「HAO 治理」模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。

1. 数据接入

一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。

??°????¤a?¤?????¤a?1±????¤a?????????é??è|?è????·????¥???°????2?????μ??¨?

2. 数据治理

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章