2019第三届数据质量管理国际峰会会议记录(部分)[邬宏伟]

标签:无 1834人阅读 评论(0)

会议视频资源:

2019第三届数据质量管理国际峰会

https://v.zmengzhu.com/play/10037885

会议主要议题:数据质量、数据采集分析、数据存取、数据资产

 

1. 大规模关系图的质量管理

Quality Management of Large-scale Relational Graphs

樊文飞 英国皇家学院院士

 

概述:    现在社会产生的数据量的数目是及其庞大的,分类数据、提取数据,增强数据质量成为一项极其紧缺的工作。处理和读取数据质量的系统在市面上很少见,是一个迫切的需求。举例说明了一种捕捉语义错误的方法。 如何检测和修复语义错误,如何确保修复的正确性是业界的一个难题。数据质量系统的开发的分布:67%是基于逻辑的,17%是基于机器学习的,16%是基于多混合技术的。图数据里也有很多错误,图数据逻辑质量需要关心。知识获取、知识图谱的扩展急需数据指标的这些工具。经济交往可以通过图像来完成,边就是进行交易,节点是账户。

图纸量有很大的挑战性。

推荐度:★★★★☆

个人感想:在樊院士的举例中,可以清晰地了解到,脏数据导致的经济上的巨大损失。其中包括:在商务方面和政府方面每年接近$40000billion的经济损失。以及便利店里的价格标签错误产生的每年$2.5billion的损失。还有接近1/3的项目要被延迟,全部来至于脏数据的影响,可见数据质量将作为一种新的资产,影响着我们生产和生活的很多方面。通过举例关系数据的数据差错,给出相应的countryarea-codephonestreetcityzip等字段,当area-code表示北京的号码,city如果不是“北京”,就是语义错误。大多的优惠行为,以薅羊毛的形式被欺诈行为所骗取。

 

2. 数据建模的逆向网络分析方法

Reverse Network Analysis Method of Data Modeling

刘卓军 中国科学院数学与系统科学研究院副院长

 

概述:    复杂系统是客观存在,也可以人为制造;复杂数据,反映系统的相关特征,是人关于系统不同“侧面”的观测。系统复杂性是复杂系统的核心特征,需要机理研究、逐步澄清。复杂数据处理需要新方法,复杂系统建模需要深入探究。由ANPI-ANP,用BHTA算法构建数据网络,应用极大簇方法把BHTA网络划分若干个子网。第一步,初始化参数;第二步,以α为参数找出所有的簇;第三步,找出所有的极大簇,每个极大簇即为网络的一个子网。第四步,选择参数α,优化子网划分。最终实现:数据采集真实、存储精确、去数据快、分类准确、方便使用。

推荐度:★★★★☆

个人感想:在讲到大数据是,主要提到数据要真实。要能够进行数据采集、数据存储、取数据、数据分类要准确等。网络分析法ANP存在的问题是:要求评价者充分理解待评对象的内部机理,否则难以得到各指标之间合理的网络结构。但对一个新问题这往往是难以做到的。逆向网络分析法I-ANP是网络分析法的一种反向思维,它根据样本数据找出评价指标间的网络关系,然后用我们提出的极大簇方法,把BHTA网络划分若干个子网,继而将子网中节点合成为新的中间指标,并且可以进一步合成为一级指标。

 

3. 数据资产管理-大数据时代的必修课

Data Asset Management - a Required Course in the Era of Big Data

魏凯 中国信息通信研究院云计算与大数据研究所副所长

 

概述:    从数据信息管理到数据资产管理,数据的价值逐步融入现在经济和社会的各个方面。DAMA数据管理,包括数据应用服务、数据共享流通、数据价值评估、数据保值增值等。数据资产的管理:规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据进入资产负债表,箭在弦上,并购的过程中,把数据作为资产来评估,资产权利要清晰才能方便使用,打破数据共享的壁垒。提升数据质量、提高获取效率、保障数据安全、形成持续闭环。以后的发展趋势,数据的公开不是集中在企业端,而是用户自己开放权限来进行数据安全管理。数据量的指数增长,会伴随着管理数据的人员不断增长,需要有人来做软件创新,人工智能自动化的反向的把数据管理好,数据资产管理软件的开发有迫切需求。数据管理中包括

语音、视频、图片等的数据管理,处理架构也在不断的更新换代,数据的面向对象也转变为普通民众。

推荐度:★★★★☆

个人感想:从农耕时代的主要技术:农耕技术,核心资源:土地;工业时代:主要技术,蒸汽机和电力技术,核心资源:能源;到信息时代:主要技术,数字技术,核心资源,数据。数据作为资源的存在变得越来越重要。企业之间的信息孤岛是数据共享的很大一个问题,数据质量不过关、数据难以互通、获取成本高、安全难保障都给企业的生产经营带来了问题。企业开展资产管理困难很多:包括数据资产管理驱动力不足,组织架构不完整、关键活动难成效、数据价值难释放、理论体系不完备,缺乏实践指导意义、缺乏交流学习平台,专业人才匮乏。

 

4. 数据剖析及数据质量驱动业务创新的实践和思考

The Practice and Thinking of Business Innovation Driven by DataProfiling and Data Quality
谭海华 华矩科技创始人及董事长CEO

 

概述:    数据的质量包括了数据、数据的语义、数据的业务规则。数据的相关指标有:完整性、相关性、唯一性、有效性、及时性、非重复性。信息语义的相关指标:可读的、精准的、可用的、可理解的、充足的、可信赖的。数据的规则:ABR,数据属性业务逻辑(如字段);EBR数据实体业务规则(如库、表);SBR,企业特定业务规则(如行业规范)。数据剖析及探查,用数据的相关指标探测信息语义的相关指标。信息相关指标通过技术元数据联系规则,信息语义指标通过业务元数据联系规则。

推荐度:★★★★☆

个人感想:通过对数据、商业词汇及业务规则的分析来看数据质量中可能存在的问题。可能出现客户的库表重复记录,系统认证的许可会产生理解歧义。以及标识一致性等问题。根据ABREBRSBR等基于数据质量评分卡,结合具体需求业务规则,计算权重,获取数据价值评判。

 

5. 腾讯游戏数据质量管理实践

Tencent’s Data Quality Management Practices of Games

刘天斯 腾讯游戏大数据管理负责人

 

概述:    构建游戏大数据质量管理体系历经:统一职能,数据标准与集成,监控体系建设,构建血缘体系。数据质量体系架构中的,数据增值服务:可视化报表、效果分析、活动营销、消息推送等,质量管理平台:质量查询,质量报告等。元数据的管理:元数据标准,技术元数据,业务元数据,元数据存储,元数据检索,元数据开放等。元数据的分类:1.业务元数据:面向业务人员、产品策划、产品制作人,可以看到数据结构、业务指标的说明。2.技术元数据:面向技术人员、开发人员、运维人员、测试人员,网络的分布、质量监控的阈值、模型训练的参数、技术指标等。

推荐度:★★★☆☆

个人感想: 数据质量的难点与问题:数据多样化,缺少统一标准;计算逻辑理解不一致,导致统计结果有偏差;数据接入标准不同意,种类繁多,数据集成难;数据组件众多,发现数据质量问题困难;数据标准缺乏结构化管理,集成困难;当数据链路某结点出现异常时,影响面难以评估;数据应用出现异常时,定位问题困难;数据标准缺乏流程管控与执行。数据采集,数据存储,数据利用,元数据的开放和可共享。

 

6. 中国联通数据质量管理实践

Data Quality Management Practice of China Unicom

王志军 中国联通信息化部副总经理

 

概述:    中国联通数据质量管理的发展历程,数据标准化,管理由分散到集中,规范化的质量管理体系,端到端的透明化调度监控。通过建立跨专业、全过程的数据质量管控体系建设,采用管理和技术手段,保证数据信息的准确、规范、完整、一致。数据质量体系的管理包括:数据质量稽核、编码管理、元数据管理。数据质量的要素:唯一性、完整性、一致性、及时性、合理性、精确性。数据质量管理原则:综合管理原则、循环优化原则、分与推进原则、多角度管控原则。数据越用质量越高,衡量数据质量的维度,正确性、完整性、一致性、完备性、有效性、可获取性、规范性、时效性。

推荐度:★★★★☆

个人感想: 在数据管理和数据质量方面,元数据管理是基础,主数据管理是关键,数据质量提升是目标。中国联通的业务很多都存在大量的数据,数据分散化,不透明数据质量设计数据生产、数据上传、数据加工、数据发布、数据应用的全过程等。数据质量管理从问题发现,问题处理、管控效果测量与改进三个角度,形成稽核、预警和考核规则。数据质量落地的关键是执行,组织,验证,沟通,管理,过程。

 

7. 网络评论与免费样本对消费者下载的互动效应:实证分析

The Interaction Effects of Online Reviews and Free Samples on Consumers’Downloads: An Empirical Analysis

李胜利 北京大学信息管理系副教授

 

概述:    应用于网络在线评论,用户或者专家在网上发布自己对于一些商品的评论。其中包括针对餐饮行业、针对主题游玩行业、电子产品和软件等的评论网站。通过对比用户评论和专家评论对用户的消费影响,来指导商家进行整改。

其中商品分为搜索商品和检验产品。搜索商品是类似衣服之类的,只看看就可以决定是否购买。而体验产品,包括电子设备,需要体验后才能做出判断。

推荐度:★★★☆☆

个人感想: 软件的使用有三个标准,一个是Free,一个是Free-to-try,一个是PurchaseFree的软件会提供很多有用的信息来给用户参考,Free-to-try的软件会提供部分的信息,Purchase的软件提供的可预知的信息量很少。对于Free的软件,用户评论会正向影响其他用户去免费下载使用去体验一下。专家评论和用户评论会起到相同的效果。然而对于Purchase的软件,专家的推荐对用户下载软件没有什么帮助。因为会被用户认为是收了平台的钱,才推荐此类软件。

用户的推荐对用户下载软件有帮助。然而免费版本的软件会使得收费的软件的销量降低,有蚕食作用。

 


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1