参会总结:AI未来说——深度学习专场

标签:无 669人阅读 评论(0)

参会总结:AI未来说——深度学习专场

2020年5月30日,第15期“AI未来说·青年学术论坛”大数据专场论坛以线上平台直播形式举行。本次论坛邀请了复旦大学计算机科学技术学院赵卫东副教授,中国科学技术大学副教授、硕士生导师徐童副教授,百度自然语言处理部研发工程师李伟彬,中国科学技术大学在读博士生张乐博士作为嘉宾。

一、大数据的系统观

作者简介:赵卫东,复旦大学计算机科学技术学院副教授,CDA三级认证数据科学家,腾讯云和百度云机器学习认证讲师。主要负责本科生和各类研究生机器学习、大数据核心技术和商务智能(商务数据分析)等课程的教学,2011年纽约大学访问学者。商务智能被评为上海市精品课程以及CMOOC联盟线上线下混合式教学改革项目,获得2013年高等教育上海市教学成果奖二等奖。目前主要研究方向包括电子推荐、智能决策和大数据分析等。主持国家自然科学基金2项以及中国博士后科研基金、上海市浦江人才、IBM Shared University Research以及企业合作课题等30多项目。已在Knowledge and Information Systems , Information Processing & Management,Information Systems Frontiers等国内外期刊发表论文100多篇。出版《智能化的流程管理》《数据挖掘实用案例分析》《机器学习》《机器学习案例实战》《Python机器学习实战案例》等10多部专著。获得上海市2015年上海市科技进步二等奖。

报告概述:大数据的价值发挥在实际中需要融合很多源头的动态数据,但由于隐私、政策、制度和技术的局限,使现存的大数据只能作为小数据使用,降低了大数据在决策中的作用。结合新冠肺炎的应急预测预警等应用场景,讨论如何利用系统观认识大数据的使用。

报告内容:赵卫东老师开讲即提到了大数据分析存在的问题,虽然大数据在医疗、交通等领域已经取得了非凡的成就,但仍具有很多问题。老师本次分享主要对大数据常见的思维以及在实际运用中的问题作简单的探讨。

图片 1.png

赵卫东老师首先强调的系统观的概念是分形,分形即事物的整体和局部具有一定的相似性。当从整体上获得一个大数据有困难的时候,就可以利用分形来洞察大数据的性质。学过大数据的同学应该都知道Hadoop架构和内存计算Map—Reduce架构,其中蕴藏了很强的系统观,即分而治之的思想——既然大数据作为一个整体用现有的技术手段很难获取,就可以把它分解成很多小数据,将大数据问题自然转换成小数据的问题,相当于系统观分形的思想。因此,怎么从整体把大数据分解成局部的小数据,怎么把问题化大为小,这是大家需要重视的第一点。

图片 1.png

接着赵卫东老师从系统观的角度出发,讲解处理复杂度的方法。在大数据的项目里面,套牌检测、交通疏导、医疗诊断等都是非常复杂的问题。面对复杂问题的时候,尽量要把这个复杂问题化成简单的问题。

第三个方面,赵卫东老师讲到了系统集成观。从系统观点来看大数据,大数据是非常复杂的,像机器学习做图像处理、语音分析等。实际上国内大数据不仅是数据量大,而且分布非常广,包括关键数据的多模态性、视频、声音、文字、图像等等。举一个与疫情相关的例子,国家很多地方都有自贸区,自贸区的管理方式和境外是不一样的,当自贸区面对走私、安检、环保的问题时,会用到很多部门综合数据,包括公安、检疫、海关、工商、环保等等,这些数据需要集成起来,这就是系统集成观。要解决这种问题,单一源头数据远远达不到。不管是交通的、农业或是政府的一些大数据的问题,都需要很多源头的数据。系统工程里的集成观指的是解决一个问题相当于要合成一个新的化合物,少一样都不行。例如税务局偷税漏税的检测仅仅有税务局数据还不够,还要有网商数据,企业经营各个领域的数据都是需要的。要判断一个人是不是健康的,不仅要有智能医疗,也可能需要一个人的饮食数据、运动数据等,还需要一个人过去的就诊数据包括体检数据,数据只有融合起来才能达到系统解决一个问题的基本条件。以最近新型冠状肺炎为例,前段时间国家控制的比较好,那么国家是怎么预测传播路径,怎么从过去一个时间点看未来呢?这里实际上就用到大数据的平台获取一个地区人群的分布、人群衣食住行的数据。比如一些重点人群的数据,需要通过铁路、公路、航空、饮食、医院、公交、地铁等系统来获得,当然还有其他领域的数据,通过集成这些数据从而获得真正的大数据。然而实际情况中,真实收集到数据往往是变“小”了,为什么会变“小”呢?因为从系统观点拿到的都是支离破碎的数据,比如说拿到的可能是某一个区域或者某一个渠道、某少数渠道的数据,这就需要做一个大的平台将这些数据融合起来。

最后,赵卫东老师进行了归纳。如何从系统角度来认识当前大数据的风貌,包括大数据驱动的人工智能呢?首先要认识到大数据远远没有达到人的智能水平,尽管少数领域超过人,但是它与人的创新和情感差得远,这要求研究首先要把有限数据充分利用起来,可以用简单有效模型发挥大数据的价值。同时因为数据获取困难,数据集成是有一定难度的,在大数据拿不到的情况下要利用分形力量发挥小数据的价值。另外未来想充分发挥大数据价值还要和人脑功能创造力充分结合起来,这样大数据、人工智能才会有更大的价值。面向复杂的问题的时候,可以用简单的模型描述背后的机理。

二、AI × Talent数据驱动的智能人才计算

作者简介:徐童,中国科学技术大学副教授、硕士生导师。中国中文信息学会青年工作委员会委员、中国中文信息学会社会媒体处理专委会委员。主要研究方向为数据挖掘与社会媒体分析,近年来,在IEEE TKDE、IEEE TMC、IEEETMM、ACM TOIS等相关领域重要期刊,及KDD、WWW、SIGIR、AAAI等重要学术会议发表论文50余篇。受邀担任第11届IEEE国际知识图谱会议(ICKG 2020)、2018全国知识图谱与语义计算大会(CCKS 2018)、第九届全国社会媒体处理大会(SMP 2020)等会议领域/专题主席,及KDD、AAAI、SDM、EMNLP等重要国际会议程序委员会委员。

报告概述:大数据时代的来临为传统的人才管理战略带来了冲击,其低效率、主观化、缺乏可预测性的问题日益凸显。与此同时,数据科学的发展,也为破解这一困境提供了新的思路与手段。在本次报告中,我们将简要回顾智能人才分析方面的若干成果,即运用数据挖掘技术,揭示海量人才管理相关数据中潜藏的规律,并解决与人才招聘相关的岗位匹配、发展预测等一系列难题。

图片 1.png

图片 1.png

图片 1.png

图片 1.png

三、基于PGL的图神经网络基线系统

作者简介:李伟彬,现任百度自然语言处理部研发工程师。目前是百度飞桨图学习框架Paddle Graph Learning(PGL) 的核心开发者之一,主要负责了PGL异构图框架的研发,开源了数个业界主流模型,并推动了多个基于PGL的图模型在公司重点业务上的落地,具有丰富的图学习实践经验。

报告概述:传染病的有效防治是全人类面临的共同挑战,如何通过大数据,特别是数据的时空关联特性,来精准预测传染病的传播趋势和速度,将有助于人类社会控制传染病,保障社会公共卫生安全。而数据上的空间关联特性,恰好是图神经网络所擅长的。图神经网络在非结构化数据上有着出色的处理能力,使得最近一段时间图神经网络在学界与工业界上大放光彩。因此,本次分享将介绍2020国际大数据比赛中,基于百度飞桨推出的图学习框架Paddle Graph Learning(PGL)实现的基线系统。

报告内容:李伟彬工程师分享内容分为以下四部分:赛题简介,图神经网络介绍,PGL框架介绍,以及基于PGL的基线系统介绍。

第一部分是赛题简介。本次百度主办的大数据赛题是高致病性传染病的传播趋势预测,它的主要背景是希望通过数据时空关联特性精准预测传染病传播趋势和速度,这里时空关联特性指不同时间下各个城市或区域之间人口流动情况。总的来说,赛题目标是根据各个城市以及区域人口迁移情况,预测未来一段时间城市中各个区域新增患者数量。这是一个典型的时间序列预测问题,传统的时序分析模型、传播动力学模型等都可以进行处理。

图片 1.png

接下来李伟彬工程师介绍了图神经网络的基本知识。图神经网络是处理不规则图数据的方法。图片、文本都是非常规则的网络结构,例如图片是像素点构成的二维矩阵,每个像素点周围有8个像素点;而文本可以看成一维网络,每个单元(词)有前后两个相邻单元(词)。所以可以分别使用CNN、LSTM等方法进行处理。但图网络是非结构化的数据,即图网络中不同节点邻居数量可能是不一样的,每个节点的计算图不同。用于处理图的神经网络,即图卷积与图像上的卷积比较类似,图像上的卷积是用很多的滤波函数,即卷积核,将图像局部像素聚集起来形成新的特征表示。图网络的卷积也是通过聚合目标节点邻居从而更新目标节点的特征表示。不同的是,图像中不同像素点的邻居数量是固定的,而图网络里不同节点邻居数量可能是不一样的,因此不同节点的计算图不同。这样就难以使用传统的CNN、LSTM等处理规则序列的工具处理。

图片 1.png

接下来李伟彬工程师介绍了PGL框架。PGL是百度研发的高效易用的大规模图学习框架,从下往上看PGL以百度飞桨为核心框架,研发图引擎可以支持随机游走、子图采样等内置算法。PGL定制了灵活易用消息传递接口,使用户可以灵活方便自定义图神经网络模型。在灵活易用基础上,PGL依托百度飞桨深度学习平台LODTensor概念,对消息传递、聚合操作进行了性能上的优化,使得在复杂消息传递函数上性能得到了很大的提升。

图片 1.png

介绍完PGL框架,接下来李伟彬工程师介绍了本次竞赛中基于PGL的基线系统。本次大数据竞赛的主要目的是构造一个传感病传播预测模型,通过历史人口迁移数据、历史天气情况等数据预测未来一段时间内新增患者数量。赛题提供数据是不同时间、各个城市区域之间人口流动数据,而城市空间人口迁移其本质是图网络,因此我们可以把每个城市或者区域看成节点,把城市或区域之间人口迁移路线当成是边,从而可以使用图神经网络构建训练模型。综合前面所讲的内容,本次大数据竞赛使用了PGL框架构建图神经网络基线系统,首先把城市中区域作为节点,区域间关联强度作为边,这样就形成了一个空间维度图网络,可以在空间维度进行图卷积操作,从而表征出不同区域间的关联情况,而借助PGL框架我们就可以轻松实现图卷积操作。另一方面,人口迁移情况是随时间变化的,因此不同时间点都可以形成一个对应该时间点的图网络,这样在时间维度上形成了多个图网络,对于每个区域在其时间维度上进行图卷积操作,学习该区域时间维度变化情况。综合空间维度和时间维度,基线系统的实现参考了STGCN模型。

图片 1.png

四、基于人才流动表征的企业竞争力分析

报告人 :2016年本科毕业于大连理工大学,现于中国科学技术大学就读博士学位。主要从事数据挖掘和机器学习相关的研究工作,研究方向包括人才数据挖掘和社交网络分析等。

报告概述:在高速发展的商业环境下,企业间的竞争变得越来越激烈,对于企业竞争力分析的应用有着迫切的需求。而人才流动已经成为当下普遍存在的现象,其背后折射着企业之间的竞争关系,本报告将从人才流动的角度介绍一种企业竞争力分析方法。

报告内容:张乐博士主要就今年发表在WWW2020年的一篇文章进行了分享,包括五个部分:最新工作、预备内容,研究方法,具体实验,报告总结。张乐博士认为,企业间竞争会导致人才流动,相应的人才流动是一个重要的竞争信号,所以通过分析人才流动可以提供更好的范式研究企业间的竞争。

首先,张乐博士介绍了两篇课题组最新发表在KDD2020年关于竞争力分析的工作。第一篇工作是用表征学习方法分析公司之间的合作竞争关系。首先利用公司之间的控股关系、诉讼关系等构建网络,然后将经过处理的公司属性信息(数字属性、文本属性等)输入图神经网络,习得每个公司的统一表征,同时设计特定损失函数,确保表征同时保留公司属性信息和网络结构信息。接着,基于习得表征生成各公司的合作和竞争偏好,再基于偏好预测两个公司之间的竞争与合作关系。在生成偏好时使用符号网络经典理论,如“敌人的敌人就是朋友”等对偏好生成进行约束。该工作得到一些有意思的发现,比如有的小公司联合其他小公司抱团对抗来自大公司的竞争,有的借助大公司的力量减轻竞争压力。

图片 1.png

图片 1.png

第二篇工作是用表征学习方法进行POI竞争力分析。该问题涉及两个网络,一是POI网络,二是收集用户评论数据构建的基于POI的品牌和服务构成的知识网络。如下图所示,整个模型可分成三个模块,模块一通过图神经网络学习POI网络每个POI的表征,改良GNN模型,使之保留POI空间位置分布和位置坐标等信息;模块二通过图神经网络学习POI知识网络中每个品牌,服务对应的表征,最后通过Cross Attention学习成对POI之间的增强语义信息,结合模块一学出的每个POI的表征,预测两个POI之间是否存在竞争关系,并给出解释说明。

图片 1.png



查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1