2020 NeurIPS MeetUP线上参会报告
简介
本次会议是由机器之心对今年NIPS大会上中国投稿人对自己的工作的介绍,里面包含了大量的当前机器学习和深度学习的研究热点,由于最近我也在关注这一方面的动向,而NIPS作为机器学习领域公认的最好会议之一,非常值得期待,下面介绍一下我所感兴趣的两个方面:一是机器学习安全性,另外一个则是目前比较火爆的BERT相关研究。
机器学习安全性
该工作由北大王奕森等人提出,题目为《Adversarial Weight Perturbation Helps Robust Generalization》。
当前AI技术被广泛应用,并且效果远优于以前的方案,然而AI技术却存在难以弥补的安全性问题:将输入进行微小的扰动后,AI会出现极大的错误,这种错误存在于各种AI系统之中,如下图所示:
这种扰动的形式化表示为:
目前解决该问题的最好方法为对抗训练,然而对抗训练会使得训练之后的模型有一个较大的robust gap:
本文针对该问题,提出了一种新的对抗训练方法,其根本思想是考虑到模型的泛化性能可以通过模型扰动的方式来增强,但是传统的扰动训练使用了预先生成的对抗样本使得该方案在对抗训练中失效,因而作者考虑采用实时对抗样本生成的方式较好的解决了这个问题。如此得到了如下的训练方式:
从下面的结果中我们可以看出,这种方式确实减小了rubost gap,且取得了目前对抗训练的最优结果。但是也需要注意随着参数的增大,会导致扰动过大而使得train loss较大下降,从而得不偿失。
DynaBERT
该工作由华为诺亚方舟实验室提出,其文章为《DynaBERT: Dynamic BERT with Adaptive Width and Depth》。
BERT模型自从2018年以来,由于其优异的性能,从而收到了广泛的关注。但是由于预训练模型对性能要求比较大,但是不同硬件的性能不一致,难以在不同设备上部署;并且不同源的同一性能设备环境不同,也造成了模型部署的困难:
现有工作存在的问题:
本文的优势:
其根本方法是分成两部分来训练网络,首先训练一个宽度压缩的BERT,之后根据宽度压缩的BERT训练深度压缩的BERT,本文采用的技术都是比较常规的,但是将它们进行了很好的整合,其应用具体技术如下:
其最终使得BERT模型在宽度和深度方向有了较好的要所率,但必须要指出的是,该方法由于需要多步训练,因而使得训练时间为元模型训练的10倍左右。
总结
从这两个优异的工作中我们可以看出,目前的研究方面并没有采用非常难以想到的方案,多数为现有工作的应用和轻微的改进,但是这些工作都有扎实的理论分析和实验结果,因而在今后的研究中也应该脚踏实地,将理论和实验做扎实才能有好的成果。