2019年RTC参会报告
2019年10.24和10.25参加了声网举办的第一届RTC大会,这里选择以下个人认为比较好的整理下
Neural Adaptive Transport (NAT)——提供互联网规模的交互式媒体服务
演讲者介绍
南京大学,视觉实验室,主要从事视频信号处理和通信研究,视频压缩和编码
主要内容
随着人工智能的发展,AI越来越多的应用到传统领域。除了一般了解到的视频,NLP等一些上层应用,本次马老师将AI应用到网络领域。
视频直播的的流程一般如下:
Raw video ——>Transcoding server ——> Streaming Server,形成能high/middle/low quality—CDN——>客户端
但是上述需要有两个因素最为在线视频的质量:带宽和延迟。因此需要设计一个novel的传输框架。
NAT解决以下三个挑战:
(1)实时的方式找到从远程server到client的最佳路径,同时以极低的延时提供服务可持续性的带宽
——> COR: finding the best path with higher bandwidth or lower delay
(2)在给定的路劲,在client端进一步加强QoE
——> CVP: reducing the required network bandwidth
(3)考虑意外的网络动态状态,实时调整是stream,保证QoE
——> ARS: improving the ability to combat network dynamics
第一个问题:
虚拟化以及cloud的应用的使网络编程Overlay network(虚拟机或dockers作为overlay nodes)
这将导致底层的网络出现一个问题:不可控制的Internet传输路径——>solution是设计一个最优的overlay路由算法
将overlay network看作一个神经网络
输入为过去一段时间内的需求矩阵,如带宽矩阵和延迟矩阵
路由决策模型根据输入以及算法找到最优的路由,应用于Overlay Topology,从而选择最优的node路径。
第二个问题:
一般高分辨率的视频处理流程如下:
High Resolution(1080p) —> RGB to YUV —>YUV to 压缩流—>Internet传输(1080)—>压缩流toYUV—>YUV to RGB—>client(1080)
但是这种方保证高分辨率的方式需要很高的带宽,这里采用如下方式处理:
High Resolution—> spatial下采样960x540(动态可选)—>RGB to YUV —>YUV to 压缩流—>Internet传输(1080)—>压缩流toYUV—>YUV to RGB—>CVP(learned resolution scaling) —> client(1080)
这个是在客户端前添加了分辨率提升算法(使用CNN),将低分辨率的content提升为高清晰的content,同时不影响content的质量,这将极大减少带宽的需求。
第三个问题:
QoE指标包含三部分:QoE=Bitrate utility - freezeing Penalty - smootheness penalty
ARS将网络节点以及状态作为输入,构建RNN网络进行训练,根据得分(bitrate utility),采取action。
总结:这些工作主要做了三件事:找最优的路径,有限带宽下传输高质量content,动态调整流,保证QoE
个人体会:
这些工作将AI应用到的网络中,而且做法很有条理性,层层递进,并且这些工作并没有修改底层的网络,而是根据算法找到最优的网络参数值应用到下层网路中,联想sigcomm 2019使用强化学习做资源调度,也是这种思路。
此外马老师讲的很好,并举例了落地应用,讲述中并没有使用大量的数学公式,而是根据工作的展开方式讲述。
个人觉得第二个内容中的spatial downsampling 是有下限的,采样的分辨率有个最低要求,类似的频域信号恢复的采样限制要求。
视频内容理解与推荐算法实践
演讲者:
Hulu 谢小辉
主要内容:
推荐应用颇多,如各式热榜以以及购物,早期的推荐算算法主要是协同过滤,通过历史访问查找相似用户,这些传统的机器学习模型有因子分解机,learning to rank,GBDT等。 深度学习推荐模型则具有更加宽度和深度,主要的模型有DeepFM, DIN, DEN等。
推荐算法的挑战本质来源于对用户不同上下文的用户兴趣或意图的建模。细粒度的内容刻画对关联用户复杂兴趣和意图描述成为必要。
而内容理解与用户兴趣之间通如下两方面关联:
(1)显式的高阶语义的标签刻画
这些高阶的语义标签主要有:内容分类信息,用户评论标签,专家关键词。
(2)隐式的嵌入矢量表示
包括非监督模型,以及以相似性为目标。
所有这些工作的目标是获取精细的内容标签,实现对内容的有效分组。
对Hulu而言,标签集合通过以下方式获取:
第三方标签、内容提供商、专家知识——>人工审核与定制实现分类——>创建内容标签,包括视频派生标签和映射可用元数据。
上述三种标签采用自上而下和自下而上的方式处理。
为了提取描述视频内容的文本信息,采用的内容嵌入表示模型如下:
通过上述模型提取出文本的元数据。
个人体会:
Hulu的演讲主要基于自身业务,给人一种解决问题的思路。一般说到内容理解更多的是想到NLP,但是这里从描述内容的嵌入入手,加深了对嵌入一词的理解。演讲者最后还讲述了paper中的思想在实际落地的情况,以及取得的效果。