2019年RTC参会报告

标签:无 1691人阅读 评论(0)

2019年10.24和10.25参加了声网举办的第一届RTC大会,这里选择以下个人认为比较好的整理下

Neural Adaptive Transport (NAT)——提供互联网规模的交互式媒体服务

演讲者介绍

南京大学,视觉实验室,主要从事视频信号处理和通信研究,视频压缩和编码


主要内容

随着人工智能的发展,AI越来越多的应用到传统领域。除了一般了解到的视频,NLP等一些上层应用,本次马老师将AI应用到网络领域。

视频直播的的流程一般如下:

Raw video ——>Transcoding server ——> Streaming Server,形成能high/middle/low quality—CDN——>客户端

但是上述需要有两个因素最为在线视频的质量:带宽和延迟。因此需要设计一个novel的传输框架。


NAT解决以下三个挑战:

(1)实时的方式找到从远程server到client的最佳路径,同时以极低的延时提供服务可持续性的带宽

——> COR: finding the best path with higher bandwidth or lower delay 

(2)在给定的路劲,在client端进一步加强QoE

——> CVP: reducing the required network bandwidth 

(3)考虑意外的网络动态状态,实时调整是stream,保证QoE

——> ARS: improving the ability to combat network dynamics


第一个问题:

虚拟化以及cloud的应用的使网络编程Overlay network(虚拟机或dockers作为overlay nodes)

1573439928(1).jpg

这将导致底层的网络出现一个问题:不可控制的Internet传输路径——>solution是设计一个最优的overlay路由算法

  1. 将overlay network看作一个神经网络

  2. 输入为过去一段时间内的需求矩阵,如带宽矩阵和延迟矩阵

  3. 路由决策模型根据输入以及算法找到最优的路由,应用于Overlay Topology,从而选择最优的node路径。


第二个问题:

一般高分辨率的视频处理流程如下:

High Resolution(1080p) —> RGB to YUV —>YUV to 压缩流—>Internet传输(1080)—>压缩流toYUV—>YUV to RGB—>client(1080)

但是这种方保证高分辨率的方式需要很高的带宽,这里采用如下方式处理:

High Resolution—> spatial下采样960x540(动态可选)—>RGB to YUV —>YUV to 压缩流—>Internet传输(1080)—>压缩流toYUV—>YUV to RGB—>CVP(learned resolution scaling) —> client(1080)

这个是在客户端前添加了分辨率提升算法(使用CNN),将低分辨率的content提升为高清晰的content,同时不影响content的质量,这将极大减少带宽的需求。


第三个问题:

QoE指标包含三部分:QoE=Bitrate utility - freezeing Penalty - smootheness penalty 

ARS将网络节点以及状态作为输入,构建RNN网络进行训练,根据得分(bitrate utility),采取action。


总结:这些工作主要做了三件事:找最优的路径,有限带宽下传输高质量content,动态调整流,保证QoE


个人体会:

这些工作将AI应用到的网络中,而且做法很有条理性,层层递进,并且这些工作并没有修改底层的网络,而是根据算法找到最优的网络参数值应用到下层网路中,联想sigcomm 2019使用强化学习做资源调度,也是这种思路。

此外马老师讲的很好,并举例了落地应用,讲述中并没有使用大量的数学公式,而是根据工作的展开方式讲述。

个人觉得第二个内容中的spatial downsampling 是有下限的,采样的分辨率有个最低要求,类似的频域信号恢复的采样限制要求。


视频内容理解与推荐算法实践

演讲者:

Hulu  谢小辉


主要内容:

推荐应用颇多,如各式热榜以以及购物,早期的推荐算算法主要是协同过滤,通过历史访问查找相似用户,这些传统的机器学习模型有因子分解机,learning to rank,GBDT等。 深度学习推荐模型则具有更加宽度和深度,主要的模型有DeepFM, DIN, DEN等。

推荐算法的挑战本质来源于对用户不同上下文的用户兴趣或意图的建模。细粒度的内容刻画对关联用户复杂兴趣和意图描述成为必要。

而内容理解与用户兴趣之间通如下两方面关联:

(1)显式的高阶语义的标签刻画

这些高阶的语义标签主要有:内容分类信息,用户评论标签,专家关键词。

(2)隐式的嵌入矢量表示

包括非监督模型,以及以相似性为目标。

所有这些工作的目标是获取精细的内容标签,实现对内容的有效分组。

对Hulu而言,标签集合通过以下方式获取:

第三方标签、内容提供商、专家知识——>人工审核与定制实现分类——>创建内容标签,包括视频派生标签和映射可用元数据。

上述三种标签采用自上而下和自下而上的方式处理。


为了提取描述视频内容的文本信息,采用的内容嵌入表示模型如下:

1573455732(1).jpg

通过上述模型提取出文本的元数据。


个人体会:

Hulu的演讲主要基于自身业务,给人一种解决问题的思路。一般说到内容理解更多的是想到NLP,但是这里从描述内容的嵌入入手,加深了对嵌入一词的理解。演讲者最后还讲述了paper中的思想在实际落地的情况,以及取得的效果。


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1