RTC2019实时互联网大会会议报告

标签：无 2019-11-02 16:51 2075人阅读评论(0)

分类：

期刊和会议（9）

10月24-25日两天，声网主办的RTC2019在北京举办，会议分了“AI与RTC”、“编解码技术”、“下一代RTC”、“大前端应用开发技术”、“QoE与高并发网络架构”五大专场。因为几大专场同时举行，现在对这两天参与的几场进行简要的总结。

1.实时视频技术的现状和未来声网Agora 首席科学家钟声

首先钟声提到了实时互动技术日益普及，人们也越发需要如同真实生活般的体验，而如果音视频的传输卡顿，延迟高，会造成VR，360°转播不会给人们带来很好的体验，实时音视频技术在这方面可以比传统技术提供更好的体验。

接着他总结过去一年声网的核心工作：

1）在低延时下能够保证70%丢包率也能给人们带来比较好的体验。

2）进一步提高编码效率，利用人工智能深度学习方面的技术，做到了画质不下降的基础上又更高的压缩比。、

3）利用AI方面的算法提升图像解析度。

4）设计可以基于更小数据的小模型快速学习算法，使其可以在移动端实时运行。

5）音频方面加入AI降噪。

最后他谈了5G时代对实时音视频是一个非常好的机会，也聚焦了5G时代可能面对的问题，实时音视频在4K、8K画面下如何自适应的面对3G/4G/5G的网络切换，硬件方面也需要进行一定的提升以来面对大带宽下的海量数据传输。

2.Deep Learning based Super Resolution for mobile RTC声网Agora AI算法工程师周世付

首先周世付介绍了超分算法在近年来有着广泛的应用场景，同时提出了RTC的一个通点问题即RTC技术传输的视频的分辨率较低，为了提高用户体验需要对低分辨率的图像进行放大。

周世付介绍了目前行业中对图像进行放大的插值算法会出现图片的模糊、在图像的一些细节会丢失，而超分算法可以比较好的复现细节。超分算法有两种，分为图像超分SISR、视频超分VIR。图像超分是对单张图片进行神经网络的运算，而视频超分是输入图像序列，算法会参考前后帧的图像，恢复出来的图像更加平滑，但是其运算复杂度更高。之后主要介绍了运用深度学习网络的SRCNN、SRGAN、ESRGAN、XNORT-Net、Mobile-Net等算法。

最后他介绍了声网的Agora mobile解决方案，其在图像放大上采取的是两倍放大而不是差分算法普遍的四倍放大，同时在谷歌的Mobile-Net基础上进行优化，声网的agora GAN-SR模型比谷歌提出的Mobile-Net更小，放大两倍的运算复杂度更小。

3.视频内容理解与推荐算法实践 HULU 首席研发经理谢晓辉

首先谢晓辉介绍了推荐算法的发展过程，推荐的原型是从热搜/热卖帮开始，期望让用户在app停留更多的时间。各大厂商为了让用户看到自己感兴趣的内容，开始了推荐算法的研究，最早从协同过滤算法开始，随后发展到传统机器学习leraing to rank、GBDT等算法，再到深度学习利用特征进行更加精细的推荐。

其次，他指出了内容理解是当前推荐算法的一个核心工作点。他指出视频内容理解包含4部分：

1）显示的基于高阶语义的标签刻画。

2）隐式的嵌入矢量表示。

3）故事与情节的引人入胜。

4）视觉、听觉因素的影响。

随后谢晓辉主要在HULU的内容标签如何实现扩充上以及内容如何做嵌入表示上做了详细的介绍。HULU的内容标签目前从内容提供商、第三方标注以及算法自动生成三种途径得到。HULU用了三种模型进行标签的自动生成，第一种模型是借助热播剧的一些标签作为标注信息进行标签预测，利用NLP的Trasnformer把视频的信息做成序列进行预测，这种方式生成了180多种标签，准确率在85%以上。第二种模型是聚合视频每一帧主要出现的场景进行迁移学习。第三种模型是针对特殊标签的处理，前期利用搜索引擎找到特殊标签的种子图像来进行训练，然后将模型应用在HULU的视频上。在内容嵌入上HULU借鉴了NLP中的词嵌入的方法进行了一些探索。

最后谢晓辉提出了视频内容理解面对的一些挑战：是否有比嵌入式矢量更好的方式能够反应用户的兴趣；如何从消费序列了解用户的兴趣；如何解决视频描述的语义鸿沟；如何把内容标签更好地映射到用户的兴趣上。

4.互联网语音内容审核的关键AI技术依图科技高级架构师胡泊

今年以来由于语聊房等语音服务的快速发展，语音内容审核受到大量关注。语音内容可能包含涉政、色情等违规信息，而语音内容审核技术与图片内容审核技术差距过大，人工审核时人无法记忆几十万的敏感词导致审核效果差，如何有效的进行语音内容审核成为了一个难题。

依图科技针对机器听不清（背景音乐，主播语速快，发音不标准）、机器听不懂（涉政，色情等内容表达变化多端）、机器分不开（呻吟、娇喘色情内容会混杂在对话以及歌声中）三个方面提出了针对性的解决方案。

1）语音识别技术：针对强背景音，依图考虑各种可能出现的影响因素，模拟环境音生成数据，进行了数据增强训练。针对特定专有词，依图增强特定词语的Loss强度，同时设计算法针对词的搜索空间进行动态调整。

2、自然语言处理技术：针对机器听不懂的问题，依图首先利用正则表达式与简易模型对文本进行预分类，随后利用BERT模型，配合语音情感等多模态信息进行文本分类。

3、声纹识别技术：针对敏感音频检测，依图利用Attention机制+整体分类的模型进行分辨，同时训练声纹模型来进行迁移学习，识别语音中的敏感音频。

5.实时互联网技术在5G时代的挑战与机遇声网Agora 技术VP 孙雨润

首先孙雨润以开车上班堵车为例，提出是否可以设计一种智能导航，在出发前就规划好每个路口如何通行，让人可以全程高速并且不堵车的情形下到达公司。他指出实时互联网技术就是类似这种在骨干网上实施的智能导技术，接着他阐述了现阶段各领域面对互联网拥塞控制的解决方案：

1）视频会议，目前的企业会议是租用昂贵的专线来进行解决。

2）在线教育，与企业会议一样租用专线进行老师与学生的一对一。

3）传统媒体的实时互动，记者需要与主持人进行连线，目前的解决方案是利用卫星通信。

然后他阐述了实时互联网技术的核心，目前实时互联网解决拥堵的思路是先派出一些哨兵对骨干网进行探测，利用图论中的算法发现点与点之间的最短路径，形成一个叠加层的网络，随后进行迭代优化，为用户提供最佳路径。

最后他展望了5G时代实施互联网面对的机遇与挑战，机遇是走向骨干网的设备越来越多，挑战是硬件层面没有过多的提升，骨干网会更加拥堵，实时互联网的算法会面对更多难题。

6.滴滴20GB+/s日志系统的架构设计滴滴出行高级软件开发工程师黄佳伟

首先黄佳伟提出了滴滴出行在日志系统上面临的挑战：体量大（3w+容器，1.1w+物理机，800T每日数据）；低延时（服务要求秒级）；峰谷差异大（高峰期是低峰期的20倍）；资源有限；线上环境复杂（操作系统、文件系统各式各样）。

接着他分享了滴滴出行日志系统的3个版本的架构，1.0版本是以最小成本，快速将日志送到下游进行分析为目的进行设计的，1.0架构如下图所示。

1.0版本架构图

1.0版本的缺陷：1）运维困难（flume本身没有可视化界面）；2）稳定性差；3）性能不足（flume每个组件的数据传递以同步事务提交解决，性能比较差）。

基于1.0版本，他们团队设计了2.0版本：主要由自研引擎+运维平台构成，对1.0版本进行优化。

2.0版本自研引擎架构图

2.0版本的自研引擎架构如上图所示，其在稳定性的提升是：flume功能精简（日志到kafka设计成了单一处理，使用日志的业务可以自行在kafka进行消费）；日志采集抽象为日志模型方便配置；采集状态本地化。其在性能的提升是：缓存形式读日志（如先读1M数据进内存，后续操作每一次从内存中进行读取），日志分批发送到kafka，保证kafka的性能。

2.0运维工具化图

2.0的运维平台如图所示接入了工单系统等，让其平台的接入效率有了提升，同时在运维效率上也有了一定的提升。虽然2.0版本对1.0版本有了很大的提升，但是整个2.0版本依旧存在引擎性能不足，依赖组件过多，资源分配能力不足的问题，于是有了3.0版本的架构设计。

3.0自研引擎架构图

3.0的自研引擎主要在采集上做了很大的优化：

1）由于读普遍速度很快但是发送会很慢，日志采集通道改成了多个kafkaSink，保证发送速度和读取速度接近。

2）因为离线资源的分析在2.0版本会影响自研引擎的性能，加入日志加载到hdfs的模型。

3）设计了动态和分级限流模型，利用管理平台评定的重要性等级进行L1，L2，L3三级的分级，动态限流管理器根据上一周期以及当前cpu的使用量计算出分配

4）同步转异步：

3.0调用kafka的异步接口而不是之前同步接口，提升了性能。

最后他分享了对日志系统设计的思考，首先是用户体验方面的思考，比如用户需求接入应该实现自动化，系统报警应该实现自助化；第二个是系统层面的思考，设计之初应做好谨慎评估，避免过度设计，做好资源的分级分类保障，达到资源分配给更核心的业务，元数据治理方面需要考虑可扩展性。最后一个是在引擎设计方面的思考，需要做到极致优化，同时引擎自身做到对资源的管控与分配。

个人看法：5G时代会实现万物互联，RTC技术会落地更多行业、会有更多的场景创新，网络流量处理与分析在5G时代同样会面临更大的挑战，我们可以借鉴其他行业引入AI算法的经验，在分析中引入一些专家知识来构建自己的算法模型，让处理与分析工作更加高效。

查看评论

暂无评论