RTC2019实时互联网大会参会记录

标签:无 1068人阅读 评论(0)

10月24日-25日,我参加了RTC2019实时互联网大会,了解到当前的实时视频的相关技术和前沿应用。下面对几个主题演讲进行简要的分享。附件为本次大会的PPT,可供参考。

 

视频内容理解与推荐算法实践

谢晓辉 Hulu 首席研发经理

 

Hulu是美国本土的一家在线视频服务公司,是一家迪斯尼控股的子公司。主要做视频内容分发,和国内的爱奇艺,优酷比较像。Netflix自制剧,YouTube用户原创内容,而Hulu是一个内容分发平台,有超过500多家内容提供商与Hulu合作。本次分享的更主要是在视频内容理解方面,推荐算法的历史演进过程。

 

推荐,热榜等都是希望用户能够看到最流行的内容,在app中停留更长的时间。针对用户个性化的推荐,早期采用协同过滤:如何推测用户对内容喜欢还是不喜欢,不是分析真实的意图,而是去找类似的用户,根据他们的行为推测下一步的行为。或者对于物品,根据相似的物品进行推荐。规避了真正理解用户的需求,借助一种现象,给用户做推荐。利用非线性模型,传统机器学习,如因式分解机,秩学习,GBDT等方法,把所有用户的特征,或者物品的特征在很多层面上做特征交叉,交叉带来非常丰富的语义,对用户有更加精细的描述。

到2016年左右,出现了很多深度学习的推荐模型,如:wide & deep,DeepFM,DIN,DIEN等等。借助神经网络对特征更加精细化的描述,产生更好的推荐结果,本质上没有再用户的真实意图上进行探索。

 

推荐的挑战在于,用户在不同的上下文中,真实的意图或喜好推荐。和很多其他的AI技术不太一样,无论是视频监控还是人脸识别,是相对客观的应用,而推荐算法的重点在研究人的想法。人为什么喜欢看这个内容,为什么选择在某个时间点选择看某个内容。用户的兴趣变化非常大,面对海量的内容,根据用户的状态,和使用的设备,用户的心情,都会影响到他的行为。所以需要一种非常精细的刻画,真正理解用户的兴趣和意图。

 

当有很多的用户信息数据,如年龄,性别,收入,用的设备等等特征,但是这些信息还远远不够,推荐是用户和物品匹配的过程,如果用户有成百上千种不同的兴趣,那么就需要将物品也进行精细化的切分,只有这样才能将用户和物品做非常好的匹配,这也是为什么在当前做推荐的很多团队,非常看重内容理解的原因,内容理解可以解决相似性问题,另外就是需要给用户一个推荐的原因,否则用户对算法为何推荐这样的内容而感到困惑。

 


MPEG-DASH 在 bilibili 的实践、优化与思考

丁建强 Bilibili 资深前端工程师

 

2016年哔哩哔哩开始使用html5播放器。首先,分享了一些有意思的数据:82%,思科预测到2022年视频流量将占全部IP流量的比例约为82%;5.1亿,b站每日的日均视频播放量为5.1亿;两秒,一个网页最佳打开时间不应该超过的值。从这些数据我们不难看出视频播放,或者说流媒体播放,在未来的生活中将占据着越来越重要的角色。

 

在过去的一些流媒体,或者说视频播放体验中,经常会遇到一些痛点,比方说,打开时长过长,切换体验不佳,卡顿频繁等等。在过去的流媒体或者视频播放中,这是很明显的问题,为了深度优化用户体验,b站在去年正式引入了mpeg-dash来解决这些痛点和优化用户体验,分享主要分为以下三块:mpeg-dash的现状与介绍,mpeg-dash的实践与优化,主要偏向于web端,(因为移动端参考了web端,所以大体都是类似的)。最后,是关于mpeg-dash的未来和展望。

 

mpeg-dash是什么?mpeg-dash是于2011年推出的一项流媒体协议,并于次年成为了一项国际化标准。它是一种自适应比特率串流技术,可以基于现有传统的http服务器。让播放器可以自由地控制用户的码率,mepg-dash中有一个核心描述文件mpd,类似于hls中的m3u8,由mepg-dash码流构成,里面包括了一些使用到的媒体信息,音视频时长和下载url等一个mpd中会有一个或者多个period,每个period代表的是一段时长的媒体信息,例如一个60秒视频,可以有一段60秒的period,也可以是两段30秒的period。每个period中包含多个adaptionset,分别代表了不同类型的数据,如音频,视频,字幕等等,每个单独的adaptionset中包含不同码率的媒体信息。mepg-dash的核心思想是将文件分为一个个小块,文件是对齐,在开始播放时采用比较低的码率提供给用户播放,等用户的网络或策略允许时,将切至用户可以接受的最高码率,保证用户的最佳观看体验,而不会打断用户的观看。

 

对比主流的流媒体协议,包括hls和http-flvmpeg-dash有一些优势,它是一个国际化标准,支持实时音视频分离请求视频切换时,是不需要更改音频的,节省了一定的带宽,与hls相比,更加灵活,可以根据业务进行动态调整。YouTube,Netflix等国际大厂都将mepg-dash作为一种核心的流媒体技术所以基于以上种种优势,b站在去年将mpeg-dash作为核心的流媒体技术。

 

 

基于深度学习的实时直播内容风控

肖康 数美技术副总裁

 

数美是一家2015年成立的创业公司,主要是做ai的saas服务。目前主要在风控和反欺诈领域,风控就是做内容的识别和审核,反欺诈就是做各种业务的反爬和反欺诈等。今天的内容聚焦在内容的风控层面,随着5g时代的到来,内容越来越丰富,在这样一个场景下,互联网上的内容吸引用户,但是同时内容又会带来一定的风险,特别现在监管的力度越来越大,有害的内容其实会给互联网企业带来非常大的生存压力,轻则整顿,重则关停,情况是非常严重的。

 

在这种情况下,首先想到的可能是通过人工去审核,人做这种工作会有很多的弊端,比如说人工审核成本高;音视频内容很多,人工审核的效率比较低,一个人看的视频,听的音频非常有限;标准比较难以统一,需要给审核人员做培训;将ai技术应用到内容审核场景中,数美提出了一套解决方案——天净。社交,直播,电商等场景中,都可能会有大量的内容需要。通过不同类型的媒体的载体去做风控,包括像音视频,图片,文字,网页等做到全面覆盖,通过一系列技术解决整个问题,包括内容的识别将特征识别出来之后,进行决策,最终给出一个处置的建议,包括通过,拦截还是进入人工审核的阶段。

 


深度学习cv算法在WebRTC的落地探索和尝试

刘阳 字节跳动 高级移动端图像算法工程师

 

内部业务线如抖音,火山都会有大量的cv类的算法需求,如人脸检测,关键点定位,以及分类分割。背后的算法支持,如贴纸等等,都应用了深度学习算法,只是落地场景是移动端。积累了大量native层的c++算法。现有的技术积累,包括人脸检测,支持多人脸检测,等一系列的sdk,识别性别,年龄,表情,以及一些动作,眨眼,张嘴,摇头,点头,嘟嘴;人体关键点可以检测出人体的骨骼,可以实现拉长腿等需求。手势相关,检测手部,以及当前的手势,手指的关键点。对宠物的识别,宠物脸部关键点检测。业务背景包括手机端视觉交互场景,大屏端视觉交互场景,身份认证场景,虚拟试装场景等等。

 

深度神经网络能不能实时的落地在商业的场景中,最关键的问题是前向推理计算的计算效率。目前解决这个问题通过以下三个方面:

1.训练一个更适合实时部署的预测模型,训练更小的深度学习预测模型,像ResNet,MobileNet还是比较大,放在移动端或web端计算仍然非常密集。

2. 进行低比特量化,通常使用的数据类型是浮点型,对于计算资源的消耗比较高,通过低比特量化到如INT类型。

3. 预测框架的优化实现,把计算密集型的点通过指令集的层面进行加速。

 


互联网语音技术中的关键审核技术

胡泊 依图科技 高级架构师

 

近年来,云内容审核的问题受到广泛关注,互联网语音内容中包含涉政,反动,辱骂,色情等违规信息。相对于较为成熟的视频直播而言,语音类信息中,含有的违规信息更加隐蔽。与视频直播不同的是,语音直播聊天室的受众比较小,通常不超过100人,很多情况下是一对一的聊天。主播和受众交流的过程中,可能会夹杂违规的信息。主播可能由经纪公司管理,比较规范,但是用户也可以上麦,用户发言群体广,专业性不强,风险也在增加。

 

语音审核和视频审核有很大不同,比较成熟的视频图片审核依赖于人工。人工对语音审核效果非常差,因为人无法记住数十万语音的敏感词,对规则难以记忆,语音敏感词更新速度非常快,经常出现互联网新型的敏感词汇,人不断学习记忆难度很大。人工的成本非常高,一个专业的图片审核员,以8小时计算,最多每天可以审核上百万张图片,成本约为100元;语音类信息审核,如果纯靠人工审核,那么人只能听8个小时的音频。如果有500个语音房24小时进行审核,需要500*3个人进行审核,成本非常高。转化成用AI审核,审核成本会大大降低。


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1