参会报告:云栖大会-智能算法推荐
个性化推荐,如何成为争夺用户的“核武器”
嘉宾:肖文明 阿里云智能高级算法专家
陈雪峰 映客高级技术总监
肖战勇 快手画像推荐方向负责人
简介:分享个性化推荐算法、推荐策略,以及如何将算法与直播、短视频业务领域紧密结合,打造出争夺用户的给力武器。
推荐系统简介:
映客:映客15年上线,最初采用规则和人为运营进行流量和内容的分发。从16年根据个性化推荐,内容属性若,时效性强,个性化推荐系统经过多个版本的迭代升级,目前已经覆盖映客直播内部十几个核心场景,包括首页、附近、关注等核心场景,与人工运营相比点击率相对提升50%,观看时长相对提升3倍,关注转化率相对提升1倍,同时也验证了个性化推荐在实时娱乐直播上的可行性。
快手:自上线就使用流量分发,让每个作品都可以被感兴趣的人发现。快手目前具有非常多样的生态,包括直播和电商等。其背后的流量分发机制,都是基于个性化推荐的原理,能够让用户在个性化时机,消费个性化的内容。快手有非常先进的个性化推荐基础设施,能够迅速地在不同的产品形态上进行迭代,比如快手极速版,其产品形态是不太一样的,但目前日活已达到了一个可观的量级,个性化推荐技术在其中做了一个非常良好的支撑。
众口难调,如何做到真正的千人千面,和兴趣细分:
快手:内容量比其他平台大,使用历史,实时的行为,运用embeding,多模态识别,对用户进行细粒度的用户画像。目前采用千亿规模参数的在线学习深度学习技术,模型灵活,采用多目标单目标结合的方式,根据实际情况决定底层数据的共享与分离,率先将强化学习应用于视频推荐上,同时注重扩展用户兴趣的边界。
映客:优化对于直播的内容理解,采用图像语音等输入对直播的内容打标签,从而构建用户画像。通过强化学习来挖掘用户的潜在偏好。目前使用深度模型,提升模型表示能力。采用多目标优化方式,通过底层数据共享,更进一步提高个性化推荐效果。
总结:
多模态,面向用户的多模态兴趣建模,面向内容的多模态内容理解
通过确定性,探索性平衡,既能找到用户兴趣,又能挖掘用户潜在兴趣
多目标,通过不断平衡用户和平台收益,达到一个双方平衡
时效性
推荐算法如何提升时效性:
映客:数据推动,用户互动触发更新,采用用户行为日志提取特征来进行毫秒级别的更新,通过在线学习,分钟级别的更新模型。
快手:自研了消息队列的组件,可以对样本,训练目标,特征,用户行为,上亿用户画像,千亿规模参数进行更新。同时采用端上智能,根据用户在客户端实时反馈,对算法进行调整
总结:双方在推荐系统上深度,规模都有积累
目前面临挑战:
映客:目前直播的推荐算法处于探索阶段,对于直播间内容的理解,实时性等问题带来不确定性。
如何更好地刻画用户的诉求
如何建立更合理匹配更好的技术比如图像,文本,甚至是用户社交来更好的对直播间内容进行理解,降低用户对直播间理解的成本。
快手:细粒度刻画,短视频内容理解还是一个不断优化的过程
如何对一个新用户进行兴趣刻画是目前的困难之一,目前采用强化学习有一定的成果。
破圈用户和老用户之间兴趣之间也是有矛盾。
如何在快手多生态的内容中进行个性化适配也是困难之一。
如何对用户的潜在兴趣挖掘。
总结:紧密结合语音,图像,nlp等方面的技术,做到推荐系统与人的可解释可交互。
面向行业的可迁移智能推荐引擎
主讲人:肖文明 阿里云智能高级算法专家
背景:
2018.10.BERT发布,横扫所有NLP榜单,阅读理解超越人类,采取预训练+微调的方式成为nlp领域的范式。后来,各类X-BERT迅速发展。CV,NLP相继向迁移学习发展,推荐系统又该何去何从?
推荐系统的挑战:
1. 推荐系统需要人才
2. 需要搭建起比较完善架构体系
3. 需要跟上智能推荐算法的热潮
4. 从无到有搭建推荐系统需要大量时间
推荐领域现状:
头部企业遥遥领先,海量数据、人力、资源投入大
面向消费的企业推荐系统是孤岛式发展,很难复制
商业化困难,中小平台数据小,不丰富,对成本敏感,基本上采用的是工具式复制,对数据具有依赖性。
预训练+微调的好处:
低成本,跳过训练阶段,快速高效开发
低依赖,对数据依赖低,仅需要少量数据
高回报,有更好的效果,借助成熟的算法模型
可迁移推荐引擎:
目前遇到的挑战:
Online系统的效率,迁移模型是一个相对复杂模型,线上延迟可能会大
Feature工程,未于目标场景提取大量特,难以达到best
目标场景数据分布 源场景和目标场景数据相互隔离,分布可能不一
云产品-智能推荐(AIRec):
总结:
目前的推荐算法紧跟智能算法潮流,在bert横扫nlp届后,他也被逐渐应用在推荐算法中。
一套完整的推荐算法需要搭建起比较完善架构体系,对于中小企业成本过高,迁移学习可以有效解决中小企业面临的成本和数据量问题,或许是未来推荐系统工业化发展方向。