UC商业化广告精准投放核心技术
UC商业化广告精准投放核心技术
1. 概述
分享的3位嘉宾都来自阿里创新事业群,分别是高级架构专家和高级算法专家。第一位嘉宾分享的内容包括服务平台、检索引擎、算法策略、数据工程等多个方向。主讲业界智能营销平台是如何打造高性能、高可用、可扩展平台架构的,从服务化、数据传输分法、广告投放引擎、计费、海量数据排序的最佳方案;第二位嘉宾主要介绍如何构想高性能、高效率、低成本的广告系统架构方面的诸多经验和工作;第三位嘉宾主要分享提出MCP模型,通过辅助的网络结构来学习更好的特征表达,同时减少额外的计算来提高CTR。
2. 下面是3位嘉宾的分享详细内容
2.1解密商业化广告投放平台技术架构
首先介绍下RPC的架构,包括连接的可靠性、I/O模型、IO线程处理模型、易用性、协议栈、序列化、传输方式,当然他们的平台技术也是基于这种RPC的架构。分享的内容包括5个部分:
1. 投广告
广告投放策略是企业经营和市场营销的重要组成部分,包括品牌要在哪些区域、哪些城市、以多大的广告规模、在哪些媒体上投放广告,广告主要针对自己的哪些产品做宣传,广告以什么规格、版色、排期、诉求来呈现等方面的内容。从这些内容可以看出,在一定程度上广告投放策略是企业市场营销策略的集中表现。因此,对竞争品牌广告投放的监测就成为把握其广告策略,进而分析其市场营销策略的重要手段。由此,企业可以根据分析结果制定针对性的营销策略和广告策略。
2. 存储广告
讲解了传统数据存储包括mysql、redis等但是这些数据库都有一些内存、查询效率上的缺点,所以阿里云自研了X-Engine引擎,还发表了关于自研存储引擎的论文。发表于SIGMOD 2019《X-Engine :An Optimized Storage Engine for large-scale E-commerce Transection Processing》。
创新点:
在于LSM-Tree模型,冷热数据分层存储;
事物处理异步+流水线机制,提升写吞吐
只读全排序存储Extent紧凑排列,可压缩减低存储成本
多种手段优化compaction降低对系统性能的冲击
缓存和索引机制优化point和range query
3. 传广告
广传输流是指投放平台到检索系统的数据通道。主要面临的挑战是:海量数据,天级别几十亿的增量;高吞吐,peak 20w+QPS;搞可用大于5个9的SLA,跨机房容灾,敏感数据不能延迟;变化快,业务不变更频繁。传输的方式分为2种:实时增量链路和天级全量链路。
4. 计广告
实时计费平台:
支持多种计费模式:CPC、CPM、CPT、GD
支持广告主实时调整投放属性,例如预算、有效期、投放时段等
支持广告主的实时充值,退款
超投控制
计费系统的特点:
高并发、访问量大
如图显示的就是计费广告系统的架构,实时计费采用的是Flink架构,计算的是用户点击一次广告需要扣除充值的费用多少。引擎与实时计算之间需要有很快的同步,引擎是用来减去充值的费用的。所以他们之间的通信应该延迟几乎没有。
5. 查广告
查广告指的是OLAP海量数据报表。
2.2浅谈广告系统架构
1. 智能营销平台简介
商业系统 | 简介 | 主要媒体 | 竞品对标 |
卧龙 | 搜索平台广告 | 神马搜索 | 百度无线凤巢、搜狗无线营销 |
汇川 | 信息流推荐广告平台 | UC头条、优酷 | 今日头条广告系统 |
应用分发 | 应用分发广告平台 | 豌豆荚、PP助手 | 腾讯应用宝、百度春华 |
2. 搜索广告引擎
主要包括两个部分,离线部分主要是用户画像挖掘和离线建库构建索引,实时部分主要是实时检索系统进行查询、召回、排序。
系统概况:
日均PV:4亿+
峰值QPS:1万
机器数:2000+
RT:70ms
竞品比较:
精算能力强
主要挑战:
海量物料检索
海量数据存储
计算资源分配
高算力低延迟
快速业务迭代
注:介绍了Gprofile,它是问题发现的工具,阿里对其进行改进,可以定位问题到函数层级,比如计算函数消耗时间和所有函数消耗时间,可以实时发现问题所在,有论文介绍。
2.3CTR预估在样式选择建模和特征表达学习方面的进展
1. CTR的介绍
点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)。 CTR是衡量互联网广告效果的一项重要指标。
2.CTR预估业界常用模型
Logistic Regression(LR)
Facrazation Machine(FM)
Depp Neutral Network(DNN)
Embedding+Fully connected Layer+sigmoid
Wide&Deep
LR+DNN
DeepFM
FM+DNN
3.阿里模型现状:
大规模离散DNN模型作为基本的模型框架
支持Wide&deep,DeepFM模型结构
自研了时空DNN,深度记忆网络结构
在特征embedding学习方面自研MPC网络
4.广告的计算流程:
广告检索->CTR预估->广告初选->样式和物料选择->PSA排序机制->DSA模型。上述流程的详细就是:基于原来的检索逻辑,检索出来创意广告;CTR初排预估,筛选Top N广告;样式和物料组合优选,确定候选样式和创意;PSA机制按位置逐个计算广告展示;DAS模型考虑Rank,样式,物料,上下文广告信息,计算精确的CTR