UC商业化广告精准投放核心技术

标签:分布式系统    2279人阅读 评论(0)
分类:

                                     UC商业化广告精准投放核心技术

1.     概述

分享的3位嘉宾都来自阿里创新事业群,分别是高级架构专家和高级算法专家。第一位嘉宾分享的内容包括服务平台、检索引擎、算法策略、数据工程等多个方向。主讲业界智能营销平台是如何打造高性能、高可用、可扩展平台架构的,从服务化、数据传输分法、广告投放引擎、计费、海量数据排序的最佳方案;第二位嘉宾主要介绍如何构想高性能、高效率、低成本的广告系统架构方面的诸多经验和工作;第三位嘉宾主要分享提出MCP模型,通过辅助的网络结构来学习更好的特征表达,同时减少额外的计算来提高CTR

2.     下面是3位嘉宾的分享详细内容

2.1解密商业化广告投放平台技术架构

首先介绍下RPC的架构,包括连接的可靠性、I/O模型、IO线程处理模型、易用性、协议栈、序列化、传输方式,当然他们的平台技术也是基于这种RPC的架构。分享的内容包括5个部分:

1.      投广告

广告投放策略是企业经营和市场营销的重要组成部分,包括品牌要在哪些区域、哪些城市、以多大的广告规模、在哪些媒体上投放广告,广告主要针对自己的哪些产品做宣传,广告以什么规格、版色、排期、诉求来呈现等方面的内容。从这些内容可以看出,在一定程度上广告投放策略是企业市场营销策略的集中表现。因此,对竞争品牌广告投放的监测就成为把握其广告策略,进而分析其市场营销策略的重要手段。由此,企业可以根据分析结果制定针对性的营销策略和广告策略。

2.      存储广告

讲解了传统数据存储包括mysqlredis等但是这些数据库都有一些内存、查询效率上的缺点,所以阿里云自研了X-Engine引擎,还发表了关于自研存储引擎的论文。发表于SIGMOD 2019X-Engine :An Optimized Storage Engine for large-scale E-commerce Transection Processing》。

创新点:

在于LSM-Tree模型,冷热数据分层存储;

事物处理异步+流水线机制,提升写吞吐

只读全排序存储Extent紧凑排列,可压缩减低存储成本

多种手段优化compaction降低对系统性能的冲击

缓存和索引机制优化pointrange query

3.      传广告

广传输流是指投放平台到检索系统的数据通道。主要面临的挑战是:海量数据,天级别几十亿的增量;高吞吐,peak 20w+QPS;搞可用大于59SLA,跨机房容灾,敏感数据不能延迟;变化快,业务不变更频繁。传输的方式分为2种:实时增量链路和天级全量链路。

4.      计广告

实时计费平台:

支持多种计费模式:CPCCPMCPTGD

支持广告主实时调整投放属性,例如预算、有效期、投放时段等

支持广告主的实时充值,退款

超投控制

计费系统的特点:

高并发、访问量大

 

如图显示的就是计费广告系统的架构,实时计费采用的是Flink架构,计算的是用户点击一次广告需要扣除充值的费用多少。引擎与实时计算之间需要有很快的同步,引擎是用来减去充值的费用的。所以他们之间的通信应该延迟几乎没有。

image.png

5.      查广告

查广告指的是OLAP海量数据报表。

image.png

2.2浅谈广告系统架构

1. 智能营销平台简介

商业系统

简介

主要媒体

竞品对标

卧龙

搜索平台广告

神马搜索

百度无线凤巢、搜狗无线营销

汇川

信息流推荐广告平台

UC头条、优酷

今日头条广告系统

应用分发

应用分发广告平台

豌豆荚、PP助手

腾讯应用宝、百度春华


2. 搜索广告引擎

主要包括两个部分,离线部分主要是用户画像挖掘和离线建库构建索引,实时部分主要是实时检索系统进行查询、召回、排序。

image.png

           系统概况:

           日均PV4亿+

           峰值QPS:1

           机器数:2000+

           RT:70ms

      

           竞品比较:

           精算能力强

 

           主要挑战:

           海量物料检索

           海量数据存储

           计算资源分配

           高算力低延迟

           快速业务迭代

       注:介绍了Gprofile,它是问题发现的工具,阿里对其进行改进,可以定位问题到函数层级,比如计算函数消耗时间和所有函数消耗时间,可以实时发现问题所在,有论文介绍。

2.3CTR预估在样式选择建模和特征表达学习方面的进展

1. CTR的介绍

点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)。 CTR是衡量互联网广告效果的一项重要指标。

2.CTR预估业界常用模型

    Logistic Regression(LR)

  Facrazation Machine(FM)

        Depp Neutral Network(DNN)

               Embedding+Fully connected Layer+sigmoid

        Wide&Deep

               LR+DNN

        DeepFM

               FM+DNN

       3.阿里模型现状:

          大规模离散DNN模型作为基本的模型框架

          支持Wide&deepDeepFM模型结构

          自研了时空DNN,深度记忆网络结构

 在特征embedding学习方面自研MPC网络

4.广告的计算流程:

 广告检索->CTR预估->广告初选->样式和物料选择->PSA排序机制->DSA模型。上述流程的详细就是:基于原来的检索逻辑,检索出来创意广告;CTR初排预估,筛选Top N广告;样式和物料组合优选,确定候选样式和创意;PSA机制按位置逐个计算广告展示;DAS模型考虑Rank,样式,物料,上下文广告信息,计算精确的CTR


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1