都说这是流量的时代,得流量者得富贵。其中广告是获取流量非常重要的手段。根据前瞻产业研究院整理的报告显示,2019年我国广告市场总体规模达到了 8674.28 亿元,其中互联网广告总收入为4367亿元,超过总规模的50%,相较于2018年增长速度为18.22%,并且将继续保持强劲的增速。
在热闹的资本背后,总会有人试图走捷径牟取利益,虚假流量成为广告行业难以治愈的隐疾。根据秒针系统的报告显示,2019年互联网广告异常流量占比为 31.9%,异常流量造成的直接损失达到284亿。其中大多数行业的异常流量都超过 30%,网络及通讯、房地产以及家装家具行业为 top3 行业,超35% 的广告流量都为异常流量。
虚假广告流量最直接的受害者便是为高额广告费买单的企业,往往是看到流量波涛汹涌,钱也哗哗如流水,但是转化却很不如人意。比如19年10月一微博KOL发布的一条原创Vlog,吸引了353万的观看,但是给合作电商商铺带来的转化却几乎没有,这种让人瞠目的事情,在我国营销市场中并非偶然事件。
本文将试图通过一些数据、技术分析以及案例为大家阐述关于虚假流量的四个方面:
何为虚假流量
虚假流量背后的动机
作弊手段分析
如何识别虚假流量
虚假广告流量又可以说是无效广告流量,根据中国广告协会的标准,无效流量可以分为:一般无效流量(GIVT)和复杂无效流量(SIVT)。
一般无效流量:指能够通过应用多种名单或标准化参数等常规方式进行过滤的流量。
复杂无效流量:指需要通过高级分析、多方合作协调与人工干预等方法进行分析和识别的流量。
比如一些常规的浏览器爬虫、已知来源的机器流量的访问是一般无效流量,可以通过标准化参数将其过滤掉。目前造成互联网广告虚假流量的多是指 SIVT。(下文我们将复杂无效流量、虚假广告流量统称为虚假流量)
要探讨虚假流量的来源,就要先了解互联网广告投放是如何进行的,利益是如何在投放的各个环节中流动,并且在哪些环节被窃取了。
广告的投放过程大致可以简化如下:
广告主找媒体或者代理商投放广告,媒体平台有很多种(包括网站、视频、微信、APP等等)利用各种形式将广告送达用户端。当然,不能媒体说投放了就可以收钱了,广告主还需要知道投放的质量。为了保障投放的质量,需要媒体或者第三方监测平台对投放数据进行监测,然后广告主根据数据统计进行付费。当然,这只是简单的抽象出来的模型,实际上广告的投放则会有更多复杂的中间平台,尤其是移动端广告的投放。
第一类:按照展示量结算(CPM)和按照点击量结算(CPC)
第二类:按照转化量结算(CPA)和按照销售额结算(CPS)
由结算的方式很容易可以联想到,制造虚假流量可以在展示量、点击量以及转化量等指标上做文章。
造假当然是利益驱动,不过造成行业内虚假流量泛滥成灾的原因还比较复杂。主要有以下几点:
推广平台为了获取虚假广告收入;
各方为了完成KPI;
有的广告主为了获得投资,造假流量;
企业的竞争对手打击报复;
著名的营销大师 John Wanamaker 说过:“我知道在广告上的投资有一半是无用的,但问题是我不知道是哪一半”。所以为了能够了解广告投放的效果,就需要进行监测。广告监测的主要原理是广告展示平台向监测平台传递一些信息和参数,监测平台通过分析这些参数达到两个目的:确认这些流量的真实性和确认流量的数据的准确性。
具体的监测的方法包括:
1. 直接 JS 部署监测代码,将客户端信息以参数的形式拼凑成 URL 链接,并以 http 请求的方式传给DMP 平台。
2. 部署 API 监测
3. 部署 SDK 监测
4. 归因监测
不管是什么形式的监测,都需要传递客户端参数,以移动端为例,常见的客户端参数有如下几种(数据来自《中华人民共和国广告行业标准》):
除了这些,常见的需要被收集的参数还有展示广告时间戳、操作系统、浏览器、设备类型、联网方式、 APP 信息和标准 UA 信息等。流量作弊的本质就是欺骗监测代码,我们将流量作弊的方法分为三个大类:用机器刷流量、暗刷流量以及真人刷量。
01 机刷流量
利用机器刷监测代码
利用程序自动刷监测代码的方法非常简单,就是直接访问监测代码的URL地址,伪造数据骗过监测代码。但是,一般一些防火墙或者初级防御手段都会对IP地址、cookie信息这些做检测,所以机刷还需要快速随机的切换IP地址信息。像现在的防作弊手段越来越多了,这种简单粗暴的机刷跟人的行为差距很大,很容易被发现。
手机群控刷量
群控是现在黑产生产效率提升的一种模式:群控,属于直接数控。可以用一台电脑控制上百部手机,实现手机群控。
图片来源:百度百科
很明显,这种手机群控,一台手机实现的访问、点击甚至是注册,就要比直接机刷服务器URL要显得真实得很多。当然,如果一台手机仅仅完成一个任务,这成本会相当的高,所以配合上游的号商、卡商以及代理IP等,就能够实现大规模的手机群控刷量。
市面上有很多光明正大做这种群控软件的厂商,有按照手机数量收费的,也有年租付费的。
02 暗刷流量
暗刷流量,顾名思义就是暗地里刷。利用一些手段,欺骗真实用户,在不知不觉中刷了流量。主流的手段包括客户端插入JS代码、iframe造假、肉鸡等。
客户端刷监测代码
在上文我们提到了用服务器刷监测代码, 虽然简单直接,但是在IP和cookie等用户身份统计上很难做到自然,于是产生了在客户端刷检测的代码。例如用户访问某个网页,其实页面上的 JS 在用户不知情的情况下,会多增加几次浏览,或许还有一次点击,这样一来,在用户行为上,比较自然和真实。
iframe 造假展示
iframe 是一个 HTML 标签,可以在当前页面中插入其他页面的内容,常常被用来作为承载展示广告的载体。iframe 有诸多属性可以设置,其中包含广告图片的宽度 width 和高度 height 设置。通过对这两个参数的设置,可以将广告尺寸从肉眼可见的大小变成不可见的 1 * 1 。
肉鸡和Root
肉鸡也称傀儡机,是指可以被黑客远程控制的机器。比如用"灰鸽子"等诱导客户点击或者电脑被黑客攻破或用户电脑有漏洞被种植了木马,黑客可以随意操纵它并利用它做任何事情。
2019年腾讯安全反诈骗实验室追踪到一款恶意集成到各种应用中的SDK,该SDK 通过 webview 配合 js 脚本可以在用户无感知的情况下刷百度广告。
具体流程如下:
图片来源:腾讯安全防诈骗实验室
普通用户如果去一些不太正规的网站下载APP应用,很容易被植入一些恶意程序,然后自己的设备就成了黑产的肉鸡。
Root 是指操作系统中超级管理员权限,某些恶意APP拿到恶意权限之后,就会在后台进行各种访问、点击、下载等操作。
诱骗点击
诱骗点击的事情,我们的普通用户应该遇到过不少。尤其是在搜索一些视频、书籍和资料的时候,很多网站会出现在搜索结果中,但是点进去之后发现却是广告。
网页劫持
网页劫持是很常见的现象。比如我们在网上浏览资料,却很突然的被传送到一些莫名其妙的页面,铺满各种“屠龙宝刀点击就送”或者“XXX菠菜城,充值2000送2000,美女荷官在线发牌”之类的内容。就算不是页面跳转,网页也有可能被插入额外的广告,出现一个充满诱惑的小弹窗无法消除。
03 真人刷量
真人刷量大家都比较好了解,就是付费请人看广告。比如广告主付费1块钱,看广告的人给一毛钱,广告平台还能从中赚取9毛,典型的舍小利赚大利。而现在真人刷量已经发展出了较为成熟的人肉众包模式。关于网赚与挂机我们在之前的一篇报告《网赚江湖与流量欺诈》有非常详尽的分析,下面关于这两块内容我们只做简单介绍。
网页端挂机
网页端的PC广告刷量便是由来已久的网赚挂机,由挂机平台聚合广告联盟的各种需求,分发给遍布各地的互联网网赚人员,大家只需要开着自己的电脑,就能刷出“真实”的流量来。
移动端刷量
移动端的人肉众包主要是针对各种新媒体内容平台以及APP渠道推广。包括点击、浏览、评论、下载、注册、试玩等等行为,都可以刷。
比如这个叫做蝌蚪托管的平台,注册该平台后,用户将自己的微信交给平台托管,平台可以利用账号去做各种任务,比如刷微信的阅读量,注册其他软件APP等,该平台还有抖音的任务。
广告流量作弊的手段实在很多,而且越来越复杂和逼近真实用户流量,专家预估国内刷量产业的人员规模累计达到 900 万左右。不惜成本代价也要刷量的背后,是有极大诱惑力的巨额利益。据腾讯安全研究发现,在我国,各类刷量平台的数量超过 1000 家,处于头部的 100 家每月的流水在 200 万元以上。
虚假流量整个行业内部很复杂,有专门提供软件服务和账号的上游,有专门聚合普通刷量网赚人员和客户的刷量平台,也有利用广告作弊赚钱的独立公司。关于软件服务和号商以及人肉众包平台我们在前面的报告和文章中已经讲得很多,这里我们主要看广告作弊是如何运作的。
01 代理商运作
常某是广告刷量业务从业人员,在他手上有很多代理商,这些代理商可能是一些内容平台,可能是像上面提到的众包平台,也有可能是一些小媒体,常某相当于将这些代理商资源掌握在自己手中,做一个中介服务。当有客户需要暗刷,常某就可以将点击链接分发到下面的各层代理商,而各层代理商通常会用上面的各种手段来实现该链接的暗刷。比如说将链接做成吸引用户的图片,用户点击该图片并不知道也完成了另外一个广告的点击,又或者利用积分或者赏金吸引用户去点击。
02 里应外合
网页劫持是前几年非常常见的一种广告作弊形式,网页劫持主要是通过运营商服务器进行DNS域名劫持,然后将网页篡改,给一些其他网站做推广。这其中最难的问题就是如何能够利用运营商的服务器或者登录运营商的系统。很多时候都是由一些黑产从业人员联合运营商的内部员工,利用职务之便,进行黑产活动。比如下面的几个案例均是黑产人员勾结运营商内部员工,在运营商机房内部署了服务器或者拿到了运营商系统的权限植入恶意软件,从而实现了DNS域名劫持。
不仅如此,在第三个案例中,黑产还利用获取到的端口,拦截用户的 QQ cookie 数据进行淘宝推广获利。从这些案例中我们不难发现,通过网页劫持获取推广费利润十分诱人,动辄是上百万元的收入,而仅需要两三个人就可以运作。
03 广告诈骗
广州市破获一起广告诈骗案件,案件中黑产从业人员利用刷量技术,从某科技公司广告联盟骗走了500万元。实现过程是首先注册多个正规公司,在通过正规公司广告联盟部门的账号、财务审核以后,开始向广告联盟平台提交APP软件并申请发放广告。在提交的正规APP软件通过审查并获得平台下发的广告后便偷梁换柱,将本应挂在正规APP上供用户点击的广告挂在作弊APP上。
这种作弊APP不能被用户正常下载使用,但可以通过技术手段,模拟真人点击广告的效果,伪造APP流量,骗取广告联盟平台的广告推广回报。广告公司要求,点击广告链接,并成功下载、安装完成链接中的产品,才算一个有效点击,才会给该公司付费。该公司总共10余人,每天伪造虚假点击约300-400个。几个月时间,就“套路”了广告公司500万元。
这是一种利用软件模拟真人点击。如果该公司使用像人肉众包的模式,这种流量虽然是真人,但是都是无效的,并且排查起来还会更加困难。
04 诈骗中小企业广告主
当然,这是从广告联盟代理商那里骗钱,也有直接从广告主手中骗钱的诈骗团伙。这些黑产会注册一个正规的公司(XXX媒介服务公司、XX广告公司),然后有自己的网站和服务体系(QQ),通过百度推广、QQ群、微信推广等吸引甲方客户(一般是一些小的个体经营或者小微企业)。然后说辞包括是与运营商有合作流量、正规广告联盟、手下有很多网站流量,XXX等,由于一些小企业或者个体户并没有很好的技术实力去分析和统计流量的真实性,这些诈骗公司直接通过一些简单的作弊手段就能轻松骗取广告费。
虚假流量在行业中泛滥的动机很复杂,除了单纯的广告诈骗公司以外,各方(广告主、媒体推广平台)对于虚假流量的态度可以说是模棱两可,有益有害要视具体执行的人和谁来买单而定。但是造假终究是造假,虚假流量对于广告主或者媒体平台而言,自认为有益反而可能是饮鸩止渴。
对广告主而言,虚假流量白白浪费了推广成本不说,表面的数据并不能带来真正的转化和口碑,还往往使得产品错过了最佳的推广时机,后续再想要弥补效果就会大打折扣,其显性和隐性成本都非常高昂。虚假流量带来的假象还会给企业决策带来误导,直接影响企业战略上的方向,给企业发展带来严重损失。
对媒体推广平台而言,虚假流量是表面的繁荣,客户最终转化效果不佳将极大打击媒体平台的信誉。品牌信誉对于一个企业有多重要不言而喻。另外,虚假流量的门槛比优质媒体内容低很多,虚假流量盛行必然造成优质媒体平台的生存空间受到打压,“劣币驱逐良币”终将使得推广平台断送前程。
很多企业和媒体平台都能预见虚假流量的危害性,广告反欺诈也成为了营销中的一项重要工作。不仅媒体平台自己在做虚假流量监测,也有很多的第三方厂家提供相应的解决方案。我国的广告反欺诈发展时间并不长,并且存在两点特殊:
黑产产业链更成熟:国内由于近年黑灰产发展迅猛,上下游作假产业链成熟,广告欺诈发展愈加具有技术性,传统的广告流量鉴别方法逐步失效,广告主很难及时定位单一流量的真实性。
广告主很难筛选流量:目前广告主往往依赖用户的活跃、用户付费转化等业务指标来评估渠道投放的效果,这个评估往往会滞后1周以上的时间,导致广告费用的流失。
01 广告反欺诈现状
国内提供反欺诈服务的主体特殊:目前行业内往往是渠道商、流量方提供了反欺诈服务,也有部分独立的投放协助系统提供反欺诈服务,但是这些主体都或多或少与流量方有关联。主体的特殊性,决定了他们不会下决心彻底解决广告欺诈的问题。
国内作弊手段成熟:国外刷假量目前以点击欺诈方式为主,而国内目前工作室作案慢慢变为主流的欺诈方式。国内工作室往往具有专业的破解技术团队,同时有成熟的黑产设备、黑产账户供应链体系,拥有很强的伪造能力,传统的非专业安全公司,往往难以检测出专业的作案手法。
广告主被迫以落后的方式解决问题:广告主往往以活跃、付费指标评估渠道效果,但是这具有极强的滞后性,与目前智能投放的趋势是相悖的。广告主检测到某个渠道流量质量下降,开始降低预算时,这个渠道可能已经过了刷量期,而当前评估优质的渠道,可能正在刷量。
依赖先进的AI技术,由广告主提供流量进入的流程数据,Geetest风控实验室利用自研“叠图建模平台”,对虚假流量进行精准的识别。
01 广告反欺诈模型
模型可以按照小时或者更低的延迟输出广告欺诈的定位结果,极大提升反欺诈效率,同时可以及时调整。
广告欺诈特征的成熟识别模式
时序异常:利用自动化脚本与真实用户操作时序的差异性,结合点击、安装、激活、登录、注册等操作时序的特征,利用深度学习挖掘其异常模式。
行为异常:识别曝光比例、安装行为、操作行为等之间的异常模式,挖掘其操作行为上的异常特征。
关联异常:识别设备、账户、网络等特征之间的关联异常,寻找工作室作案的关联特性。
已有黑产库:利用业务安全领域的大量已经被定位工作室设备库、IP库、账户库,结合产业链上下游异常特征综合定位广告欺诈行为。
适用场景
适用于在一些广告主无法采集客户端信息的场景。适用于广告单价低但是用户数量巨大的广告业务场景。
实现效果
以实时或者聚量方式接收数据,并通过API返回样本数据的欺诈置信度。提供数据可解释性标签,协助广告主流量的核查。
02 设备环境探针综合分析
利用客户端环境监测技术,广告主可以实时接受激活设备环境的监测信息,识别虚假的广告激活。
监测原理
适用场景
适用于通用的各类 APP 应用推广场景,广告主需要嵌入“深知风险探针” SDK 服务。
实现效果
广告主可以通过API实时调取每一次激活的欺诈风险评分,且可以获得每一次打分的详细依据。提供周期性数据报告,同时可以协助提供欺诈作弊相关作案信息。
04 我们独特的优势
我们是专业的风控服务商,拥有丰富的黑产对抗经验以及技术。
极验是独立的第三方风控,可保障数据的真实以及中立性。
精准且及时的服务,可以极大配合智能投放管控,大幅提升广告投放效果。
极验与行业内的一些平台尝试了合作,并进行了相关的研究。
移动媒体广告分发渠道会对接大量的广告主与媒体方渠道,而平台则承接大量的广告分发任务。由于对接的广告主和媒体众多,很难统一各方的广告监测方式。平台在结算流量的时候只能依赖于媒体提供的监测数据。在流量监测环节没有第三方监管的情况下,规模化的广告欺诈就很容易出现。识别虚假流量,成为该场景下一个急需解决的问题。
01 建模分析
场景样本:
广告曝光场景API数据
广告点击事件API数据
常见广告欺诈模式定向识别
极验对常见的广告欺诈数据表现模式,预先定义了二十多类统计分析算法,涵盖了时序、分布、关联等多种异常模式。经过分析定位到以下2类确定性异常。
通过对IP、设备以及相关信息的分析,从数据中发现了极验历史定位的黑产数据。
将设备信息以及相关特征进行关联分析,发现一些明显的篡改数据。(比如一个 imei 对应多个 androidid)
02 无监督模型
由于广告主提供数据并无黑白样本标记,极验选择使用无监督学习方法,用以发现更多维度的异常模式。使用 GCN 对数据进行特征降维,选取其离群的分布数据。
经再次分析发现了以下 2 类异常模式:
异常点击的手机品牌集中于同一机型,并且这些用户访问的广告位及时序特征高度相似。
异常点击的手机品牌集中于同一机型,并且这些用户曝光点击的行为高度相似。
效果分析