「转」大数据时代还需要民意测验吗?
2022年8月3日作者:夏逸平
本文于2017-03-02《文汇学人》授权转载
特朗普意外胜选背后的秘密究竟是什么?瑞士的德语周刊《杂志》(Das Magazin)用一则长篇报道给出的答案是:大数据。这份去年12月面世的报道,最近经过译介在英语世界广为流传(中文版本见澎湃新闻2月4日刊出的“特朗普撼动世界背后的大数据风暴”),震惊了无数“吃瓜群众”,但质疑者亦有之。
根据这篇报道,在特朗普竞选过程中扮演关键角色的大数据技术叫做心理测验(psychometrics,又作“心理测绘”,psychographics)。简单地说,研究人员首先在社交网络上发布个性测试的链接,用户点击后将完成一份基于心理学上“OCEAN”人格模型的测试问卷。在大量用户完成测试并生成个性数据后,研究人员将每个用户的个性数据与其社交网络资料(比如给哪些页面点了赞)进行比对。这样一来,我们就可以得到诸如“雷迪嘎嘎(Lady Gaga)的粉丝通常是外向者,而那些为哲学话题点赞的人一般比较内向”这样的结论。这意味着———如果能建立合适的模型———我们就可以根据用户的在线行为反推他们的个性特征了!
受雇于特朗普团队的大数据分析公司Cambridge Analytica(下称CA)还购买了大量个人数据,“例如土地登记和汽车数据、购物数据、奖金卡、俱乐部会员资格、订阅的杂志、人们所去的教堂等”,可供CA利用的数据还包括共和党选民登记信息与过往投票记录。根据CA首席执行官亚历山大·尼克斯(Alexander Nix)的说法,这些数据加上用心理测验法获得的个性数据,使得CA的选民精准定位(microtargeting)达到了不可思议的精确度。接下去,特朗普团队要做的就是投放因人而异的在线广告——你是缺乏安全感的乡村地区白人?特朗普承诺会赶走非法移民;你是愤世嫉俗,痛恨现况的汽车工人?别选华尔街贵宾希拉里,特朗普会“排干华盛顿的沼泽”……并让志愿者们在挨家挨户推销特朗普的时候,根据户主的不同特征,采取不同的说服策略。随后的故事我们都知道了:“门外汉”特朗普打败了希拉里,打败了民意测验,打败了“主流媒体”,以反建制先锋的姿态登上权力巅峰。
这么完美的剧情,是不是太像拍电影了?至少美国乔治·华盛顿大学教授大卫·卡夫(Dave Karpf)绝不买账。卡夫发表在Civic Hall网站的回应文章题为“麻烦真正的心理测验定位师们站出来?”(Will the real psychometric targeters please stand up?),文章指出心理测验法的原理说起来容易,但要在选民身上实行起来有不少障碍,而CA没有提供任何证据表明他们有攻坚克难的能力。
其一,尼克斯声称CA掌握了2.2亿美国成年人的心理测绘数据,但在《杂志》文章发表后,该公司又在声明中表示并没有使用来自最大社交网络脸书(Facebook)的数据。那么,如此庞大的数据来自哪里?这些数据究竟是否可靠?其二,要将社交网络用户与具备选民资格的公民身份对接,特朗普团队需要完备的选民登记资料,而丹尼尔·克雷斯(Daniel Kreiss)去年出版的著作《原型政治》(Prototype Politics, Oxford University Press, 2016)显示共和党的选民数据库在本次大选期间仍处于建设当中。此外,对接工作本身就相当复杂,且需要共和党内部其他部门的合作。然而此前有媒体报道指,部分共和党内人士对CA这家来自英国的新创公司心存疑虑。其三,即便CA真的获取了亿万美国人的心理测绘数据,并成功与选民资料对接,特朗普团队是否有能力为每一类选民制定个性化的说服策略,打造量身定做的在线广告,并且测试效果、再行改进?这会是一项浩大的工程,而媒体报道指特朗普的传播营销团队规模非常有限。
丹尼尔·克雷斯《原型政治》(Prototype Politics, Oxford University Press, 2016) 卡夫进一步指出,在选举结束后CA领导人的公开演讲中,对心理测验法只字未提。在一场由Civic Hall与奈特基金会(Knight Foundation)合办的“技术、政治与媒体”研讨会上,CA的数字部负责人莫莉·施韦凯特(Molly Schweickert)将该公司的作为描述成“通过实地走访计算每个选民的候选人支持度、关心的事务和选举日外出投票的概率”。然而讽刺的是,这项举措正是2008年奥巴马选举团队的创举之一,并非CA发明的魔法。
在卡夫看来,CA有着强大的市场营销队伍,但其真正在数据科学上的作为要远逊于尼克斯等人神乎其神的宣传。而特朗普胜选的原因相当复杂,到底有几分要归功于幕后的数据科学家们是很值得怀疑的。
“下一代人肯定无法理解大众传播这个概念”
曾几何时,让数字科技为竞选服务是民主党人引以为傲的胜选之道。2004年民主党初选前夕,霍华德·迪恩(Howard Dean)以黑马姿态加入原本以克里和爱德华兹两人为主角的选战。为他赢得大量关注的是其竞选团队对于互联网的充分利用。迪恩团队做到了两个 “第一”:第一个以电子邮件为主要募款渠道的竞选团队;第一个开设博客来聚拢支持者的竞选团队。此外,团队鼓励支持者使用Meetup.com提供的线下活动协调服务,自发组织集会(Meetups)表达对迪恩的支持。互联网强大的选民动员能力在迪恩竞选期间首次得到体现——团队成员请求捐款的博文能在短短几天内为迪恩赢得数十万美元的捐款,各地支持者自发举办的集会也为他聚集了大量人气。尽管由于种种原因,迪恩在当年初选中出师不利,并最终退选,但团队中拥有科技头脑的成员们随后成为了民主党重整旗鼓的重要力量。迪恩当选党主席后,四个前迪恩团队成员成立的蓝州数字公司(Blue State Digital)重建了民主党的网络技术系统,并主导了全国选民资料与数据库的创建。终于,2008年民主党人在奥巴马的带领下打了一个漂亮的翻身仗,而其团队的新媒体负责人正是蓝州数字公司的创始人之一。
奥巴马的线上竞选策略基本上是迪恩团队的延伸和发展,但互联网的动员能力在这次竞选中被发挥到了极致:来自全国各地的支持者用在线电话工具给摇摆州的选民拨打了超过3000万通电话;超过200万人在My.BarackObama.com(下称MyBO)上建立账户,用这个在线平台上的工具独立组织了数以万计的志愿者招募和募款活动;甚至有几万志愿者为了帮助中意的总统候选人,驾车在州际公路上奔波来往……这次竞选动员给人的印象太深,以至于有人把特朗普当选归咎于奥巴马上任后几乎完全摒弃了这套动员机制。《新共和》杂志今年3月刊的封面故事题为“奥巴马失去的大军”(Obama’s Lost Army),作者认为此举是奥巴马“最大的失误”,因为仅仅两年之后的2010年中期选举,民主党就遭遇惨败,让以“茶党”运动为代表的极右翼在参众两院获得多数席位。从此,奥巴马团队精心扶植起来的“草根”能量完全转移到了共和党一边,为特朗普在低收入白人选民的大规模支持下胜选埋下了伏笔。
话说回来,尽管2008年奥巴马团队在大规模动员上战绩彪炳,但奥巴马的胜选并不能说成是自下而上的社会运动的产物,因为他的团队始终努力在幕后实施控制。事实上,这是民主党人从迪恩的失败中学到的一课:大量自由行动的志愿者,如果听从竞选总部的指挥,会是无往而不利的“大军”;但如果总部对地方志愿者失去控制,后果将是一场灾难。因此,奥巴马团队的成员积极与MyBO与脸书上的支持者们合作,确保竞选总部的方略可以在基层得到贯彻。数字工具在这样的大规模协调工作中再次发挥了重要的作用。另外,正如卡夫所提到的,奥巴马团队利用过往选民注册数据来“感知”选民的党派倾向和种族身份,并预测选民在大选日的投票选择,在此基础上制定说服(或者放弃说服)计划。
这些举动看上去已经有了些许精准定位(microtargeting)的味道。其实早在2004年,乔治·W.布什的团队在向支持者寄送邮件(direct mail)的时候,就采取了更为原始的精准定位法,例如在个别民主党选民关心的议题上软化立场,以争取犹豫不决的民主党选民和独立选民。至于四年后的奥巴马团队,除了前文提到的利用选民注册数据来“定位”之外,还参考了从其他渠道获得的消费记录甚至社交网络数据。但正如艾坦·赫什(Eitan D. Hersh)的《侵入选民区》(Hacking the Electorate, Cambridge University Press, 2015)所显示的那样,在当时这些外部数据能提供给竞选团队的有效信息相当有限,原因之一是在心理测绘法得到应用之前,没有有效的模型可以基于选民的消费记录来预测他们的政治倾向;同样地,当年方兴未艾的社交网络也几乎没有在选举说服中找到用武之地,因为竞选团队没有办法通过“点赞”之类的在线行为来确定某个用户是不是可以争取的选民。
艾坦·赫什《侵入选民区》(Hacking the Electorate, Cambridge University Press, 2015)
一句话:早先的“精准定位法”几乎完全依赖注册选民数据,除种族身份之外几乎没有其他指标来识别选民,因而远远不够精准。而CA的首席执行官尼克斯声称,该公司最大的创举就是通过心理测绘法配合时下巨量累积的消费大数据和社交网络数据,一举使“精准定位”精确到“每个美国成年人”。如此一来,特朗普团队便可按图索骥,在社交媒体上投放给每个选民定制的个性化广告。于是乎尼克斯才有底气说出这番言论:“下一代人肯定无法理解大众传播这个概念了。”
当然,我们可以像卡夫那样,在CA给出事实证据之前对尼克斯的任何言论抱持高度的怀疑。但让我们姑且先相信他的话,并追问一句:那么特朗普的胜选,到底有多少功劳要记在CA头上呢?遗憾的是,这样的问题也许只能引起永恒的争论。哪怕成功如奥巴马团队的数字化竞选,也在多年之后被泼上一盆冷水:Politico杂志今年2月初刊载了一个民主党竞选分析师的文章,题为“数据驱动的竞选正在杀死民主党”,中心论点就是民主党在2008年尝到“数据驱动”的竞选的甜头之后,将过多的精力放在了“精准定位”上,而没有好好锤炼要向选民传达的叙事(narrative),没有通过讲故事在情感上拉拢选民,以至于被格外擅长煽动的特朗普占了先。
好吧。谁知道呢?
“成为武器的人工智能宣传机器”
可是无论如何,CA宣称的所作所为值得引起重视。如果你是一个美国老百姓,平时没事上网乐呵,结果产生的数据让特朗普团队(或者任何采用CA这个套路的团队)精确地预测到了你是什么样的人,会做什么样的事,你有没有汗毛倒竖?
不光如此,根据人群细分的数字竞选广告还会造成更为深远的社会影响。竞选团队通常会对选民进行精确细分,然后挑选重点人群进行广告投放,还会针对不同人群投放不同类别的广告(简单的鼓励投票广告?正面宣传某个候选人?攻击该候选人的主要对手?阐述该候选人在某特定议题上的立场?)。这意味着,客观上在不同人群之间存在着政治信息获取的不平等。威斯康星大学麦迪逊分校的Young Mie Kim教授在招募到的实验参与者的电脑上安装浏览器插件,对本次大选初选期间的在线政治广告进行了跟踪。她发现,非白人选民有着与白人选民不相上下的网页浏览活动量,但他们收到了相对较少的政治广告;而在非白人选民收到的政治广告中,又以负面广告为主。这两项观察对所有候选人都成立,也就是说,非白人群体没有被任何候选人“定位”成主要的目标选民。此外,当前美国政治环境越来越两极化,自由派和保守派各自在碎片化的信息环境里圈地而居,很多时候几乎接收不到来自对方阵营的意见,更不要说公开的交流和讨论了。在技术方面日益精进的“精准定位”,伴随着大量的负面广告内容,似乎只会加剧双方之间的恨意。
再退一步看,CA崛起的背后是大数据时代政客们获取民意乃至影响民意的方式在经历深刻的转换。《卫报》1月刊发长文“统计如何失去了力量——以及为何我们应该害怕接下来将要发生的事”,详细拷问了为何在17世纪启蒙理想的指引下发展起来的统计科学及其衍生产品(民意测验和经济数据),在大数据时代来临后遭遇了危机——“如果普罗大众的政治感觉可以如此轻易地追踪,谁还需要民意测验?”有了大数据工具在手,特朗普这样的民粹领袖也可以大大方方地对经济学家、民意测验师等传统意义上的“专家”报以蔑视。《卫报》文章写道:“(大数据工具)非常适合探测趋势、感知情绪和发现刚有苗头的事件。它是竞选经理和市场营销人员的好伙伴。但统计学家和经济学家的工作是作出关于社会的明确、客观、有可能形成共识的陈述。”“随着统计数字的权威性降低……在大数据分析的时代,本来可以用统计数字来纠正的关于经济、社会、人口的谬论,人们却诉诸自身的直觉反应或是情感上的偏见。这些情绪感觉又反过来被CA这样的公司当成数据来采集。”采集了干什么呢?日后再反过来通过个性化的广告影响你的政治态度乃至行动。
如果这一切还不够可怕,那么联想一下这次大选中的另外一些新事物:数不清的假新闻网站、社交媒体机器人(bots,根据程序脚本自动生成特定内容的账号)等等。一个生态系统呼之欲出:机器人负责搅浑舆论,假新闻负责欺骗蛊惑,而CA根据点击假新闻的用户资料完善自己的模型,给该用户(和符合模型预期的很多其他用户)定制更多的负面广告……Scout(一家关注媒介技术的社会效应的网站)的报道给这个系统起了一个骇人的名字:“成为武器的人工智能宣传机器”(Weaponized AI Propaganda Machine)。据Scout称,CA正与特朗普方面谈判,或许该公司会继续帮助特朗普操控围绕其政策的公众舆论。
接下来,还会发生什么?