A/B测试带来的道德问题

[摘要]我们并不使用“真正的”Facebook,或者Twitter、谷歌、雅虎和LinkedIn。我们几乎都在参与各种试验。这些公司悄悄进行了一些试验,以了解略有变化的不同版本能否带来更多的使用、访问、点击和购买。在注册这些服务时,我们从技术上已同意成为参与试验的豚鼠。

我们并不使用“真正的”Facebook,或者Twitter、谷歌、雅虎和linkedIn。我们几乎都在参与各种试验。这些公司悄悄进行了一些试验,以了解略有变化的不同版本能否带来更多的使用、访问、点击和购买。在注册这些服务时,我们从技术上已同意成为参与试验的豚鼠。

不过上周末,Facebook引发了一场争议。该公司某名数据科学研究员发布的报告显示,该公司对689003名用户进行了试验,以观察在动态汇总中向用户更多地展示正面或负面内容是否会影响他们的愉悦程度,而这将根据用户自己发布的内容来推断。关于操纵情绪,这一试验带来的影响微乎其微,但这也引发了关于A/B测试的道德问题。

首先,让我们来看看此次事件及其引发的大问题:

试验几乎未带来影响

请了解这一研究本身,或是阅读一下塞巴斯蒂安·迪特尔丁(Sebastian Deterding)的分析,从而了解此次事件及其带来的反应。

3名研究员,包括Facebook核心的数据科学家亚当·克拉默(Adam Kramer),希望证明,在线社交网络是否会带来情绪的传染。在为期一周的时间里,Facebook在一些用户的动态汇总中展示了更少的正面或负面内容,并跟踪这些用户随后发布的内容有多少是正面,多少是负面。结果显示,看到正面内容较少的用户随后发布正面内容的可能性下降了0.1%,但他们的状态更新显得不太高兴。看到负面内容较少的用户随后发布负面内容的可能性下降了0.07%,但他们的状态更新则显得较为开心。

许多新闻报道认为,这样的研究是有害的,但实际上,试验仅仅令一小部分用户感到“悲伤”。

此外,这种影响可能并非由于受试者的情绪改变,仅仅只是基于通过Facebook上看到的内容而“随大流”。成功的试验应当是可自我延续的,例如看到更少的负面内容可能促使你修改即将发布的内容,使自己的生活看起来更完美。这项研究没有发现的另一点是,在Facebook上查看更多的正面内容会使你产生嫉妒和不快,因为你自己的生活并没有如此有趣。不过,Facebook仍仅仅跟踪了用户随后发布的内容,而不是他们的感觉本身。

Facebook并未获得用户同意或道德委员会的批准

关于研究是否道德,Facebook仅仅进行了内部评估。一名消息人士对《福布斯》杂志的克什米·希尔(Kashmir Hill)表示,这一研究并没有预先提交给机构评估委员会进行审批。机构评估委员会是一个独立的道德委员会,要求科学试验符合一定的安全和许可标准,从而确保受试对象的权益。我在大学时设计的一项试验也通过了机构评估委员会的审批,因此可以证明,Facebook的这项研究很可能无法满足多个前提条件。

不过Facebook表示,该公司经常对用户的动态汇总进行调整,已测试什么类型的内容和设计能带来最大的用户参与度。Facebook希望了解,如何让用户发布更开心的内容,或是在Facebook上花更多时间。Facebook将此次的做法视为又一次A/B测试,而大部分科技公司、创业公司和新闻网站都会持续进行这种测试。从技术上来说,Facebook已获得了所有用户的认可,因为用户在注册时已经自动同意了该网站的数据使用政策。Facebook的条款显示,“我们可能会使用所获得的关于你的信息,进行数据分析、测试、研究,以及服务的改进”。

许多人认为,这种认可的形式非常虚弱,而受试者并不清楚他们是否参与试验,试验的规模和意图,可能的风险,数据是否保密,以及没有权利不参加这一试验。一些人认为,Facebook应当寻求用户的同意,并允许用户选择不参加试验。

所有公司都在进行A/B测试

这一研究的实质影响不大,并很可能被外界过分夸大。不过,目前公众的讨论集中于道德问题。

可以肯定,许多公司都会进行A/B测试,但大部分测试都是以业务为导向的,例如为了增加用户使用频率,或提升点击率和购买率。然而,Facebook的这一研究是为了操纵人们的正面或负面情绪,以证明关于社交传染性的科学理论。我认为,为了研究情绪而影响他人情绪是这一研究引发激烈反应的主要原因。一些人认为,试验的意图是什么并不重要,因为没有人知道他们真正想要的是什么,尤其是对一家营利性公司来说。不过我认为,在区分哪些行为应当得到监督时,这是一个重要因素。

无论如何,在试验中引起用户的沮丧都会带来实质风险。迪特尔丁指出,美国全国精神健康研究所的数据显示,9.5%美国人存在情绪失常的问题,这可能会导致抑郁症。参与Facebook试验的受试者中肯定也有这样的人群。这些人在试验中看到了更多令人沮丧的内容,这可能带来危险。如果有证据表明,受试者中有人随后出现自杀行为,或是患上抑郁症,那么Facebook必将承受新一轮的口诛笔伐。

所有产品、品牌、政治家、慈善组织和社会运动都试图在一定程度上操纵你的情绪,它们会进行A/B测试,找到操纵的方法。通过使你感觉愉悦、不安全、乐观、悲观或愤怒,它们希望你更多地使用、更多地花钱,给予它们支持,向它们捐款,或参与请愿活动。有许多工具可以用于发现如何更好地操纵人类情绪,例如分析、关注组和A/B测试。通常情况下,人们无法选择不参加试验。

Facebook的做法是不道德的。尽管该公司经常进行测试以提升用户参与度,从而制造了一个灰色地带,但此次报道中的试验试图直接影响人们的情绪。

一家公司调整自己的内容,以改变用户情绪,从而实现商业目的,这样的做法很简单,也在人们的预料之中。但一个信息门户操纵用户好友分享的内容,为了科学研究而使用户感到沮丧,这样的做法则完全不同。

你可能会想到麦当劳。麦当劳的口号是“我就喜欢”,这样的口号使你感觉,如果缺少麦当劳你可能会感到不开心。而政治家通常会采取措施,确保你在投票支持他们之后感到更乐观。不过,许多人甚至并不理解一个基本概念,即Facebook使用相关性排序算法,对用户的动态汇总进行过滤,以确保最大的用户参与度。他们甚至不会意识到,Facebook向他们展示的积极内容较少,为了检验科学理论而使他们感到悲伤。

最终,带有这类意图和风险的试验应当基于自愿原则,而Facebook未来应当考虑这样做。无论你个人对道德有何看法,从研究安排和公众当前的愤怒来说,Facebook都犯了一个错误。

不过,尽管Facebook成为众所关注的焦点,但A/B测试的道德问题实际上更严重。如果你认为,操纵他人的情绪是不道德的,那么大部分主流科技公司,以及其他一些行业,也都存在同样的错误。

监管,或者至少采取一些保障措施

那么,我们应当做些什么?进行此类测试的公司有大有小,每次测试存在的风险等级也不同,有的无伤大雅,有的则非常危险。禁止任何“操纵情绪”的测试可能会带来关于准入制无休止的讨论,也非常难以执行,并有可能抑制创新,不利于我们所使用产品的质量。

不过仍有某些实力强大的公司能以普通人无法理解的方式影响人们的情绪。

因此,一个良好的起点是,如果公司尝试进行测试,操纵人们的情绪,那么至少应当提供选择,允许用户不参与测试。并不一定所有测试都需如此,但对一些真正存在风险的测试,例如向用户展示更多令人沮丧的内容,需要这样去做。科技公司不能由于他人没有这样做为由,拒绝充当道德改进的先锋。提供一种选择,允许用户选择是否充当试验的豚鼠,这种方式有助于提升用户信心。通过设置页面向用户提供不参与测试的选项,同时给他们提供根据测试结果不断改进的标准产品。并不是所有用户都应当站到第一线,帮助公司确定什么样的做法最好。为了征求用户许可而给产品增加一定的复杂度是值得的。

为了给用户提供一些独立的保护措施,避免有害的大规模情绪操纵行为,美国联邦贸易委员会(FTC)可以考虑对这样的测试进行审查。FTC已经与Facebook、谷歌、Twitter和Snapchat等公司达成了和解方案,在10到20年的时间里审查这些服务的隐私保护行为。基于保护消费者这一同样的目标,FTC可以对试验性的产品调整进行道德监督。不幸的是,这些和解方案规定,公司不得取消隐私控制功能,这样的条款促使公司不再增加新的隐私控制功能。

至少,科技公司可以对数据科学家和其他设计A/B测试的人员进行培训,向他们告知道德研究方法,以及设计的试验应得到机构评估委员会的审批。即使科技公司不将某次特定的测试提交审批,也应当知道什么是最佳行为方式,即确保试验的安全,富有同情心。

 

我们正快速走向由数据驱动的世界,而道德问题需要尽快跟上。




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。