第14章 做正确的事

用世界的美丽、丑陋与残酷来喂养人工智能系统,却期望它只反映美好,那是一种幻想。

—Vinay Uday Prabhu 和 Abeba Birhane,《大型数据集:计算机视觉的皮洛士式胜利?》(2020)

在本章中,让我们退后一步。全书我们探讨了数据系统的各种架构,评估了其优缺点,并探索了构建可靠、可扩展和可维护应用的技术。然而,有一个根本性的讨论尚未涉及,现在我们来填补这个空白。

每个系统都有其目的;我们所采取的每一个行动都既有预期后果,也有意外后果。目的可能简单到只是赚钱,但后果可能影响深远。作为构建这些系统的工程师,我们有责任认真考虑这些后果,并确保我们的决策不会造成伤害。

我们谈论数据时视其为抽象之物,但请记住,许多数据集都与人类有关:他们的行为、兴趣、身份。我们必须以人性和尊重来对待这些数据。用户也是人,人的尊严至高无上 [1]。软件开发日益涉及重要的伦理抉择。有一些指导方针可以帮助软件工程师应对这些问题,例如《ACM 道德与职业行为准则》[2],但在实践中它们很少被讨论、应用和执行。结果,工程师和产品经理有时会对隐私及其产品的潜在负面后果抱以漫不经心的态度 [3, 4]。

技术本身无所谓好坏——重要的是它如何被使用以及如何影响人。搜索引擎这样的软件系统与枪支这样的武器在很大程度上是一样的。道德责任由我们来承担;软件工程师仅仅专注于技术而忽视其后果是不够的。

然而,与计算机科学的许多领域不同,伦理核心概念的含义并非固定或确定的;它们需要解释,这可能是主观的 [5]。什么算“好”或“坏”并没有明确定义,计算专业人士之间也缺乏对此的严肃讨论 [6]。伦理推理是困难的,但它太重要而不可忽视。这需要什么?伦理不是走过一个检查清单来确认你合规;它是一个参与式和迭代的反思过程,与相关人员进行对话,并对结果负责 [7]。

预测分析

预测分析是人们对大数据和人工智能兴奋的主要原因之一。这也是一个充满伦理困境的领域。利用数据分析来预测天气或疾病传播是一回事 [8];而预测罪犯是否可能再次犯罪、贷款申请人是否可能违约、或保险客户是否可能提出昂贵索赔则是另一回事 [9]。后者直接影响个人的生活。

当然,支付网络希望防止欺诈交易,银行希望避免不良贷款,航空公司希望避免劫机事件,公司希望避免雇用低效或不值得信任的人。从他们的角度来看,错过商业机会的成本很低,而坏账或有问题的员工的成本要高得多,因此组织希望谨慎行事是可以理解的。如果有疑问,最好拒绝。

然而,随着算法决策日益普及,一个被算法(准确地或错误地)标记为高风险的人可能会遭遇大量“拒绝”决策。系统性地被排除在工作、航空旅行、保险覆盖、房产租赁、金融服务以及其他社会关键方面之外,对个人自由构成了巨大限制,这被称为“算法监狱”[10]。在尊重人权的国家,刑事司法系统假定无罪直至证明有罪;另一方面,自动化系统可以系统性地、武断地将一个人排除在社会参与之外,而无需任何有罪证明,且几乎没有上诉机会。

偏见与歧视

算法做出的决策并不一定比人类做出的更好或更差。每个人都有可能存在偏见,即使他们积极试图抵消偏见,歧视性的做法也可能在文化上制度化。人们希望,基于数据而非主观和直觉的个人评估来做出决策,可能更加公平,并为那些在传统系统中经常被忽视或处于不利地位的人提供更多机会 [11]。

当我们开发预测分析和人工智能系统时,我们并不仅仅是使用软件来指定何时说“是”或“否”的规则,从而将人类的决策自动化;我们是在让规则本身从数据中推断出来。然而,这些系统学习到的模式是不透明的:即使数据表明存在相关性,我们可能也不知道原因。如果算法的输入带有系统性偏见,系统很可能会在输出中学习并放大这种偏见 [12]。

在许多国家,反歧视法律禁止因受保护特征(如种族、年龄、性别、性取向、残疾或信仰)而区别对待他人。一个人的数据中的其他特征可能被分析,但如果它们与受保护特征相关呢?例如,在种族隔离的社区,一个人的邮政编码甚至IP地址都是种族的强预测因子。这么说来,认为算法可以接收有偏见的数据并产生公平公正的输出似乎很荒谬 [13, 14]。然而,数据驱动决策的支持者似乎常常暗示这种信念——这种态度被讽刺为“机器学习就像是偏见的洗钱活动”[15]。

预测分析系统仅仅是从过去进行外推;如果过去是歧视性的,它们就会编纂并放大这种歧视 [16]。如果我们希望未来比过去更好,就需要道德想象力,而这只有人类才能提供 [17]。数据和模型应该是我们的工具,而不是我们的主人。

责任与问责

自动化决策引发了责任与问责的问题 [17]。如果人类犯了错误,他们可以被追究责任,受决策影响的人可以申诉。算法也会犯错,但如果它们出了错,谁应该负责 [18]?当自动驾驶汽车造成事故时,谁负责?如果自动信用评分算法系统性地歧视特定种族或宗教的人,是否有任何补救措施?如果你的机器学习系统的决定受到司法审查,你能向法官解释算法是如何做出该决定的吗?人们不应通过指责算法来逃避责任。

信用评级机构是收集数据以做出人事决策的经典例子。不良的信用评分会让生活变得困难,但至少信用评分通常基于一个人实际借贷历史的相关事实,并且记录中的任何错误都可以更正(尽管机构通常不会让这变得容易)。然而,基于机器学习的评分算法通常使用的输入范围更广,而且不透明得多,这使得理解特定决策是如何做出的、以及某人是否受到不公平或歧视性对待变得更加困难 [19]。

信用评分总结“你过去表现如何?”,而预测分析通常基于“谁与你相似,以及像你这样的人过去表现如何?”来工作。将结论推广到他人的行为意味着对人们进行刻板化——例如,基于他们的居住地(这是种族和社会经济地位的密切代理变量)。那些被错误分类的人呢?此外,如果由于错误数据而导致决策不正确,几乎不可能进行补救 [17]。

许多数据在本质上是统计性的,这意味着即使整体概率分布是正确的,个别情况也可能出错。例如,如果你国家的平均预期寿命是80岁,这并不意味着你希望在你80岁生日那天死去。从平均值和概率分布来看,你不能对某个具体个人能活到多大年龄做出太多论断。类似地,预测系统的输出是概率性的,在个别情况下很可能出错。

盲目相信数据在决策中的至高无上地位不仅是妄想,而且十分危险。随着数据驱动决策的普及,我们需要弄清楚如何避免强化现有的偏见,如何让算法变得可问责、可透明,以及如何在它们不可避免出错时进行修复。

我们还需要弄清楚如何实现数据的积极潜力,并防止其被用于伤害人。例如,分析可以揭示人们生活中的财务和社会特征。一方面,这种力量可用于集中援助和支持,帮助最需要的人。另一方面,它有时被掠夺性企业用来识别弱势人群,并向他们出售高风险产品,如高成本贷款或毫无价值的大学学位 [17, 20]。

反馈循环

即使对于那些对人们直接影响不那么深远的预测应用(例如推荐系统),也存在我们必须面对的棘手问题。当服务变得擅长预测用户想要看到的内容时,它们可能最终只向人们展示他们已同意的观点,导致回音室效应,在那里刻板印象、错误信息和两极化得以滋生。我们已经看到社交媒体回音室对竞选活动产生的影响。

当预测分析影响人们的生活时,由于自我强化的反馈循环,尤其会引发棘手的问题。例如,考虑雇主使用信用评分来评估潜在员工的情况。你可能是一名优秀的员工,信用评分也不错,但突然发现自己陷入财务困境……

14.1 做正确的事

反馈循环与系统性后果

除了因模型本身错误或不准确的预测可能导致的偏见问题外,一些特别有害的问题源于自我强化的反馈循环。例如,考虑雇主使用信用评分来评估潜在求职者的情况。你可能是一个信用记录良好的优秀工作者,但突然遭遇超出自己控制范围的财务困难。当你开始拖欠账单还款时,你的信用评分就会受损,找到工作的可能性也会降低。失业将你推向贫困,这进一步恶化你的信用评分,使得寻找工作更加困难[17]。这是一个因有毒假设而导致的螺旋式下降,而这些假设却隐藏在数学严谨性和数据的伪装之下。

作为反馈循环的另一个例子,经济学家发现,当德国的加油站引入算法定价时,竞争减少,消费者价格上涨,因为算法学会了合谋[21]。

我们并非总能预测何时会发生这样的反馈循环。然而,通过思考整个系统(不仅是计算机化的部分,还包括与系统交互的人)——这种方法被称为系统思维[22]——我们可以预测许多后果。我们可以尝试理解数据分析系统如何对不同行为、结构或特性作出反应。该系统是强化并放大人与人之间现有的差异(例如,使富人更富、穷人更穷),还是试图对抗不公?即使怀有最好的意图,我们也必须警惕意外后果的可能性。

隐私与追踪

除了预测分析(即使用数据对人们做出自动化决策)的问题外,数据收集本身也存在伦理问题。收集数据的组织与数据被收集的人之间是什么关系?

当系统仅存储用户明确输入的数据(因为用户希望系统以特定方式存储和处理这些数据)时,系统正在为用户提供服务;用户是客户。但是,当用户的活动作为他们正在做的其他事情的副作用而被跟踪和记录时,这种关系就不那么明确了。服务不再仅仅按照用户的指令行事,它开始拥有自己的利益,可能与用户的利益相冲突。

跟踪行为数据对于许多在线服务的面向用户的功能已经变得越来越重要。跟踪哪些搜索结果被点击有助于改进搜索结果的排序;提供推荐(“喜欢 X 的人也喜欢 Y”)帮助用户发现有趣和有用的内容;A/B 测试和用户流程分析有助于指示如何改进用户界面。这些功能需要对用户行为进行一定程度的跟踪,用户也会从中受益。

然而,根据公司的商业模式,跟踪往往不止于此。如果服务是通过广告资助的,那么广告商才是真正的客户,用户的利益被置于次要地位。跟踪数据变得更加详细,分析范围更广,数据被保存很长时间,以便为每个用户建立详细画像用于营销目的。

现在,公司与被收集数据的用户之间的关系开始显得截然不同。用户获得免费服务,并被诱导尽可能多地与其互动。用户的跟踪主要服务的不再是用户个人,而是资助该服务的广告商的需求。这种关系可以用一个具有更险恶含义的词来恰当地描述:监控

监控

做一个思想实验:尝试用“监控”一词替换“数据”,观察常见的短语听起来是否还那么好[23]。比如这样:“在我们以监控为导向的组织中,我们收集实时监控流,并将其存储在我们的监控仓库中。我们的监控科学家使用高级分析和监控处理来推导新的见解。”

对于本书《设计监控密集型应用》来说,这个思想实验异常具有论战性,但需要强烈的措辞来强调这一点。在我们试图让软件“吞噬世界”[24]的过程中,我们建造了有史以来最庞大的大众监控基础设施。我们正在迅速接近一个世界,在这个世界里,每一个有人居住的空间都至少包含一个连接互联网的麦克风,以智能手机、智能电视、语音控制助手设备、婴儿监视器,甚至使用基于云的语音识别的儿童玩具的形式存在。这些设备中许多都有糟糕的安全记录[25]。

与过去相比,新的变化在于数字化使得大规模收集人们的个人数据变得容易。对我们位置和行踪、社交关系和通信、购买和支付以及健康数据的监控几乎变得不可避免。一个监控组织最终可能比一个人自己更了解这个人——例如,在个人意识到之前就识别出疾病或经济问题。

即使是过去最极权主义的专制政权也只能梦想在每个房间放置麦克风,并强迫每个人不断携带能够跟踪其位置和行踪的设备。然而,我们从数字技术中获得的益处如此之大,以至于我们现在自愿接受这种全面监控的状态。区别仅在于,数据是由公司收集以向我们提供服务,而不是由政府机构寻求控制[26]。

并非所有的数据收集都必然构成监控,但将其视为监控可以帮助我们理解我们与数据收集者之间的关系。为什么我们似乎乐于接受公司监控?也许你觉得自己没有什么可隐藏的——换句话说,你完全符合现有的权力结构,你不是边缘化的少数群体,不需要担心迫害[27]。并非每个人都如此幸运。或者,也许是因为这种目的似乎是无害的——不是明显的胁迫和顺从,仅仅是更好的推荐和更个性化的营销。然而,结合上一节关于预测分析的讨论,这种区别就不那么清晰了。

我们已经看到,汽车驾驶的行为数据被汽车在未经驾驶员同意的情况下追踪,进而影响其保险费率[28];还有健康保险覆盖取决于人们佩戴健身追踪设备。当监控被用来对生活中重要的方面(如保险覆盖或就业)做出有影响力的决策时,它开始显得不那么无害。数据分析还可以揭示令人惊讶的侵入性信息——例如,智能手表或健身追踪器中的运动传感器可以用来相当准确地推断你在键盘上输入的内容(例如密码)[29]。传感器的精度和分析算法只会越来越好。

同意与选择自由

我们可能会断言,用户自愿选择使用那些跟踪他们活动的服务,同意服务条款和隐私政策,并同意数据收集。我们甚至可能会声称,用户正在获得有价值的服务作为其提供数据的回报,并且跟踪是提供服务所必需的。毫无疑问,社交网络、搜索引擎和各种其他免费在线服务对用户很有价值——但这一论点存在问题。

首先,我们应该问为什么跟踪是必要的。某些形式的跟踪直接用于改进面向用户的功能——例如,跟踪搜索结果的点击率有助于提高搜索引擎的结果排序和相关性,跟踪客户倾向于一起购买哪些产品可以帮助在线商店推荐相关产品。但是,当跟踪用户交互用于内容推荐,或用于建立用户画像用于广告目的时,是否真正符合用户的利益就不那么明确了。它是否仅仅因为广告为服务付费而成为必要?

其次,大多数用户几乎不知道他们在向我们的数据库提供什么数据,也不知道这些数据如何被保留和处理——而大多数隐私政策更多的是模糊而不是阐明。在不了解数据会发生什么的情况下,用户无法给出有意义的同意。通常,一个用户的数据也会揭示关于其他不是该服务用户、也未同意任何条款的人的信息。我们在最后几章中讨论的派生数据集——其中来自整个用户群的数据可能与行为跟踪和外部数据源相结合——正是用户无法有意义地理解的这类数据。

此外,数据是通过一个单向过程从用户那里提取的,而不是一种真正互惠互利或公平价值交换的关系。没有对话,用户没有选择提供多少数据以及获得何种服务的选项。服务与用户之间的关系是不对称和单方面的;条款由服务设定,而不是由用户设定[30, 31]。

在欧盟,通用数据保护条例(GDPR)要求同意必须是“自由给予、具体、知情且明确无误的”,并且用户必须能够“拒绝或撤回同意而不受损害”——否则,就不被视为“自由给予”。任何征得同意的请求都必须以“易懂且易于访问的形式,使用清晰明了的语言”书写,并且“沉默、预先勾选方框或不活动不构成同意”[32]。

在GDPR下,同意并不是处理个人数据的唯一合法依据。还有其他几种依据,包括遵守其他法律或保护某人的生命。此外,合法利益依据允许对数据进行某些使用(例如,用于欺诈预防)[33](欺诈者大概不会同意)。尽管如此,同意仍然是互联网服务中个人数据处理最常用的依据。

你可能会争辩说,不同意图监控的用户可以简单地选择不使用某项服务。但这种选择也不是自由的。如果一项服务如此受欢迎,以至于“被大多数人视为基本社会参与所必需的”[30],那么期望人们选择不使用它是不合理的——使用它实际上是强制性的。例如,在大多数西方社会社区中,携带智能手机、使用社交网络进行社交、使用谷歌查找信息已成为常态。尤其是当服务具有网络效应时,人们选择不使用它会产生社会成本。

因为用户跟踪政策而拒绝使用服务说起来容易做起来难。这些平台专门设计用于吸引用户。许多使用赌博中常见的游戏机制和策略来让用户不断回来[34]。即使一个用户克服了这一点,拒绝参与也只是少数有特权的人的选择——他们有时间和知识去理解其隐私政策,并且能够承受可能错过如果参与服务本可获得的社交参与或职业机会。对于处于较不利地位的人来说,没有有意义的选择自由;监控变得无法逃避。

隐私与数据使用

有时人们会宣称“隐私已死”,理由是某些用户愿意在社交媒体上发布各种关于他们生活的事情,有些是琐碎的,有些是极其私密的。然而,这种说法是错误的,并且基于对“隐私”一词的误解。

拥有隐私并不意味着将一切都保密;它意味着有权选择向谁透露什么、将什么公开、以及将什么保密。

第14章:做正确的事

隐私权是一种决定权:它使每个人能够在每个情境中自主决定其在保密与透明之间的位置 [30]。它是个人自由与自治的重要组成部分。

例如,某位患有罕见疾病的人可能会非常乐意将私密的医疗数据提供给研究人员,如果这有助于开发针对其病症的治疗方法。然而,此人必须有权选择谁可以访问这些数据以及用于何种目的。比如,如果关于其病症的信息可能妨碍其获得医疗保险或就业,那么此人可能会在分享数据时更加谨慎。

当通过监控基础设施从人们身上提取数据时,隐私权并非必然被削弱,而是转移给了数据收集者。获取数据的公司实质上是在说:“相信我们会恰当处理你的数据。”这意味着决定公开什么、保密什么的权利从个人转移到了公司。

这些公司转而对监控结果的大部分信息保密,因为公开这些信息会被视为令人不适,并会损害其商业模式(该模式依赖于比竞争对手更了解用户)。关于用户的私密信息仅间接披露——例如,以面向特定人群(如患有某种疾病的人)投放广告工具的形式。

即使特定用户无法从某个广告所针对的人群中重新识别出个人身份,他们也已失去了对某些私密信息是否披露的自主权。不是用户根据个人喜好决定向谁透露什么信息——而是公司为了最大化利润而行使隐私权。

许多公司希望避免被视为令人反感,从而回避其数据收集的实际侵入程度,转而专注于管理用户的感知。而这些感知的管理往往也很糟糕——例如,某件事可能在事实上是正确的,但如果它触发了痛苦的回忆,用户可能不想被提醒这件事 [35]。对于任何类型的数据,我们都应考虑到它可能在某些方面是错误、不受欢迎或不恰当的,并且需要建立处理这些失效的机制。某件事是否“不受欢迎”或“不恰当”当然取决于人的判断;算法对此毫无概念,除非我们明确编程让它们尊重人类需求。作为这些系统的工程师,我们必须保持谦卑,接受并为此类欠缺做好规划。

允许在线服务用户控制其他用户能看到哪些方面的隐私设置,是将部分控制权交还给用户的起点。然而,无论设置如何,服务本身仍然可以不受限制地访问数据,并可根据隐私政策以任何方式自由使用。即使服务承诺不向第三方出售数据,它通常也会授予自己在内部处理和不受限制地分析数据的权利,且往往远超用户所能看到的表面。

这种将隐私权从个人大规模转移到公司的情况在历史上史无前例 [30]。监控一直存在,但过去它昂贵且手动,不可扩展和自动化。信任关系一直存在——例如患者与医生之间,或被告与律师之间——但在这些情况下,数据的使用受到严格的伦理、法律和监管约束。互联网服务使得在没有真正知情同意的情况下收集大量敏感信息,并以大规模方式使用这些信息,而用户却不了解其私人数据发生了什么,变得容易得多。

作为资产与权力的数据

由于行为数据是用户与服务互动的副产品,它有时被称为“数据尾气”——暗示数据是无价值的废弃物。从这个角度看,行为分析和预测分析可被视为一种回收利用,从那些原本会被丢弃的数据中提取价值。

更正确的看法应该是反过来。从经济角度看,如果定向广告是服务的支付手段,那么产生行为数据的用户活动可被视为一种劳动形式 [36]。甚至可以说,用户与之互动的应用仅仅是诱使用户不断将更多个人信息输入监控基础设施的手段 [30]。那些常常在在线服务中找到表达的人类创造力和社会关系,被数据提取机器冷嘲热讽地利用。

个人数据是一种宝贵资产,证据是存在隐秘运营的数据经纪商,他们购买、聚合、分析和转售人们的个人数据,主要用于营销目的 [20]。初创公司的价值由其用户数量或“眼球”来衡量——也就是由其监控能力决定。

由于数据有价值,许多人想要它。当然,公司想要它——这正是它们最初收集数据的原因。但政府也想要它,并且可能通过秘密交易、胁迫、法律强制甚至直接盗窃来获取它 [37]。当公司破产时,它收集的个人数据是会被出售的资产之一。而且由于数据难以安全保管,泄露事件频繁发生。

这些观察导致批评者认为数据不仅是一种资产,而且是一种“有毒资产” [37],或至少是“危险物质” [38]。也许数据不是新的黄金,也不是新的石油,而是新的铀 [39]。即使我们认为自己有能力防止数据滥用,每当我们收集数据时,都需要权衡利益与数据落入坏人之手的风险。计算机系统可能被犯罪分子或敌对外国情报机构入侵,数据可能由内部人员泄露,公司可能落入不分享我们价值观的无良管理层手中,或者国家可能被一个毫不犹豫强迫我们交出数据的政权接管。

正如这一观察所暗示的,收集数据时,我们不仅要考虑今天的政治环境,还要考虑所有可能的未来政府。无法保证未来选举出的每一届政府都会尊重人权和公民自由,正如布鲁斯·施奈尔所观察到的:“安装那些有朝一日可能助长警察国家的技术,是糟糕的公民卫生习惯” [40]。

“知识就是力量”,正如古老的格言所说。而且,“审视他人而避免自己受审视,是最重要的权力形式之一” [41]。这就是为什么极权政府想要监控:这给了他们控制民众的权力。尽管当今的科技公司并不公开寻求政治权力,但它们积累的数据和知识——其中大部分是秘密积累的,未经公众监督——仍然赋予它们对我们生活的巨大权力 [42]。

铭记工业革命

数据是信息时代的决定性特征。互联网、数据存储和处理以及软件驱动的自动化正在对全球经济和人类社会产生重大影响。随着我们的日常生活和社会组织因信息技术而改变,并且在未来几十年内可能继续发生根本性变化,人们自然而然地将其与工业革命相比较 [17, 26]。

工业革命是通过重大的技术和农业进步实现的,长期来看带来了持续的经济增长和生活水平的显著提高——但同时也带来了严重的问题。空气污染(由于烟雾和化学过程)和水污染(来自工业和生活废物)令人触目惊心。工厂主生活奢华,而城市工人往往住在拥挤不卫生的住房中,长时间在恶劣条件下工作。童工现象普遍,包括在矿井中从事危险且报酬低微的工作。

经过很长时间才建立起保障措施,例如环境保护法规、工作场所安全规程、禁止童工的法律以及食品卫生检查。毫无疑问,当工厂不再被允许将废物排入河流、出售受污染食品或剥削工人时,经营成本增加了。但整个社会从这些法规中受益匪浅,很少有人愿意回到那个时代之前 [17]。

正如工业革命有其需要管理的阴暗面,我们向信息时代的过渡也面临重大挑战,需要我们去面对和解决 [43, 44]。数据的收集和使用是这些问题之一。用布鲁斯·施奈尔的话来说 [26]:

数据是信息时代的污染问题,保护隐私是环境挑战。几乎所有的计算机都会产生信息。它们存在并恶化下去。我们如何处理它——如何控制它、如何处置它——对于信息经济的健康至关重要。正如今天我们回顾工业时代的早期几十年,好奇我们的祖先如何在急于建设工业世界时忽视了污染一样,我们的子孙后代将在信息时代的早期几十年回顾我们,并根据我们如何应对数据收集和滥用的挑战来评判我们。

我们应该努力让他们感到自豪。

立法与自我监管

数据保护法律或许能够帮助维护个人权利。例如,GDPR 规定个人数据必须“为特定、明确且合法的目的收集,且不得以与这些目的不相符的方式进一步处理”,并且必须“充分、相关且限于处理目的所必需的范围” [32]。

然而,这种数据最小化的原则与大数据哲学直接相悖,大数据哲学是最大化数据收集、将收集到的数据与其他数据集结合,并通过试验和探索以产生新见解。探索意味着将数据用于不可预见的目的,而这与 GDPR 所要求的“特定且明确”的目的相悖。虽然该法规对在线广告行业产生了一定影响 [45],但执行力度较弱 [46],似乎并未导致整个科技行业的文化和实践发生太大变化。

收集大量个人数据的公司大体上反对监管,认为监管是负担且阻碍创新。在某种程度上,这种反对是合理的。例如,共享医疗数据既带来隐私风险,也带来潜在机遇:如果数据分析能帮助我们实现更好的诊断或找到更好的治疗方法,可以挽救多少生命 [47]?过度监管可能会阻止此类突破。平衡潜在机遇与风险是困难的 [41]。

从根本上说,我们需要在科技行业中实现关于个人数据的文化转变。我们应该停止将用户视为待优化的指标,并记住他们是值得尊重、尊严和自主权的人。我们应该自我规范数据收集和处理实践,以建立并维持依赖于我们软件的人们的信任 [48]。并且,我们应该主动承担起责任……

第14章:做正确的事

我们自己有责任教育最终用户了解他们的数据是如何被使用的,而不是让他们蒙在鼓里。

我们应该允许每个人维护自己的隐私(即对自己数据的控制权),而不是通过监控窃取这种控制权。我们对自己数据的个体权利就像国家公园的自然环境:如果我们不明确保护和维护它,它就会被摧毁。这将是一场公地悲剧,我们所有人都将因此受害。无处不在的监控并非不可避免。我们仍然有能力阻止它。

作为第一步,我们不应永久保留数据,而应在数据不再需要时立即清除,并且从一开始就尽量减少数据的收集[48, 49]。你没有的数据,就是无法被泄露、窃取或被政府强制要求上交的数据。总体而言,需要改变文化和态度。作为技术人员,如果我们不考虑工作的社会影响,那我们就没有尽到职责[50]。

总结

至此,本书即将结束。我们涉及了广泛的内容:

  • 在第1章中,我们对比了分析型系统和操作型系统,比较了云托管与自建服务器,权衡了分布式系统与单节点系统,并讨论了如何平衡业务需求与用户需求。

  • 在第2章中,我们学习了如何定义若干非功能性需求,如性能、可靠性、可扩展性和可维护性。

  • 在第3章中,我们探索了数据模型的谱系,包括关系模型、文档模型、图模型、事件溯源以及DataFrame。我们还看了一些查询语言的例子,包括SQL、Cypher、SPARQL、Datalog和GraphQL。

  • 在第4章中,我们讨论了针对OLTP的存储引擎(LSM树和B树)和分析型工作负载的存储引擎(列式存储),以及用于信息检索的索引(全文搜索和向量搜索)。

  • 在第5章中,我们研究了将数据对象编码为字节的不同方式,以及如何在需求变化时支持演进。我们还比较了数据在进程间流动的几种方式:通过数据库、服务调用、工作流引擎和事件驱动架构。

  • 在第6章中,我们研究了单主复制、多主复制和无主复制之间的权衡。我们还探讨了一致性模型,如读后写一致性,以及允许客户端离线工作的同步引擎。

  • 在第7章中,我们讨论了分片,包括再平衡策略、请求路由和二级索引。 597

  • 在第8章中,我们涵盖了事务,考虑了持久性、各种隔离级别(读已提交、快照隔离和可串行化)的实现方式,以及在分布式事务中如何确保原子性。

  • 在第9章中,我们调查了分布式系统中出现的基本问题(网络故障与延迟、时钟错误、进程暂停、崩溃),并看到这些问题使得即使是像锁这样看似简单的事情也难以正确实现。

  • 在第10章中,我们深入探讨了各种形式的共识及其支持的一致性模型(线性一致性)。

  • 在第11章中,我们深入研究了批处理,从简单的Unix工具链构建到使用分布式文件系统或对象存储的大规模分布式批处理器。

  • 在第12章中,我们将批处理推广到流处理,并讨论了底层的消息代理、变更数据捕获(CDC)、容错机制以及诸如流连接之类的处理模式。

  • 在第13章中,我们探索了一种流式系统的哲学,它允许将不同的数据系统集成、系统演进以及应用程序更容易地扩展。

最后,在这最后一章中,我们退一步审视了构建数据密集型应用的一些伦理方面。我们看到,虽然数据可以用来做好事,但它也能造成严重伤害:做出严重影响人们生活且难以上诉的决定,导致歧视和剥削,使监控常态化,并暴露私密信息。我们还面临着数据泄露的风险,并且可能会发现善意的数据使用带来了意想不到的后果。

鉴于软件和数据对世界的巨大影响,作为工程师,我们必须记住,我们有责任朝着我们希望生活的世界努力:一个以人性和尊重对待人的世界。让我们为实现这一目标而共同努力。

参考文献

[1] David Schmudde. “What If Data Is a Bad Idea?” schmud.de, August 2024. Archived at perma.cc/ZXU5-XMCT

[2] Association for Computing Machinery. “ACM Code of Ethics and Professional Conduct.” acm.org, 2018. Archived at perma.cc/SEA8-CMB8

[3] Igor Perisic. “Making Hard Choices: The Quest for Ethics in Machine Learning.” linkedin.com, November 2016. Archived at perma.cc/DGF8-KNT7 598

[4] John Naughton. “Algorithm Writers Need a Code of Conduct.” theguardian.com, December 2015. Archived at perma.cc/TBG2-3NG6

[5] Deborah G. Johnson and Mario Verdicchio. “Ethical AI Is Not About AI.” Communications of the ACM, volume 66, issue 2, pages 32–34, January 2023. doi:10.1145/3576932

[6] Ben Green. “‘Good’ Isn’t Good Enough.” At NeurIPS Joint Workshop on AI for Social Good, December 2019. Archived at perma.cc/H4LN-7VY3

[7] Marc Steen. “Ethics as a Participatory and Iterative Process.” Communications of the ACM, volume 66, issue 5, pages 27–29, April 2023. doi:10.1145/3550069

[8] Logan Kugler. “What Happens When Big Data Blunders?” Communications of the ACM, volume 59, issue 6, pages 15–16, June 2016. doi:10.1145/2911975

[9] Miri Zilka. “Algorithms and the Criminal Justice System: Promises and Challenges in Deployment and Research.” At University of Cambridge Security Seminar Series, March 2023. Archived at archive.org

[10] Bill Davidow. “Welcome to Algorithmic Prison.” theatlantic.com, February 2014. Archived at archive.org

[11] Don Peck. “They’re Watching You at Work.” theatlantic.com, December 2013. Archived at perma.cc/YR9T-6M38

[12] Leigh Alexander. “Is an Algorithm Any Less Racist Than a Human?” theguardian.com, August 2016. Archived at perma.cc/XP93-DSVX

[13] Jesse Emspak. “How a Machine Learns Prejudice.” scientificamerican.com, December 2016. perma.cc/R3L5-55E6

[14] Rohit Chopra, Kristen Clarke, Charlotte A. Burrows, and Lina M. Khan. “Joint Statement on Enforcement Efforts Against Discrimination and Bias in Automated Systems.” ftc.gov, April 2023. Archived at perma.cc/YY4Y-RCCA

[15] Maciej Cegłowski. “The Moral Economy of Tech.” idlewords.com, June 2016. Archived at perma.cc/L8XV-BKTD

[16] Greg Nichols. “Artificial Intelligence in Healthcare Is Racist.” zdnet.com, November 2020. Archived at perma.cc/3MKW-YKRS

[17] Cathy O’Neil. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Publishing, 2016. ISBN: 9780553418811

[18] Julia Angwin. “Make Algorithms Accountable.” nytimes.com, August 2016. Archived at archive.org 599

[19] Bryce Goodman and Seth Flaxman. “European Union Regulations on Algorithmic Decision-Making and a ‘Right to Explanation.’” At ICML Workshop on Human Interpretability in Machine Learning, June 2016. Archived at arxiv.org

[20] United States Senate Committee on Commerce, Science, and Transportation, Office of Oversight and Investigations, Majority Staff. “A Review of the Data Broker Industry: Collection, Use, and Sale of Consumer Data for Marketing Purposes.” Staff Report, commerce.senate.gov, December 2013. Archived at perma.cc/32NV-YWLQ

[21] Stephanie Assad, Robert Clark, Daniel Ershov, and Lei Xu. “Algorithmic Pricing and Competition: Empirical Evidence from the German Retail Gasoline Market.” Journal of Political Economy, volume 132, issue 3, pages 723–771, March 2024. doi:10.1086/726906

[22] Donella H. Meadows and Diana Wright. Thinking in Systems: A Primer. Chelsea Green Publishing, 2008. ISBN: 9781603580557

[23] Daniel J. Bernstein. “Listening to a ‘big data’/‘data science’ talk. Mentally translating ‘data’ to[24] Marc Andreessen. “Why Software Is Eating the World.” a16z.com, August 2011. Archived at perma.cc/3DCC-W3G6

[25] J. M. Porup. “‘Internet of Things’ Security Is Hilariously Broken and Getting Worse.” arstechnica.com, January 2016. Archived at archive.org

[26] Bruce Schneier. Data and Goliath: The Hidden Battles to Collect Your Data and Control Your World. W. W. Norton, 2015. ISBN: 9780393352177

[27] The Grugq. “Nothing to Hide.” grugq.tumblr.com, April 2016. Archived at perma.cc/BL95-8W5M

[28] Federal Trade Commission. “FTC Takes Action Against General Motors for Sharing Drivers’ Precise Location and Driving Behavior Data Without Consent.” ftc.gov, January 2025. Archived at perma.cc/3XGV-3HRD

[29] Tony Beltramelli. “Deep-Spying: Spying Using Smartwatch and Deep Learning.” Masters thesis, IT University of Copenhagen, December 2015. Archived at arxiv.org

[30] Shoshana Zuboff. “Big Other: Surveillance Capitalism and the Prospects of an Information Civilization.” Journal of Information Technology, volume 30, issue 1, pages 75–89, April 2015. doi:10.1057/jit.2015.5

[31] Michiel Rhoen. “Beyond Consent: Improving Data Protection Through Consumer Protection Law.” Internet Policy Review, volume 5, issue 1, March 2016. doi:10.14763/2016.1.404

第14章:做正确的事

[32] 欧洲议会和理事会2016年4月27日《欧盟通用数据保护条例》(EU) 2016/679. 欧盟官方公报, L 119/1, 2016年5月.

[33] 英国信息专员办公室. “什么是‘合法利益’依据?” ico.org.uk. 存档于 perma.cc/W8XR-F7ML

[34] Tristan Harris. “少数科技公司如何每天控制数十亿人的心智.” 在TED2017, 2017年4月. 存档于 archive.org

[35] Carina C. Zona. “有洞察力算法的后果.” 在GOTO Berlin, 2016年11月.

[36] Imanol Arrieta Ibarra, Leonard Goff, Diego Jiménez Hernández, Jaron Lanier, 和 E. Glen Weyl. “我们是否应将数据视为劳动?超越‘免费’.” 美国经济学会论文与会议记录, 第108卷, 第38–42页, 2018年5月. doi:10.1257/pandp.20181003

[37] Bruce Schneier. “数据是有毒资产,为何不扔掉它?” schneier.com, 2016年3月. 存档于 perma.cc/4GZH-WR3D

[38] Cory Scott. “数据并非有毒——这暗示没有益处的说法是错误的——而是有害物质,我们必须平衡需求与欲望.” x.com, 2016年3月. 存档于 perma.cc/CLV7-JF2E

[39] Mark Pesce. “数据是新型铀——既极其强大又异常危险.” theregister.com, 2024年11月. 存档于 perma.cc/NV8B-GYGV

[40] Bruce Schneier. “任务蔓延:当一切都是恐怖主义时.” schneier.com, 2013年7月. 存档于 perma.cc/QB2C-5RCE

[41] Lena Ulbricht 和 Maximilian von Grafenstein. “大数据:巨大的权力转移?” 互联网政策评论, 第5卷, 第1期, 2016年3月. doi:10.14763/2016.1.406

[42] Ellen P. Goodman 和 Julia Powles. “Facebook和Google:我们有史以来最强大、最神秘的帝国.” theguardian.com, 2016年9月. 存档于 perma.cc/8UJA-43G6

[43] Judy Estrin 和 Sam Gill. “世界正被数字污染窒息.” washingtonmonthly.com, 2019年1月. 存档于 perma.cc/3VHF-C6UC

[44] A. Michael Froomkin. “将大规模监控监管为隐私污染:从环境影响报告中学习.” 伊利诺伊大学法律评论, 第2015卷, 第5期, 2015年8月. 存档于 perma.cc/24ZL-VK2T

[45] Pengyuan Wang, Li Jiang, 和 Jian Yang. “GDPR合规对展示广告的早期影响:以一家广告发布商为例.” 营销研究杂志, 第61卷, 第1期, 2023年4月. doi:10.1177/00222437231171848

[46] Johnny Ryan. “不要被Meta因数据泄露而罚款所迷惑.” 经济学人, 2023年5月. 存档于 perma.cc/VCR6-55HR

摘要 | 601

[47] Jessica Leber. “你的数据足迹正以你无法想象的方式影响你的生活.” fastcompany.com, 2016年3月. 存档于 archive.org

[48] Maciej Cegłowski. “被数据困扰.” idlewords.com, 2015年10月. 存档于 archive.org

[49] Sam Thielman. “你不是你读过的书:图书馆员清除用户数据以保护隐私.” theguardian.com, 2016年1月. 存档于 archive.org

[50] Jez Humble. “有人说进入科技行业是为了‘改变世界’,这是陈词滥调。那么,你必须真正考虑你的工作对世界的影响。认为你可以也应该排除科技领域的社会和政治讨论,这是愚蠢的。这意味着你没有做好你的工作。” x.com, 2021年4月. 存档于 perma.cc/3NYS-MHLC

602 | 第14章:做正确的事