Privasea利用了全同态加密(FHE)技术来训练处理加密数据的AI模型,确保输入的隐私性。这一创新支持了类似ChatGPT的模型可以处理加密指令,也意味着服务提供商永远不会看到未加密的内容。系统处理这些加密输入,并生成只有用户能够解密的加密输出。这种方法可以保护用户数据不被泄露,对于金融等敏感领域尤为关键。在这些行业中,防止潜在的信息泄露至关重要。通过实现与AI的安全加密交互,Privasea解决了AI应用中的重大隐私和安全问题。这个案例展示了加密技术如何帮助和改进一个AI产品——使用密码学方法来改变AI的训练方式。这导致了一个仅使用AI技术无法实现的产品:一个可以接受加密指令的模型。

Dorsa是一家区块链安全领域的初创公司。他们利用AI模型对智能合约进行审计和监控。他们开发了多种工具,包括强化学习agents,以全面测试智能合约的安全性。Dorsa开发的工具可以为开发和审计人员提供帮助。因此,Dorsa利用AI模型来提高智能合约的安全性和可靠性。在这种情况下,人工智能技术被用来改进加密领域产品——这与我们之前讨论的情况刚好相反。Dorsa提供了一种AI模型,使创建安全智能合约的过程更快、更便宜。虽然它是链下的,但AI模型的使用仍然有助于加密项目:智能合约通常是加密项目解决方案的核心。 Dorsa的AI能力可以发现人类忘记检查的漏洞,从而防止未来的黑客攻击。然而,这个特殊的例子并没有利用AI使加密产品具备以前做不到的能力,即编写安全的智能合约。Dorsa的AI只是让这个过程变得更好、更快。不过,这是AI技术(模型)改进加密产品(智能合约)的一个例子。 案例研究 LoverGPT
LoverGPT是一款Web2 AI女友应用。他们并不会审查裸露的聊天内容或图像,因此可能会面临无法接入Visa和Mastercard支付方式的问题。为了解决这个问题,他们开始接受加密货币的支付方式。然而产品的其他部分并没有使用任何区块链技术。LoverGPT并不是Crypto x AI的一个例子。我们已经确定了AI可以帮助改进加密技术栈,反之亦然,这可以通过Privasea和Dorsa的例子来说明。然而,在LoverGPT的例子中,加密部分和AI部分并没有相互作用,它们只是在产品中共存。要将某个项目视为AI x Crypto项目,仅仅让AI和Crypto为同一个产品或解决方案做出贡献是不够的——这些技术必须相互交织配合以产生解决方案。 AI和加密技术的结合往往流于表面,没有实际价值。 加密技术和人工智能技术可以直接结合以产生更好解决方案的技术。将它们结合使用可以使彼此在整体项目中更好地发挥作用。只有涉及这些技术之间协同合作的项目才被分类为AI X Crypto项目 。 2.2 AI与Crypto如何相互促进
注意:在本报告中,我们使用“加密”一词来指代区块链技术和加密解决方案。零知识证明(ZKP)、加密签名和区块链账本都是“加密”的示例。我们将在适当的部分澄清我们所指的加密的具体方面。


栈作为一个整体,具有任何单独部分都不具备的属性和能力。各部分之间的交互,就像钟表中的齿轮一样,决定着栈的高层次行为。在栈中,各个部分之间有着深刻的联系——具体技术的组合方式决定了栈的功能。因此,改变栈就等于改变了整个技术所能实现的目标。在栈中引入新技术可以创造新的技术可能性——以太坊在其加密栈中添加了新技术,使智能合约成为可能。同样,对栈的改变也能让开发者绕过以前被认为是技术固有的问题——Polygon对以太坊加密栈所做的改变使他们能够将交易费用降低到以前认为不可能达到的水平。
当一种技术在另一种技术的栈中使用时,这代表了技术之间更深入的集成,我们称之为 “内部集成”。如果两种技术一起使用,相互支持,但组成每个栈的部分没有任何改变,那么这种集成就是 “外部 ”集成。
- 内部支持:加密技术可用于对AI栈进行内部更改,例如改变训练模型的技术手段。我们可以在人工智能栈中引入FHE技术,Privasea就是例子,在AI栈中直接内置了一个加密的部分,形成了一个经过修改的AI栈。
- 外部支持:加密技术用于支持基于AI的功能,而无需对AI栈进行修改。Bittensor就是一个例子,它激励用户贡献数据——这些数据可用于训练AI模型。在这种情况下,模型的训练或使用方式没有任何改变;AI栈也没有发生任何变化。不过,在 Bittensor网络中,使用经济激励措施有助于AI栈更好地实现其目的。

- 内部支持:AI技术用于crypto栈内部。AI位于链上,直接与crypto栈内的部分连接。举例来说,链上的AI agents管理着一个 DAO。这种AI不只是协助cypto栈。它是技术栈中不可分割的一部分,深深嵌入技术栈中,使 DAO 正常运行。
- 外部支持:AI为crypto栈提供外部支持。AI用于支持Crypto栈,而不对其进行内部更改。Dorsa等平台使用AI模型来确保智能合约的安全。AI在链外,是一种外部工具,用于使编写安全智能合约的过程更快以及更便宜。



利用加密技术和人工智能的所有四种组合可以使项目更有价值,但前提是整体大于部分之和。2.7.1 示例一:Flock.ioFlock.io (opens new window) 允许在多个服务器之间 "分割 "训练模型,任何一方都无法访问所有训练数据。由于可以直接参与模型的训练,因此您可以使用自己的数据为模型做出贡献,而不会泄露任何数据。这有利于保护用户隐私。随着人工智能堆栈(模型训练)的改变,这涉及到加密在内部帮助人工智能。 此外,他们还使用加密代币奖励参与模型训练的人员,并使用智能合约对破坏训练过程的人员进行经济处罚。这并不会改变训练模型所涉及的流程,底层技术保持不变,但各方在都需要遵循链上罚没机制。这是加密技术从外部帮助人工智能的一个例子。 最重要的是,加密技术在内部帮助人工智能引入了一种新的能力:模型可以通过去中心化网络进行训练,同时保持数据的私密性。然而,从外部帮助人工智能的加密货币并没有引入新的能力,因为代币只是用来激励用户为网络做出贡献。用户可以用法币获得补偿,而用加密货币激励是一种更优解,可以提高系统的效率,但它并没有引入新的能力。


"一台电脑就能造成这么大的破坏......如果不了解一些基本的真相,我们该如何运作?
- 谷歌前首席执行官埃里克-施密特(Eric Schmidt)致 Chainlink 联合创始人谢尔盖-纳扎罗夫(Sergey Nazarov)1月23日,一条人工智能生成的语音信息谎称自己是拜登总统 (opens new window) ,劝阻民主党人不要在 2024 年初选中投票。不到一周后,一名金融工作者因模仿其同事的深度伪造视频通话,损失了2500万美元。与此同时,在X(前身为Twitter)上,人工智能伪造的泰勒·斯威夫特(Taylor Swift)的露骨照片吸引了4500万次浏览,引发了广泛的愤怒。这些事件都发生在2024年的头两个月,它们只是深度伪造在政治、金融和社交媒体领域产生的各种破坏性影响的一个缩影。 3.1.1 它们是如何成为问题的?伪造图像并不是什么新鲜事。1917年,The Strand杂志上刊登了一些被设计成仙女模样的精巧剪纸照片;许多人认为这些照片是超自然力量存在的有力证据。



我们仍然相信视频,尽管它们现在可以伪造。深度伪造实现了大规模定向广告。我们可能很快就会看到另一个YouTube,在这个版本中,所说的内容、所说的人以及所说的地点都是针对观众个性化定制的。一个早期的例子是Zomato的本地化广告,广告中演员赫里希克·罗尚(Hrithik Roshan)在观众所在城市的热门餐馆点菜。Zomato生成了不同的深度伪造广告,根据观众不同的GPS位置生成广告内容,介绍观众所在地的餐馆。 3.1.2 目前的解决方案有什么不足?3.1.2.1 意识现在的深度伪造技术已经非常先进,足以骗过训练有素的专家。这使得黑客能够绕过身份验证(KYC/AML)程序,甚至人工审核。这表明,我们无法用眼睛将深度伪造与真实图像区分开来。我们不能仅仅通过对图像持怀疑态度来防范深度伪造:我们需要更多的工具来应对深度伪造的流行。 3.1.2.2 平台如果没有强大的社会压力,社交媒体平台并不愿意有效抑制深度伪造。例如,Meta禁止含有虚假音频的度伪造视视频,但拒绝禁止纯捏造的视频内容。他们违背了自己的监督委员会的建议,没有删除一段显示拜登总统抚摸孙女的深度伪造视频,即纯属捏造的内容。 3.1.2.3 政策我们需要制定法律,有效应对新型深度伪造风险,同时又不限制问题较少的用途,如艺术或教育领域,因为这些用途并不试图欺骗人们。泰勒·斯威夫特(Taylor Swift)深度伪造图片未经同意而被传播等事件,促使立法者通过更严格的法律来打击此类深度伪造行为。针对此类案件,可能有必要在法律上强化在线审核程序,但禁止所有人工智能生成内容的提议引起了电影制作人和数字艺术家的警觉,他们担心这会不公正地限制他们的工作。找到正确的平衡点是关键,否则那些合法的创意应用将被扼杀。 推动立法者提高训练强大模型的准入门槛,大型科技公司可以确保其人工智能垄断地位。这可能会导致权力不可逆转地集中在少数公司手中——例如,涉及人工智能的第 14110号行政命令就建议对拥有大量计算能力的公司提出严格要求。

我们需要安全的硬件,否则确保 C2PA 安全的密钥就会被盗。

解决深度伪造错误信息的问题没有万全之策。3.1.3 加密货币能解决这个问题吗?开源的深度伪造模型已经开始流传。因此,有人可能会说,总有一些方法可以利用深度伪造来滥用他人的肖像;即使这种做法被定为犯罪,有人还是会选择生成不道德的深度伪造内容。不过,我们可以让恶意深度伪造内容退出主流来解决这一问题。我们可以防止人们认为深度伪造的图片是真实的,且能够创建限制深度伪造内容的平台。本节将介绍各种基于加密技术的解决方案,以解决恶意深度伪造传播带来的误导问题,同时强调每种方法的局限性。 3.1.3.1 硬件认证经过硬件认证的相机在拍摄每张照片时都会嵌入一个独特的证明,证明照片是由该相机拍摄的。该证明由相机独有的不可复制、防篡改芯片生成,确保图像的真实性。音频和视频也可以使用类似的程序。
入侵软件的成本更低,但入侵安全芯片的成本却很高。认证证明告诉我们,图像是由真实相机拍摄的,这意味着我们通常可以相信这是真实物体的照片。我们可以标记没有这种证明的图像。但如果相机拍摄的是伪造场景,而伪造场景的设计看起来就像真实场景,那么这种方法就失效了——你可以直接将相机对准一张伪造的图片。目前,我们可以通过检查捕捉到的图像是否失真来判断照片是否从数字屏幕上拍摄的,但骗子们会找到隐藏这些瑕疵的方法(例如,通过使用更好的屏幕,或通过限制镜头眩光)。最终,即使是人工智能工具也无法识别这种欺诈行为,因为骗子可以找到避免所有这些失真的方法。 硬件认证将减少信任伪造图像的情况,但少数情况下,我们仍然需要额外的工具来防止深度伪造图像在摄像头被入侵或滥用情况下传播。正如我们之前所讨论的,使用经过硬件验证的摄像头仍有可能造成深度伪造内容是真实图像的错误印象,原因比如摄像头被黑客攻击,或相机被用来拍摄电脑屏幕上深度伪造的场景。要解决这个问题,还需要其他工具,比如摄像头黑名单。 相机黑名单将使社交媒体平台和应用程序能够标记来自特定相机的图像,因为已知该相机过去曾生成过误导性图像。黑名单可以无需公开披露可用于追溯相机的信息,如相机 ID 等。 然而,目前还不清楚由谁来维护摄像机黑名单,也不清楚如何防止人们收受贿赂后把举报人的相机也加入黑名单(的报复行为)。 3.1.3.2 基于区块链的图像年表区块链是不可篡改的,因此在互联网上出现图像时,将图像与附加元数据一起添加到带有时间戳的年表中,这样时间戳和元数据就不会被篡改。由于未经编辑的原始图片在恶意编辑扩散之前,就能被诚实的各方以不可更改的方式存储在区块链上,因此访问这样的记录将使我们能够识别恶意编辑并验证原始来源。这项技术已在Polygon区块链网络上实施,作为与福克斯新闻合作开发的事实核查工具 Verify 的一部分。
区块链可以防止人们篡改图片的时间顺序,但无法阻止欺骗性图片的出现。

"(有了Veracity Bonds),如果你的手在饼干罐里被抓到,你实际上会赔钱,而且,作为读者,我会知道你有多可信"。
- 查尔斯-霍斯金森,卡达诺创始人;以太坊联合创始人作者可因错误信息而受到惩罚;用户可因识别错误信息而获得奖励。例如,“真实性债券”使媒体机构能够以其出版物的准确性作为赌注,并因错误信息面临经济处罚。因此,“真实性债券”为这些媒体公司提供了一个经济上的理由来确保信息的真实性。 真实性债券将是我们的“真相市场”不可分割的一部分,在这个市场上,不同的系统通过以最高效、最稳健的方式验证内容的真实性来赢得用户的信任。这类似于证明市场,如Succinct Network和=nil Proof Market,但针对的是仅靠密码学还不足以验证真相的模糊问题。智能合约(Smart Contracts)可以作为一种手段,强制实施使这些真相市场发挥作用所需的经济激励措施,因此区块链技术可能会在帮助打击虚假信息方面发挥核心作用。 3.1.3.5 声誉评分
"如果我们不解决内容的声誉和认证(问题),事情就会变得非常奇怪"。
- 伊利亚-波罗苏欣,NEAR 联合创始人;《关注就是你所需要的一切》一书的共同作者我们可以用声誉来代表可信度。例如,我们可以看一个人在推特上有多少粉丝,来判断我们是否应该相信他所说的话。不过,声誉系统也应考虑作者的过往记录,而不仅仅是他们的知名度。我们不能把可信度与影响力混为一谈。 我们不能允许人们无限量地生成匿名身份,否则,他们就可以在名誉受损时抛弃自己的身份,以重置他们的社会可信度。这就要求我们使用无法复制的数字身份,如上一节所述。 我们还可以利用“真相市场”和“硬件认证”中的证据来确定一个人的声誉,因为这些都是追踪其真实记录的可靠方法。声誉系统是迄今为止所有其他解决方案的集大成者,因此也是最稳健、最全面的方法。

- 复杂的深度伪造正在侵蚀政治、金融和社交媒体领域的信任,凸显了建立 "可验证网络 "以维护真相和民主诚信的必要性。
- 深度伪造曾经是一项昂贵且技术密集型的工作,但随着人工智能的进步,它已变得很容易制作,从而改变了错误信息的格局。
- 历史背景告诉我们,操纵媒体并不是新的挑战,但人工智能使制造令人信服的假新闻变得更加容易和便宜,因此需要新的解决方案。
- 视频造假带来了独特的危险,因为它们损害了传统上被认为是可靠的证据,导致社会陷入一种困境,即真实行为可能被当作假的。
- 现有对策分为意识、平台、政策和技术方法,每种方法在有效打击深度伪造方面都面临挑战。
- 硬件证明和区块链证明了每张图片的来源,并创建了透明、不可更改的编辑记录,从而提供了前景广阔的解决方案。
- 加密货币钱包和zk-KYC加强了在线内容的验证和认证,而链上信誉系统和经济激励措施(如 "真实性债券")则为真相提供了一个市场。 在承认深度伪造的积极用途的同时,加密技术还提出了一种将有益的深度伪造列入白名单的方法,从而在创新与诚信之间取得平衡。
“从70年的人工智能研究中可以收获的最大教训是,利用通用方法计算最终是最有效的,而且是以很大的优势取胜。”
– The Bitter Lesson苦涩的一课, Rich Sutton教授这句话有悖常理,但却是事实。人工智能界拒绝接受定制方法效果不佳的说法,但"苦涩的教训"仍然适用:使用最强的计算能力总能产生最好的结果。 我们必须扩大规模:更多GPU、更多数据中心、更多训练数据。 计算机国际象棋研究人员曾试图利用人类顶尖棋手的经验来构建国际象棋引擎,这就是研究人员弄错了的一个例子。最初的国际象棋程序都是照搬人类的开局策略(使用"开局书")。研究人员希望国际象棋引擎能从强势局面开始,而无需从头开始计算最佳棋步。它们还包含许多"战术启发法"——人类棋手使用的战术,如叉子。简单地说:国际象棋程序是根据人类对如何成功下棋的见解而不是一般的计算方法构建的。









通过本章的提示,我们可以了解人工智能概念与加密领域的关系。本节所涉主题概述:
- 机器学习(machine learing, ML)是人工智能的一个分支,在这个分支中,无需明确编程,机器就能通过数据做出决策。
- ML流程分为三个步骤:数据、训练和推理。
- 训练模型的计算成本非常高,而推理则相对便宜。
- 学习主要有三种类型:监督学习、无监督学习和强化学习。
- 监督的学习是指从范例(由教师提供)中学习。教师可以向模型展示狗的图片,并告诉它这就是狗。然后,模型就能学会将狗与其他动物区分开来。
- 然而,许多流行的模型,如LLMs(如GPT-4和LLaMa),都是通过无监督学习来训练的。在这种学习模式中,教师不会提供任何指导或示例。相反,模型通过学习来发现数据中的模式。
- 强化学习(试错学习)主要用于连续决策任务,如机器人控制和游戏(如国际象棋或围棋)。

经济激励措施有助于收集高质量的数据,而隐私保护技术可以解决用户在上述例子等敏感环境中的顾虑。我们将在第2章中介绍更深层次的数据挑战。不过,这可以让你了解到,收集好的数据并对其进行预处理是相当具有挑战性的。

- MNIST数据集
- 说明:包含70,000个灰度图像格式的手写数字(0-9)
- 使用案例:主要用于计算机视觉中的手写数字识别技术。它是一个对初学者友好的数据集,通常用于教育领域。
- ImageNet
- 说明:一个包含1,400多万张图片的大型数据库,标注有20,000多个类别的标签。
- 使用案例:用于对象检测和图像分类算法的训练和基准测试。一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)一直是推动计算机视觉和深度学习技术发展的重要活动。
- IMDb评论
- 说明:包含来自 IMDb的50,000篇电影评论,分为两组:训练和测试。每组包含相同数量的正面和负面评论。
- 使用案例:广泛应用于自然语言处理(NLP)中的情感分析任务。它有助于开发能理解文本中表达的情感(正面/负面)并对其进行分类的模型。
在透明度和开放性与盈利能力之间取得平衡的解决方案可以提高开放数据集的质量。1.2.2 训练管道的第二步是训练模型。那么,训练模型究竟意味着什么呢?首先,我们来看一个例子。一个机器学习模型(训练完成后)通常只有两个文件。例如,LLaMa 2(一个大型语言模型,类似于 GPT-4)就是两个文件:
- 参数,一个 140GB 的文件,其中包括数字。
- run.c ,和一个简单的文件(约 500 行代码)。

- 我们取第一个数据点,即 "5"。
- 然后,我们将图像("5")传递给网络。网络会对输入图像进行数学运算。
- 网络将输出一个0到9之间的数字。该输出是当前网络对该图像的预测。
- 现在有两种情况。网络要么是对的(它预测了 "5"),要么是错的(任何其他数字)。
- 如果它预测的数字正确,我们就不用做什么。
- 如果预测的数字不正确,我们将返回网络,对所有参数进行小幅修改。
- 在做了这些小改动后,我们再试一次。从技术上讲,网络现在有了新的参数,因此预测结果也会不同。
- 我们对所有数据点一直这样做,直到网络基本正确为止。
与训练相比,进行推理的成本很低,而且更容易并行化,这可能为小型闲置计算(如笔记本电脑和手机)提供了机会。推理过程有几个步骤。首先,在实际生产中使用之前,我们需要对其进行测试。我们对训练阶段未见的数据进行推理,以验证模型的质量。其次,当我们部署一个模型时,会有一些硬件和软件要求。例如,如果我的iPhone上有人脸识别模型,那么该模型就可以放在苹果公司的服务器上。然而,这样做非常不方便,因为现在每次我想解锁手机时,都必须访问互联网并向苹果服务器发送请求,然后在该模型上进行推理。然而,如果想在任意时刻使用这种技术,进行人脸识别的模型就必须存在于你的手机上,这意味着该模型必须与你iPhone上的硬件类型兼容。 最后,在实践中,我们还必须维护这一模式。我们必须不断进行调整。我们训练和使用的模型并不总是完美的。硬件要求和软件要求也在不断变化。 1.2.4 机器学习管道是迭代式的到目前为止,我把这个管道设计成了依次进行的三个步骤。你获取数据,处理数据,清理数据,一切都很顺利,然后你训练模型,模型训练完成后,你进行推理。这就是机器学习在实践中的美好图景。实际上,机器学习需要进行大量的迭代。因此,它不是一个链条,而是如下图所示的几个循环。

使用合成数据来训练机器学习模型可能会导致许多问题,因此能够证明数据的真实性在未来可能变得至关重要。

模型是不断更新的,因此不变的记录可能会给设计带来挑战。1.3 机器学习的类型我们将介绍三种主要的机器学习模型。
- 监督学习:"老师,教我方法"
- 无监督学习:"只需找到隐藏的模式“
- 强化学习:"试一试,看什么有效"
激励机制和其他博弈论动态可能有助于提高开放数据集的质量。1.3.2 无监督学习(Unsupervised Learning, USL)"只需找到隐藏的模式" 想象一下,你有一个装满各种水果的大篮子,但你并不熟悉所有的水果。你开始根据它们的外观、大小、颜色、质地甚至气味将它们分类。你不太清楚每种水果的名称,但你注意到有些水果彼此相似。也就是说,你在数据中发现了一些规律。 这种情况类似于机器学习中的无监督学习。在无监督学习中,我们会给模型一堆数据(比如各种水果的组合),但我们不会告诉模型每个数据是什么(我们不会给水果贴标签)。然后,模型会检查所有这些数据,并试图自己找出模式或分组。它可能会根据水果的颜色、形状、大小或任何其他它认为相关的特征进行分组。然而,模型找到的特征并不总是相关的。这就导致了许多问题,我们将在第 2 章中看到。 例如,模型最终可能会将香蕉和大蕉归为一组,因为它们都是长条形且呈黄色,而苹果和西红柿可能会被归为另一组,因为它们都是圆形且可能是红色。这里的关键在于,模型是在没有任何先验知识或标签的情况下找出这些分组的--它是从数据本身学习的,就像你根据可观察到的特征将未知水果分到不同的组中一样。 无监督学习是许多流行的机器学习模型的支柱,例如大型语言模型(LLM)。ChatGPT不需要人类通过提供标签来教它如何说每个句子。它只需分析语言数据中的模式,并学会预测下一个单词。 许多其他强大的生成式人工智能模型都依赖于无监督学习。例如,GAN(生成对抗网络)可用于生成人脸(即使这个人并不存在)。参见 https://thispersondoesnotexist.com/(opens new window)


加密解决方案可以让我们追踪内容的来源,并以可扩展的方式让我们安全地使用生成式人工智能。1.3.3 强化学习 (Reinforcement Learning, RL)"试一试,看什么有效 "或 "从试验和错误中学习" 想象一下,您正在教一只狗做一个新的动作,比如捡球。每当狗狗做出接近你想要的动作时,比如跑向球或捡起球,你就给它点心吃。如果狗狗做了与此无关的事情,比如朝相反的方向跑,它就得不到食物。渐渐地,狗狗发现捡到球就能得到美味的食物,所以它就会一直这样做。这基本上就是机器学习领域中的强化学习(RL)。 在RL中,你有一个计算机程序或代理(如狗),它通过尝试不同的事情(如狗尝试不同的动作)来学习决策。如果代理做出了好的行为(比如捡球),它就会得到奖励(食物);如果做出了不好的行为,它就得不到奖励。随着时间的推移,代理会学会多做能获得奖励的好事,少做不能获得奖励的坏事。从形式上看,这就是最大化奖励函数。 最酷的地方在于:代理会自己通过试错找出这一切。现在,如果我们想构建一个人工智能来下棋,那么人工智能最初可以随意尝试走棋。如果最终赢得了比赛,人工智能就会得到奖励。然后,该模型就会学会走更多的胜棋。 这可以应用于许多问题,尤其是需要连续决策的问题。例如,RL方法可用于机器人与控制、国际象棋或围棋(如 AlphaGo)以及算法交易。 RL方法面临许多挑战。其一,代理可能需要很长时间才能"学会"有意义的策略。这对于学习下棋的人工智能来说是可以接受的。但是,当人工智能开始采取随机行动来观察哪些行动有效时,你会把你的个人资金投入到人工智能算法交易中吗?或者说,如果机器人一开始会采取随机行动,你会允许它住在你家吗?


- 从偏见到可访问性,数据面临着巨大的挑战。此外,数据层面上存在恶意的攻击也会导致机器学习模型的误判。
- 当模型(如GPT-X)在合成数据上进行训练时,会发生模型崩溃。这会对其造成不可逆转的损害。
- 标注数据可能非常昂贵、缓慢且不可靠。
- 根据不同的架构,训练机器学习模型会面临许多挑战。
- 模型并行化带来了巨大的挑战,例如通信开销。
- 贝叶斯模型可用于量化不确定性。例如:在进行推理时,模型会返回它的确定程度(如 80% 的确定性)。
- LLM面临幻觉(hallucination)和训练困难等特殊挑战。
- 数据偏差:当训练数据不能代表所要模拟的真实世界场景时,机器学习中就会出现偏差。这可能导致偏差或不公平的结果,例如面部识别系统在某些人口群体上表现不佳,因为他们在训练数据中的代表性不足。
- 不均衡的数据集:通常,可用于训练的数据在不同类别之间的分布并不均衡。例如,在疾病诊断应用中,“无病”案例可能比"有病"案例多得多。这种不平衡会导致模型在少数民族/阶层上表现不佳。这个问题与偏见不同。
- 数据的质量和数量:机器学习模型的性能在很大程度上取决于训练数据的质量和数量。数据不足或质量不佳(如低分辨率图像或嘈杂的音频录音)会严重影响模型的有效学习能力。
- 数据的可获取性:获取大型、高质量的数据集可能是一项挑战,尤其是对于规模较小的机构或个人研究人员而言。大型科技公司在这方面往往具有优势,这可能导致机器学习模型开发方面的差距。
这是一项重大挑战。不过,众包数据集也会带来一些问题,比如数据质量的保证。经济激励和博弈论设计可以帮助创建开放的高质量数据集。
- 数据安全:保护数据免遭未经授权的访问并确保其在存储和使用过程中的完整性至关重要。安全漏洞不仅会损害隐私,还会导致数据被篡改,影响模型性能。
- 隐私问题:由于机器学习需要大量数据,处理这些数据可能会引发隐私问题,尤其是当其中包含敏感或个人信息时。确保数据隐私意味着尊重用户同意、防止数据泄露以及遵守 GDPR 等隐私法规。这可能非常具有挑战性(见下文示例)。
在机器学习模型中,删除特定用户的数据(遵守GDPR)是一项非常具有挑战性的工作。与数据库不同,我们不能随便删除一个条目。模型参数会根据提供的所有数据进行调整,因此在模型训练完成后删除特定用户的信息是非常困难的。

这可能表明,围绕数据出处(追踪数据来源)的解决方案存在重大机遇。

- 主观性:决定数据的标签可能是主观的,从而导致模糊不清和潜在的伦理问题。一个人认为合适的标签,另一个人可能会有不同的看法。
- 标签的差异:同一个人(更不用说不同的人)重复运行可能会提供不同的标签。这就提供了 "真实标签 "的噪声近似值,因此需要质量保证层。例如,人类可能会收到一个句子,并负责标注该句子的情绪("快乐"、"悲伤"......等)。同一个人有时会给完全相同的句子贴上不同的标签。这就降低了数据集的质量,因为它在标签中引入了差异。在实践中,20% 的标签无法使用的情况并不少见。
想象一下,创建一个数据集来预测区块链上新协议的质量。你很可能会得到一个范围很广的分数,这取决于你所选择的评分系统的次活动性,以及你所调查的人的意见差异。
- 缺乏专家注释者:对于一个小众的医疗应用,人们可能很难获得大量有意义的标签数据。这是由于能够提供这些标签的人员(医学专家)十分稀缺。
- 罕见事件:对于许多事件来说,由于事件本身非常罕见,因此很难获得大量的标注数据。例如,发现流星的计算机视觉模型。
- 高成本:当试图收集大量高质量数据集时,成本可能高得惊人。由于上述问题,如果需要对数据集进行标注,成本尤其高昂。

- 这一过程可能会耗费大量资源和时间,对于物理机器人或复杂环境而言尤其如此。如果机器人在真实世界中接受训练,那么它从试验和错误中学习可能会导致事故。或者,也可以考虑让训练机器人通过试验和错误来学习。
- 奖励稀少且延迟:在收到有意义的反馈之前,代理可能需要探索大量的行动,从而难以学习有效的策略。
- 确保所收集数据的多样性和代表性至关重要;否则,代理可能会过度适应狭隘的经验集,而不能通用化。在探索(尝试新行动)和利用(使用已知的成功行动)之间取得平衡使数据收集工作更加复杂,需要复杂的策略才能有效收集有用的数据。
闲置计算在分布式推理和数据收集中可以发挥强大作用,因为对硬件的要求比训练低得多。2.1.3 对抗性数据攻击
- 数据毒化攻击:在这种攻击中,通过添加扰动来破坏训练数据,从而欺骗分类器,导致不正确的输出。例如,有人可能会在非垃圾邮件中添加垃圾邮件元素。这将导致将来在垃圾邮件过滤器的训练中加入这些数据时,性能下降。这可以通过在非垃圾邮件上下文中增加 "free"、"win"、"offer "或 "token"等词的使用来解决。
- 规避攻击:攻击者在部署过程中操纵数据,欺骗先前训练好的分类器。规避攻击在实际应用中最为普遍。针对生物识别验证系统的"欺骗攻击 "就是规避攻击的例子。
- 对抗性攻击:这是对合法输入的修改,目的是愚弄模型,或者使用专门设计的"噪音"来引起错误分类。请看下面的例子,在熊猫图像中添加噪音后,模型将其分类为长臂猿(置信度为99.3%)。

在创建开放数据集时,有必要建立一个强大的质量控制层,以避免恶意攻击。此外,数据出处(追溯图像来源)可能会有所帮助。2.2 训练方面的挑战训练机器学习模型会面临许多挑战。本节绝不是为了说明这些挑战的严重性。相反,我们试图让读者了解挑战的类型和瓶颈所在。这将有助于建立直觉,从而能够评估将训练模型与密码原语相结合的项目构想。 请看下面这个无监督学习问题的例子。在无监督学习中,没有 "老师 "提供标签或指导模型。相反,模型会发现问题中隐藏的模式。考虑一个猫狗数据集。每只猫狗都有两种颜色:黑色和白色。我们可以使用一个无监督学习模型,通过将它们聚类为两组来找到数据中的模式。该模型有两种有效的方法:
- 将所有狗集中在一起,将所有猫集中在一起
- 将所有白色动物集中在一起,将所有黑色动物集中在一起。

在无权限系统中,模型的训练无需专家监督,因此可能会浪费大量资源。处理早期停止等问题的自动化工具还很不成熟。训练大型模型的挑战还有很多,这是一个非常简短的清单:
- 训练大规模机器学习模型,尤其是深度学习模型,需要大量的计算能力。这通常意味着要使用高端 GPU 或 TPU,而它们可能既昂贵又耗能。
- 与这些计算需求相关的成本不仅包括硬件,还包括连续运行这些机器(有时长达数周或数月)所需的电力和基础设施。
- 强化学习因其训练的不稳定性而闻名,模型或训练过程中的微小变化都可能导致结果的显著差异。
- 与Adam等监督学习中使用的更稳定的优化方法不同,强化学习中没有放之四海而皆准的解决方案。通常需要对训练过程进行定制,这不仅耗时,而且需要深厚的专业知识。
- 强化学习中的探索-开发两难问题使训练变得更加复杂,因为找到正确的平衡点对于有效学习至关重要,但却很难实现。
- 机器学习中的损失函数定义了模型的优化目标。选择错误的损失函数会导致模型学习到不恰当或次优的行为。
- 在复杂任务中,例如涉及不平衡数据集或多类分类的任务,选择、有时甚至定制设计正确的损失函数变得更加重要。
- 损失函数必须与应用的实际目标紧密结合,这就需要深入了解数据和预期结果。
- 在强化学习中,设计能持续、准确反映预期目标的奖励函数是一项挑战,尤其是在奖励稀少或延迟的环境中。
- 在国际象棋游戏中,奖励函数可以很简单:赢了得 1 分,输了得 0 分。但是,对于行走机器人来说,这个奖励函数可能会变得非常复杂,因为它将包含 "面向前方行走"、"不要随意摆动手臂 "等信息。
奖励函数(和损失函数)包含了模型去符号化者认为重要的主观因素。可能有必要建立管理制度,以确保为广泛使用的模型选择适当的函数。
- 在监督学习中,由于深度神经网络的 "黑箱 "性质,要了解是哪些特征驱动了复杂模型(如深度神经网络)的预测具有挑战性。
- 这种复杂性使得调试模型、了解其决策过程和提高其准确性变得十分困难。
- 这些模型的复杂性也对可预测性和可解释性提出了挑战,而这对在敏感或受监管领域部署模型至关重要。
- 通信开销:将模型分割到不同的处理器需要这些单元之间不断进行通信。这可能会造成瓶颈,尤其是对于大型模型而言,因为各单元之间的数据传输可能会耗费大量时间。
- 负载均衡:确保所有计算单元得到平等利用是一项挑战。不平衡会导致一些单元闲置,而另一些单元超负荷运行,从而降低整体效率。
- 内存限制:每个处理器单元的内存都是有限的。在不超出这些限制的情况下,有效管理和优化多个单元的内存使用情况是非常复杂的,尤其是大型模型。
- 实施的复杂性:设置模型并行涉及计算资源的复杂配置和管理。这种复杂性会增加开发时间和出错的可能性。
- 优化困难:传统的优化算法可能无法直接适用于模型并行化环境,也无法提高效率,这就需要进行修改或开发新的优化方法。
- 调试和监控:由于训练过程的复杂性和分布性增加,监控和调试分布在多个单元上的模型比监控和调试运行在单个单元上的模型更具挑战性。
分散和并行训练方面的基本新方法可以极大地推动机器学习的进步。2.3 推理中的挑战许多类型的机器学习系统面临的最重要挑战之一就是它们可能会"自信地出错"。ChatGPT可能会返回一个我们听起来很有把握的答案,但事实上这个答案是错误的。这是因为大多数模型经过训练后都会返回最有可能的答案。贝叶斯方法可用于量化不确定性。也就是说,模型可以返回一个有根据的答案,来衡量它有多确定。 考虑使用蔬菜数据训练图像分类模型。该模型可以获取任何蔬菜的图像,并返回它是什么,例如 "黄瓜 "或 "红洋葱"。如果我们给这个模型输入一张猫的图像,会发生什么呢?普通模型会返回它的最佳猜测,也许是 "白色洋葱"。这显然是不正确的。但这是模型的最佳猜测。贝叶斯模型的输出则是 "白色洋葱 "和一个确定度,例如 3%。如果模型有 3% 的确定性,我们可能就不应该根据这个预测采取行动。

- 维护:随着时间的推移,尤其是数据和现实世界场景发生变化时,保持模型的更新和正常运行。
- RL 中的探索-利用:在探索新策略和利用已知策略之间取得平衡,尤其是在推理直接影响数据收集的情况下。
- 测试性能:确保模型在新的、未见过的数据上表现良好,而不仅仅是在训练过的数据上。
- 分布偏移:处理输入数据分布随时间发生的变化,这种变化会降低模型性能。例如,推荐引擎需要考虑客户需求和行为的变化。
- 某些模型生成缓慢:像扩散模型这样的模型在生成输出时可能需要大量时间,而且速度较慢。
- 高斯过程和大型数据集:随着数据集的增长,使用高斯过程进行推理的速度会越来越慢。
- 增加防护栏:在生产模型中实施制衡措施,防止出现不良结果或误用。
在封闭源模型中增加哪些防护措施,这对于确保不出现偏差至关重要。2.4 LLM 面临的挑战大型语言模型面临许多挑战。不过,由于这些问题受到了相当多的关注,我们在此仅作简要介绍。
- LLM 不提供参考文献,但可以通过检索增强生成(RAG)等技术来缓解没有参考文献等问题。
- 幻觉:产生无意义、虚假或无关的输出。
- 训练运行需要很长时间,而且数据集重新平衡的边际值很难预测,这就导致了缓慢的反馈循环。
- 很难将人类的基本评估标准扩展到模型所允许的吞吐量。
- 量化在很大程度上是需要的,但其后果却鲜为人知。
- 下游基础设施需要随着模型的变化而变化。在与企业合作时,这意味着长时间的发布延迟(生产总是远远落后于开发)。

模型训练过程的透明度至关重要,因为即使是开源模型,也可能被训练出只在特定情况下使用的后门。例如,想象一下,将一个有资金的钱包连接到一个人工智能代理,结果却发现了一个后门。然后,这个代理就会将所有资金转移到一个特定的地址,或者以不同的身份恶意行事。在本章中,我们讨论了机器学习领域的许多挑战。显而易见,研究的巨大进步解决了许多此类问题。例如,基础模型为训练特定模型提供了巨大优势,因为您只需根据使用情况对其进行微调即可。此外,数据标注不再是全手工过程,使用半监督学习等方法可以避免大量的人工标注。 本章的总体目标是先让读者对人工智能领域的问题有一些直观的了解,然后再探讨人工智能与密码学的交叉问题。 报告外读物3.1.1 Gensyn网站: https://www.gensyn.ai/(opens new window) 一句话简介: 去中心化机器学习计算协议,实现人工智能开发民主化。 描述: 旨在通过将全球所有计算能力整合到一个全球超级集群中,彻底改变人工智能和加密货币领域。该网络专为机器学习计算协议设计,任何人都可以随时访问,从而推动机器学习的发展。通过利用区块链技术,Gensyn实现了人工智能训练过程的去中心化,允许点对点、低成本高效率地访问计算资源。这就消除了对云寡头和大型科技公司的依赖,为人工智能开发提供了一个更加民主和无许可的环境。Gensyn的协议使世界各地的设备(包括未充分利用的硬件)都能为去中心化计算网络做出贡献,为任何人、任何地方都能实现人工智能潜力的未来铺平了道路。 简短描述什么是数据类别中的公司,最好使用第 2 章中的框架进行细分。 3.1.2 Axiom网站: https://www.axiom.xyz/(opens new window) 一句话简介: Axiom利用零知识证明,实现对以太坊历史的无信任链上查询和计算,适用于数据丰富的动态的去中心化应用。 描述: 为人工智能和加密货币的交叉领域铺平了道路,它使开发人员能够在以太坊上创建智能合约,这些合约可以通过零知识(ZK)证明对区块链数据的整个历史进行访问和计算。这一点至关重要,因为它为动态DeFi应用、定制化的预言机和链上忠诚度计划开辟了新的可能性,允许协议根据历史链上活动进行调整,而无需依赖外部预言机或修改已部署的合约。此外,该协议还旨在将 ZK 技术用于人工智能应用,例如通过确保数据完整性和无信任计算,Axiom可以验证在线内容并检测深度伪造。这使得Axiom成为以太坊上未来安全、数据丰富应用的关键参与者,利用人工智能和加密货币的优势,创建一个更加透明、高效和用户驱动的生态系统。