
- 首先,神经网络的重新引用,长期以来被认为是一条死胡同的技术,成为了推动 AI 发展超过十年指数增长的,算法背后的实际架构。
- 其次,来自多伦多的三位研究人员(其中之一是你可能听说过的 Ilya Sutskever )是最早使用图形处理单元(GPU)来训练 AI 模型的人之一。现在这也是行业标准。
- 第三,AI 行业终于意识到飞飞多年前首次提出的观点:高级人工智能的关键要素是大量的数据。

- 如果数据是 AI 训练的食物,那么模型就是吃他们的东西。

- 首先,数据战高度偏向科技巨头。初创公司和小公司既无法访问以前可用的API,也无法在不承担法律风险的情况下支付购买使用权所需的现金。这具有明显的集中效应,即能够购买最好的数据并创建最好的模型的富人将变得更加富有。
- 其次,用户生成内容平台的商业模式对用户越来越不利。像 Reddit 和 Stack Overflow 这样的平台依赖数百万未付薪酬的人类创作者和版主的贡献。然而,当这些平台与 AI 公司达成数百万美金的交易时,他们既不补偿用户,也不征求用户的许可,没有用户就没有数据可卖。
Jon Stokeshttps://www.jonstokes.com/p/chatgpt-explained-a-guide-for-normies的这篇优秀文章中找到更全面的解释,或在这个精彩视频中,
Andrej Karpathyhttps://www.youtube.com/watch?v=zjkBMFhNj_g甚至在这本杰出书籍中找到更深入的分解。
Stephen Wolframhttps://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/LLMs 使用一种称为下一个 token 预测的统计技术。简单来说,给定一系列 token(即单词),模型尝试预测下一个最有可能的 token。这个过程重复进行,形成完整的响应。因此,你可以将大型语言模型视为一个“完并机器”。 让我们通过一个例子来理解这一点。 当我向 ChatGPT 提出一个问题,如 “太阳从哪个方向升起?” 时,它首先预测单词 “the”,然后是短语 “太阳从东方升起” 中的每个后续单词。但这些预测来自哪里?ChatGPT 如何确定在 “太阳从” 之后应该是 “东方” 而不是 “西方”、“北方” 或“阿姆斯特丹”?换句话说,它如何知道 “东方” 比其他选项在统计学上更有可能?

-理解这一点的另一种方法是比较包含这些短语的维基百科页面的数量。 “太阳从东方升起”共 55 页,而“太阳从西方升起”则有 27 页。 “阿姆斯特丹的太阳升起”没有显示任何结果!这些是 ChatGPT 选取的模式。答案在于从大量高质量训练数据中学习统计模式。如果你考虑互联网上的所有文本,什么更有可能出现 - “太阳在东方升起”还是“太阳在西方升起”?后者可能在特定语境中找到,如文学隐喻(“这就像相信太阳从西方升起一样荒谬”)或关于其他行星(如金星,太阳确实从西方升起)的讨论。但总体而言,前者要常见得多。



- 金融 - 如果你有机制看到成千上万的人在他们的 Feed 上看到的内容,你可以根据它们开发交易策略。以情感数据为基础的智能代理可以在 Masa 的数据集上进行训练。
- 社交 - 基于 AI 的伴侣(或像 Replika 这样的工具)的出现意味着我们需要模仿人类对话的数据集。这些对话还需要用最新信息进行更新。Masa 的数据流可以用于训练能够有意义地谈论 Twitter 上最新趋势的代理。
- 完成问题:中本聪?
- 将短语变成一个句子:这是一个多年来一直困扰比特币信徒的问题。
- 真正回答问题:中本聪是创建比特币(第一个去中心化加密货币)及其底层区块链技术的匿名人士或团体。




精彩报道https://www.nytimes.com/2019/08/16/technology/ai-humans.html《 展示了在 iAgent 印度办公室幕后发生的情况,iAgent 是一家专注于人工标注的公司)。 Mechanical Turk,是李飞飞用来创建 ImageNet 数据库的服务,被 Jeff Bezos 称为“人工的人工智能”,因为它的工人在 AI 训练幕后扮演数据标注的角色。 在今年早些时候的一个
《奇异故事》https://www.bloomberg.com/opinion/articles/2024-04-03/the-humans-behind-amazon-s-just-walk-out-technology-are-all-over-ai中,透露了亚马逊的 Just Walk Out 商店,顾客可以从货架上挑选商品然后走出去(稍后自动收费),并不是由一些先进的 AI 驱动。相反,是有 1000 名印度承包商在手动筛选商店录像。

问题是:Grass 通过去中心化过程相对于同一领域的数百家中心化公司获得了什么优势?Grass 可以使用代币激励来引导工人网络。就像他们用代币奖励用户共享他们的互联网带宽一样,他们也可以用来奖励人类标注 AI 训练数据。在 Web2 世界中,对于零工经济工人的薪酬支付,尤其是对于全球分布的工作,与在像 Solana 这样的快速区块链上提供的即时流动性相比,是一个较差的用户体验。 总的来说,加密社区,特别是 Grass 现有的社区,已经有高度集中的受过教育的、互联网原生的和技术熟练的用户。这减少了 Grass 需要花费在招聘和培训工人上的资源。 你可能会想知道,用激励来交换标注 AI 模型响应的任务是否会引起农民和机器人的注意。我也有同样的疑问。幸运的是,已经进行了广泛的研究,使用基于共识的技术来识别高质量的标注者并筛选出机器人。 请注意,至少目前,Grass 只是进入了 RLHF(通过人类反馈进行强化学习) 市场,并没有帮助公司进行对话微调,这需要一个高度专业化的劳动力市场,且难以自动化。 专业微调 一旦完成预训练和对齐步骤,我们就得到了所谓的基础模型。基础模型对世界运作有一般性的理解,并且可以在广泛的主题上进行流畅、类似人类的对话。它还对语言有扎实的掌握,并且可以帮助用户轻松地撰写电子邮件、故事、诗歌、文章和歌曲。 当你使用 ChatGPT 时,你正在与基础模型 GPT-4 交互。 基础模型是通用模型。虽然它们对数百万类别的主题已经有了足够的了解,但它们并不专精于任何一个。当被要求帮助理解比特币的代币经济学时,回答将是有用且基本准确的。然而,当你要求它阐述如何降低 EigenLayer 这样的再质押协议风险时,你不应信任它。 回想一下,微调是采用预训练的机器学习模型,并在较小的、针对性的数据集上进一步训练,帮助它适应特定任务或用例的过程。我们之前在将原始文本完成工具转换为对话模型的背景下讨论了微调。同样,我们也可以对生成的基础模型进行微调,使其专业化于特定领域或特定任务。 Med-PaLM2,是 Google 基础模型 PaLM-2 的微调版本,被训练用来提供高质量的医疗问题答案。MetaMath 在 Mistral-7B 上进行微调,以更好地执行数学推理。一些微调模型专业化于特定类别,如故事讲述、文本摘要和客户服务,而其他模型则专业化于小众领域,如葡萄牙语诗歌、印地语-英语翻译和斯里兰卡法律。 对模型进行特定用例的微调需要与该用例相关的高质量数据集。这些数据集可以来源于特定领域的网站(如加密数据的时事快讯)、专有数据集(医院可能会记录成千上万的医患互动)或专家的经验(这将需要彻底的访谈来捕捉)。



通过创作者控制的智能合约扩展数字内容的定义,并通过基于区块链的、点对点的、付费访问的微交易重新构想分发,允许任何流媒体平台即时验证并访问数字内容。生成性 AI 随后根据创作者指定的条款执行即时的微支付,并将体验流式传输给消费者。Balaji 更简洁地表述了这一点。
