


- 简单反馈:询问模型是否认为生成的解决方案正确
- 单元测试:将单元测试的反馈提供给模型,以便模型可以改进其代码
- 代码解释:要求模型解释它刚刚编写的代码





- 在大多数法律应用中,法律和先例会随着时间的推移而变化,并且大型语言模型会在某个截止期之前针对特定数据实例进行训练;除非模型经过训练来更新其内部知识,否则将这些模型普遍用于法律应用是极其困难的。
- 在大多数医学应用中,当在数据集上进行训练时,大型语言模型和整个神经网络已被证明容易产生偏见和幻觉。医学是一个安全关键的应用,减少误报的必要性是关键,任何模型都不应该给 患者开出错误的药物。

经过努力,人类专家可以将那些不起作用的想法修改为正确且原创的论点。2023级人工智能已经可以为工作数学家生成暗示性提示和有希望的线索,并积极参与决策过程。当与形式证明验证器、互联网搜索和符号数学包等工具集成时,我预计 2026 级人工智能如果使用得当,将成为数学研究以及许多其他领域值得信赖的合著者。人工智能的隐私问题今天的大型语言模型必须最有效地部署,并且在针对帮助人类的特定下游任务进行微调之前还有一些路要走。无论模型性能如何,前进的道路似乎是人类协作并在人类反馈的情况下使用这些模型。 虽然对超人水平的人工智能性能的估计可能会偏差几年甚至几十年,但大型语言模型在每项任务上都在缓慢地广泛改进,并且自几年前以来已经取得了很大的进步。这些性能改进表明,未来几年大型语言模型在各地的部署可能是不可避免的。 在大多数公司中,企业提供的人工智能模型不能轻易用于内部目的,因为模型服务是通过 API 进行的,并且不能保证今天发送的数据不会添加到明天大型语言模型的训练数据中。与此同时,对于大多数公司来说,正确使用大型语言模型的最佳用例是将它们嵌入到代码库/文档中,以帮助团队并提高生产力。即使在更个人的层面上,大型语言模型的一个可能的用例就是它们在医学中的应用。即使不开药,它们也可以用于在医生会面之前收集病史或患者数据。这种先前的交互将使模型暴露于敏感的患者数据,这可能是不希望的。在公司内部撰写法律文件/研究案例也可能会向数据隐私至关重要的模型泄露其内部文件。当与研究人员一起应用于研究时,在协作的同时,研究人员可能希望隔离他们的数据并将模型用于他们的特定兴趣。




- Alice 拿走她的工资,添加一个随机数,并将结果告诉 Bob。
- Bob将他的工资和另一个随机数添加到他从Alice 那里收到的数字中 ,然后将结果告诉 Eve。
- Eve将她的工资添加到Bob 的数字中 ,然后减去之前添加的所有随机数字,并将结果除以 3 得出平均值。















