- LLM 技术的发展让人们更加关注 AI 与 Web3 的结合,新的应用范式正在逐步展开。本文中,我们将重点研究如何利用 AI 提升 Web3 数据的使用体验和生产效率。
- 由于行业尚处早期阶段和区块链技术的特性,Web3 数据行业面临着诸多挑战,包括数据来源、更新频率、匿名属性等,使得利用 AI 解决这些问题成为新关注点。
- LLM 相对于传统人工智能的可扩展性、适应性、效率提升、任务分解、可访问性和易用性等优势,为提高区块链数据的体验和生产效率提供了想象空间。
- LLM 需要大量高质量数据进行训练,而区块链领域垂直知识丰富且数据公开,可以为 LLM 提供学习素材。
- LLM 也可以帮助生产和提升区块链数据的价值,例如数据清洗、标注、生成结构化数据等。
- LLM 不是万灵药,需要针对具体业务需求进行应用。既要利用 LLM 的高效率,同时也要注意结果的准确性。


- 利用 AI 去提升生产力以及用户体验。
- 结合区块链透明、安全、去中心化存储、可追溯、可验证的技术特点,以及 Web3 去中心化的生产关系,解决传统技术无法解决的痛点或者激励社区参与,提高生产效率。

- 数据:区块链技术可以应用在模型数据存储上,提供加密数据集,保护数据隐私和记录模型使用数据的来源、使用情况,以及校验数据的真实性。通过访问和分析存储在区块链上的数据,AI 可以提取有价值的信息,并用于模型训练和优化。同时,AI 也可以作为数据生产工具,去提高 Web3 数据的生产效率。
- 算法:Web3 中的算法可以为 AI 提供更安全、可信和自主控制的计算环境,为 AI 体统提供加密保障,在模型参数上,内嵌安全防护栏,防止系统被滥用或者恶意操作。AI 可以与 Web3 中的算法进行交互,例如利用智能合约执行任务、验证数据和执行决策。同时,AI 的算法也可以为 Web3 提供更智能化和高效的决策和服务。
- 算力:Web3 的分散式计算资源可以为 AI 提供高性能的计算能力。AI 可以利用 Web3 中的分散式计算资源进行模型的训练、数据分析和预测。通过将计算任务分发到网络上的多个节点,AI 可以加快计算速度,并处理更大规模的数据。


- 数据来源:链上数据“标准”繁杂分散,数据处理花费大量人工成本
- 数据更新:链上数据体量大且更新频率高,难以及时地处理成结构化数据
- 数据分析:链上数据的匿名属性,导致数据身份难以区分

- 可扩展性:LLM 支持大规模数据处理
- 适应性:LLM 可学习适应多领域需求
- 提高效率:LLM 自动化任务提高效率
- 任务分解:可以生成某些工作的具体计划,把大的工作分成小步骤
- 可访问性和易用性:LLM 以自然语言提供用户友好互动

- Prompt Engineering

- 嵌入(Embedding)
- 微调(Fine-tuning)

- 重新训练 LLM
- Agent 模型

- Planning,规划:将大任务分成小任务,这样更容易完成
- Memory,反思:通过反思过去的行为,改进未来的计划
- Tools,工具使用:代理可以调用外部工具获取更多信息,如调用搜索引擎、计算器等

- 将区块链原始非结构化数据,如 events 或 logs 等,转换为结构化的数据
- 将结构化的原始数据,转换为具有业务意义的抽象表
- 从抽象表中,计算提取业务指标
- 从交易日志和事件中提取结构化信息:LLM 可以分析区块链的交易日志和事件,提取其中的关键信息,如交易金额、交易方地址、时间戳等,将非结构化数据转化为的带有业务意义的数据,使其更易于分析和理解。
- 清洗数据,识别异常数据:LLM 可以自动识别和清洗不一致或异常的数据,帮助确保数据的准确性和一致性,从而提高数据质量。
- 将原始链上数据映射到业务实体:LLM 可以将原始区块链数据映射到业务实体,例如将区块链地址映射到实际用户或资产,从而使业务处理更加直观和有效。
- 处理非结构化链上内容,打标签:LLM 可以分析非结构化数据,如 Twitter 情感分析结果,将其标记为正面、负面或中性情感,从而帮助用户更好地理解社交媒体上的情感倾向。
- 计算核心指标:基于业务抽象,LLM 可以计算核心业务指标,如用户交易量、资产价值、市场份额等,以帮助用户更好地了解其业务的关键性能。
- 查询数据:LLM 可以通过 AIGC,理解用户意图,生成 SQL 查询,使用户能够以自然语言提出查询请求,而不必编写复杂的 SQL 查询语句。这增加了数据库查询的可访问性。
- 指标选择、排序和相关性分析:LLM 可以帮助用户选择、排序和分析不同的多个指标,以更好地理解它们之间的关系和相关性,从而支持更深入的数据分析和决策制定。
- 产生业务抽象的自然语言描述:LLM 可以根据事实数据,生成自然语言摘要或解释,以帮助用户更好地理解业务抽象和数据指标,提高可解释性,并使决策更具合理性。
- 数据转换:进行数据增强、重构等操作,如文本摘要、分类、信息抽取。这类应用开发较快,但更适合通用场景,不太适合大量数据的简单批量化处理。
- 自然语言接口:将 LLM 连接知识库或工具,实现问答或基本工具使用的自动化。这可以用于构建专业聊天机器人,但其实际价值受其所连接的知识库质量等其他因素影响。
- 工作流自动化:使用 LLM 实现业务流程的标准化和自动化。这可以应用于较复杂的区块链数据处理流程,如解构智能合约运行过程、风险识别等。
- 协助机器人与助手辅助系统:辅助系统是在自然语言接口的基础上,集成更多数据源和功能的增强系统,大幅提高用户工作效率。

- 使用 LLM 进行信息处理:LLM 等 AI 技术已成功用于生成文本摘要、总结、解释等工作,帮助用户从长篇文章、专业报告中提取关键信息,提高了数据的可读性和可理解性。
- 使用 AI 解决开发问题:LLM 已经应用于解决开发过程中的问题,例如替代StackOverflow 或搜索引擎,为开发者提供问题解答和编程支持。
- 利用 LLM 生成代码:行业正在努力将 LLM 技术应用于自然语言到 SQL 查询语言的转换,以提高数据库查询的自动化和可理解性。然而,过程中会有很多困难,比如在某些情境下,生成的代码要求极高的准确性,语法必须百分之百正确,以确保程序能够无 bug 运行,并获得正确的结果。难点还包括确保问题回答的成功率、正确率,以及对业务的深刻理解。
- 数据标注问题:数据标注对于机器学习和深度学习模型的训练至关重要,但在 Web3 数据领域,特别是处理匿名的区块链数据时,标注数据的复杂性较高。
- 准确性和幻觉(Hallucination)问题:AI 模型中幻觉的出现可能受多因素影响,包括有偏见或不足的训练数据、过度拟合、有限的上下文理解、缺乏领域知识、对抗性攻击和模型架构。研究人员和开发者需要不断改进模型的训练和校准方法,以提高生成文本的可信度和准确性。
- 利用数据进行业务分析和文章输出:将数据用于业务分析和生成文章仍然是一个具有挑战性的问题。问题的复杂性、需要精心设计的提示(prompt)、以及高质量的数据、数据量、减少幻觉问题的方法都是待解决的问题。
- 根据业务领域自动索引智能合同数据以进行数据抽象:自动为不同业务领域的智能合同数据建立索引以进行数据抽象仍然是一个未解决的问题。这需要综合考虑不同业务领域的特点,以及数据的多样性和复杂性。
- 处理时序数据,表格文档数据等更复杂的模态:DALL·E 2 等多模态模型非常擅长在文字生成图像、语音等常见模态。而在区块链以及金融领域需要特别地对待一些时序数据,而非简单地把文本向量化就能解决。联和时序数据与文本,跨模态联合训练等,是实现数据智能分析以及应用的重要研究方向。

- 链上数据实体类型多、数量庞大,以何种形式投喂给 LLM,有效地运用在具体的商业化场景,类似其他垂直行业,需要更多研究和探索。
- 链上数据包括结构化和非结构化数据,目前行业大多数数据解决方案,都是基于对业务数据的理解。解析链上数据的过程中,用 ETL 去过滤,清洗,补充和复原业务逻辑,进一步把非结构化数据整理为结构化数据,可以为后期多种业务场景提供更高效的分析。比如,结构化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高质量,高价值,准确和真实等特点,可以给通用 LLM 提供高效的补充。
- 海量:大量的数据储存在各种应用背后的数据库和其他标准格式里面,特别是私有数据。每个公司和行业都还有大量 LLM 没有用于预训练的墙内数据。
- 已有:这些数据不需要重新生产,投入成本极低,唯一的问题是怎么用起来。
- 高质量和高价值:领域内长期积累的,蕴含专家的专业知识,通常都沉淀到了结构化数据里面,用于产学研。结构化数据的质量是数据可用性的关键,其中包括数据的完整性、一致性、准确性、唯一性和事实性。
- 高效率:结构化数据以表格、数据库或其他规范格式存储,模式是预先定义的,并且在整个数据集中保持一致。这意味着数据的格式、类型和关系都是可预测和可控的,使得数据的分析和查询更加简单和可靠。而且,行业已经有成熟的 ETL 及各种数据处理和管理工具,使用起来也更加高效和便捷。LLM 可以通过 API,把这些数据使用起来。
- 准确性和事实性:LLM 的文本数据,基于 token 概率,目前还不能稳定的输出确切的答案,产生的幻觉问题一直是 LLM 要解决的核心根本问题。对于很多行业和场景,会形成安全和可靠性问题,比如,医疗,金融等。结构化数据,正是可以辅助和矫正LLM 这些问题的一个方向。
- 体现关系图谱,和特定业务逻辑:不同类型的结构化数据,可以以特定的组织形式(关系型数据库,图数据库等),输入到 LLM,解决不同类型的领域问题。结构化数据使用标准化的查询语言(如 SQL),使得对数据进行复杂的查询和分析变得更加高效和准确。知识图谱 (Knowledge Graph) 可以更好地表达实体之间的关系,也更容易进行关联查询。
- 使用成本低:不用 LLM 每次重新从底层重新训练整个底座模型,可以结合 Agents 和LLM API 等 LLM 赋能方式,更快更低成本的接入 LLM。
- 链上数据是原始的第一手资讯,而新闻和社交媒体中的信息可能存在片面性或误导性。直接分析链上数据可以减少信息偏差。尽管利用 LLM 进行文本分析存在理解偏差的风险,但直接分析链上数据可以减少误读。
- 链上数据包含全面的历史交互和交易记录,分析可以发现长期趋势和模式。链上数据还可以展现整个生态系统的全貌,如资金流向、各方关系等。这些宏观的洞察有助于更深入地理解状况。而新闻和社交媒体信息通常更零散且短期。
- 链上数据是开放的。任何人都可以验证分析结果,避免信息的不对称。而新闻和社交媒体未必都如实披露。文本信息和链上数据可以相互验证。综合两者可以形成更立体和准确的判断。
- 期望值过高:很多人认为 LLM 可以解决一切问题,但实际上 LLM 有明显的局限性。它需要大量的计算资源,训练成本高昂,而且训练过程可能不稳定。对 LLM 的能力要有现实的期望,明白它在某些场景下表现出色,如自然语言处理和文本生成,但在其他领域可能无法胜任。
- 忽视业务需求:另一个陷阱是强行应用 LLM 技术,而不充分考虑业务需求。在应用 LLM 之前,务必明确具体的业务需求。需要评估 LLM 是否是最佳技术选择,并做好风险评估和控制。强调 LLM 的有效应用需要根据实际情况慎重考虑,避免误用。