在2023.3.1号丹佛的 WalletCon 上,官宣由以太坊基金会开发人员设计实现的ERC-4337 的核心合约已经通过了 OpenZeppelin 的审计,通过各项测试,目前审计后的合约已经顺利部署在以太坊主网以及若干测试网,后续可在各EVM兼容链上运作包括 Polygon、Optimism、Arbitrum、BNB Smart Chain、Avalanche 和 Gnosis Chain等。: J( F7 v# c' d6 X) p I9 W4 Z
本文将梳理4337标准的实现机制、审计报告结论与最新行业进展( [4 ?! j) m9 V' J- ?7 y2 {$ u

! y* `7 O. D" O [) \7 H
1、账号抽象的背景3 F7 R' E' D6 G( F# |. k
) d8 h: O! \+ E6 L' X3 m
1.1、为什么产权分离是账户抽象的目标?
4 f6 N0 U' `8 b) V* Y
目前在以太坊中有两种账户,分别为外部账户(EOA)和合约账户(Contract Account)。外部账户的所有权和签名权理论上是同一个体单位持有的;简单来讲,持有私钥的人不只拥有这个账户的「所有权」,同时还有权利「签名转移所有资产」。所以当前以太坊上所有权和签名权是一体的,这样的外部账户(EOA)设计可能会衍伸出一些值得讨论的问题:- K$ S- R" p1 H* E0 ~5 A: F
- 私钥难保护:用户失去私钥(遗失、黑客攻击、密码学上的被破解)意味着地失去所有资产。
- 签名算法少:原生协议在验证交易上只能使用 ECDSA 签名和验签算法。
- 签名权限高:无原生多签(多签只能通过智能合约实现协作),单签即可执行任意操作
- 多币种受限:交易手续费只能通过 ETH 支付,并不支持批量交易。
- 交易隐私泄露:一对一交易容易分析账户持有者的隐私信息。
- 对合约钱包的操作必须由 EOA 发起(实质是调用合约),每笔交易将多消耗 21000Gas。(当前以太坊交易的验证方式是固定的,只有持有了有效的 ECDSA 签名、Nonce 值和足够的账户余额,一笔交易才算有效)。
- 需要 EOA 有足够的 ETH 来支付 Gas(管理两个账户),或者依靠 Relayer 支付 Gas(导致中心化)。
- 首先,使用以太坊上的任何应用,用户都必须持有以太(并承担以太价格波动的风险)
- 其次,用户需要处理复杂的费用逻辑,Gas price、Gas limit、事务阻塞这些概念对用户来说过于复杂。
- 最后,虽然许多区块链钱包或应用试图通过产品优化提高用户体验,但它们的实际效果甚微。
拓展阅读:
以太坊账户抽象万字研报:拆解 10 个相关 EIP 提案与冲击千万级日活用户瓶颈的七年之路+ B( ^1 M g6 b& s0 B6 X8 n2 y
虽然也有出现若干折中方案,如多签钱包和无需Gas的元交易机制,接下来咱们展开探讨。3 c+ t+ q' ]9 L
1.2、EIP-4337与折中方案对比
1.2.1、折中1-多签合约钱包方案
多签钱包,即用智能合约实现多签功能的钱包合约账户。以 Safe 多签钱包(原名 Gnoiss Safe)为例,可以设定钱包的多签规则,如三人共管、两人签名可执行交易(2-of–3),而Argent 钱包的做法也类似,创新点是引入所谓的监护人(Guardian)机制,对用户更友好,用户可以设定其他 EOA 账户或邮件/手机作为监护人,监护人可以许可交易、锁定钱包、协助恢复钱包。这样的做法给用户带来了便利,但由于它的钱包软件、钱包合约及后端程序的功能很复杂,它的方案很难成为行业通行的标准做法。2 Y3 E5 u9 H i4 s# C
总之,这里很多的优点都源于合约本身的高度定制能力,同样的缺点则是依赖于EOA账户做管理员来驱动,这本质是签名算法的局限性。7 y+ t" h! [ ~& t
相比之下对比传统多签合约钱包的方案,4337的优势则是可以自定义签名算法。这里的签名只需和合约中签名的算法绑定的(确保合约可以完成解签,但不限于只能基于ECDSA和secp256k1签名 ), 而签名这件事本身可以有多种算法实现,不同算法性能和交互模式不同,而这将带来的核心变化是,如更好的将签名的功能转入手机设备端实现从而实现便携的硬件钱包。这点主要的挑战是安卓等设备开放性过高,不可能私钥存手机,需要单独的签名芯片等。" l6 b8 M. ~$ w5 R, M3 m. C
1.2.2、折中2-元交易标准
# ^- W9 k, G) A9 s; Q) L
这点优化折中针对的是用户执行链上行为必须依赖已有ETH作为手续费,采用元交易标准后7 E: L* \; i2 ~# ~2 S( x6 v
用户体验上:用户虽然账户中没有 ETH(实为没有 Polygon 链的原生通证 MATIC),但可仍通过网⻚界面铸造 NFT:用户仅需签 即可,我们创建交易、为之代付燃料费、将之提交上链执行。
幕后执行上:: y& p6 B. p+ T+ V
- 用户对结构化数据进行签名,这个数据与签名是要求 NFT 合约铸造一个 NFT 给他
- 数据与签名被发送给中继器(Relayer)
- 链下中继器(某 EOA 账户)向链上发起交易,送到链上可信的传递者合约(Forwarder)
- 而NFT 合约是定制的,会将这样方式传递的交易中的原始发起者视为是用户,而非msg.sender
例如最近火热的Lens免gas方案,就是非常标准的元交易执行模式,已经累计有上千万笔代付交易了4 K" J( a8 p" x$ P! _9 A

这个方案是有效的,但有两个缺点:% \. A5 B% r5 Y
- 它引入了一个我们必须信任的链下⻆色中继器(Relayer)。如果他宕机了,或者有作恶的动机(或者私钥被盗),则可能存在⻛险。
- 我们最终交互的合约(即 NFT 合约)必须定制。这导致而无法与链上已经存在的、未定制的合约进行交互,这大幅减少能够适用的范围。
拓展阅读:
EIP-4337 标准智能钱包实践研究报告:全景式呈现 4337 标准实例实现过程及机遇探讨
https://research.web3caff.com/zh/archives/4660
2、为什么4337可以实现产权分离?
3 n5 ]' A$ l/ j# P- Q9 t
现在在去中心化的领域是不存在免费的信任,身份验证必须基于密码学证明,所以无论哪种提案都是需要管理某种意义的私钥,而要实现体验上的折中,首要打破的就是目前账户权限的过于集中,整体改造方式按针对的对象或者环节可以分成三种大方向:
- 改造链上交易类型(EIP-101、EIP-86、EIP-859、EIP-2718)
- 改造链上主体对象(EIP-2938、EIP-3074、EIP-3607、EIP-5003)
- 改造上链交易打包过程(EIP-4337、EIP-5189)9 p. y' G/ u5 N

EIP-4337 是迄今为止是 AA 的最佳方案。
被选用的核心原因是 EIP-4337 完全避免了共识层协议更改,使用标准中提出了新的事务对象 UserOperation,用户将此对象发送到内存池中由 bundlers 从矿工维度批量打包交付合约执行交易事务。是个任何人可以开发链上合约,任何人可以自运行捆绑器的去中心化模式。* H/ {" `- v# g! V% m
2.1、4337运作原理
后续深入理解最新进展所面临的难题和挑战还是需要先理解原理,咱们从涉及的角色,分工,对照传统交易的执行流程来梳理。; J o, {5 x9 x( ` T0 I& T
2.1.1、4337标准涉及的角色1 g, V1 R! P1 ^
6 c/ t( l, F1 y T$ a. B
ERC-4337 有五个主要组成部分: UserOperation、Bundler、EntryPoint、Wallet Contract 和 Paymaster Contract。. Z1 e6 q; U+ c$ ~ t: ]

- UserOperations 用户操作对象,是用于与合约账户执行交易的伪交易对象。这些是由创建者的应用程序所创建的。
- Bundlers 捆绑器,可能是某个矿工,从内存池中打包 UserOperations 并将它们发送到区块链上的 EntryPoint 合约的参与者。
- EntryPoint 入口点合约,是处理交易验证和执行逻辑的智能合约。
- Wallet Contracts 是用户最终拥有的链上身份,属于智能合约帐户。
- Paymaster Contracts 是可选的代付智能合约。( U% W, m I3 \3 [
5 s9 S' Y* f7 C. |5 V3 s, T3 I

我们来重新按完成一笔以太坊转账的流程来梳理下按照 ERC-4337 实现的交易是怎样的:! W% d( Q9 b& _- F- {, B- o% L7 ?
- 打开钱包:用户管理持有的私钥工具,如 Metamask,Bitkeep,Bitizen 等(此步骤不变)。
- 交易签名:用私钥对新的若干字段做签名操作,称之为 UserOperation 用户操作对象(指令不变,但内容字段变化,可选用非 ECDSA 的签名算法)。
- 发送交易:称之为 Bundlers 打包者或是捆绑器,本质仍是由某个负责出块的矿工操作(发送不变,发送对象改为指定矿工)。
- 矿工打包:bundlers 把用户发送的操作签名解析验证后由矿工单独再签名一笔交易来包裹用户的指令,批量地将用户的操作指令转发到某个合约钱包中再由合约来验证用户的签名并执行(彻底改变)。
- 由于交易是矿工签名并发送的,因此 from 是矿工,原先用户的签名和指令在则在参数之中。
- 打包发送到作为路由器的智能合约中,执行验证并且进一步转发到各用户独立的合约钱包。
- 入口点合约验证:EntryPoint 是处理交易验证和执行逻辑的智能合约。会反复和用户的合约账户进行交互以及验证,确保最终链上打包必然成功,否则全部交易都要回退。
- 出块流程:完全不变。4 g- f* f3 U3 s
迁入4337后,对任何账户的调度都需要先经过入口点合约,他需要解决的是
- 如果用户的「钱包合约」尚未部署,则用UO中的 initCode 字段去部署合约(用户可自定义最终合约功能)
- 循环验证组合交易中UserOperation
- 既有链下模拟验证(eth余额,token余额,代付)
- 也在合约也提供链上验证(签名与聚合签名的有效性)' C/ ?$ P/ p- O9 ]4 g# J
- 管理质押费
- 计算gas成本,既要用于收取用户,也需要面对失败交易补偿捆绑器。
3 U6 D0 j% X* {; K {9 G
ERC-4337 的高开发投入以及快速的迭代进度,说明他能快速成为最终提案、并被各种应用广泛接纳、真正成为事实性行业标准,他带来的核心价值是大幅度降低普通用户使用 Web3 应用的门槛。届时,一个应用能否兼容 ERC-4337,则将影响自己能否利用整个以太坊生态的其他组件、以快速发展。后续的 DApp 应用,也将必然需要能兼容从账户主体已然转移向 ERC-4337 的用户们。最终验证市场的还是用户本身,实现的方案是复杂的,这也仅仅是对于应用方的复杂对于用户本身而言,最终他们能够看到的是:# H/ U s* g4 p5 I0 B: v
- 更流畅的交易体验,类似购物车,即使面对10个市场也能够一笔交易完成打包。
- 更安全的接入入口,借助4337的自定义签名算法能力,使用手机专属安全芯片而无需携带硬件钱包,
- 更沉浸的游戏环境,借助paymaster的代付能力,乃至可以定义半小时内的不超过XX金额的交易免除签名,避免了一场游戏被场外打断。
- 真正的链上主体,可以被社交恢复,可以更换私钥密码,可以做交易的风险分层分级,兼容安全与使用便捷。
上篇更多是围绕ERC-4337运作机制、背景进行说明。下篇详细讲述当前被审计方案的优缺与实施细节,但涉及较多以太坊底层所以阅读难度较高,投稿在Web3Caff平台的research频道(头部付费研报平台,正在进行十四君粉丝联合活动,可使用"shisi"为推荐码延长15天会员期)。