Solidity汇编开发简明教程
handii2006
发表于 2023-1-13 23:14:41
150
0
0
以太坊虚拟机和堆栈结构机器
以太坊虚拟机EVM有自己的指令集,该指令集中目前包含了 144个操作码,详情参考Geth源代码 V9 {0 R3 m8 i0 Q2 a& N
这些指令是Solidity抽象出来的,可以在Solidity内联使用。例如:
contract Assembler {
function do_something_cpu() public {! b, \8 C; ?" z- F% J) s# Y) I1 a& F
assembly {
// start writing evm assembler language4 W( y# }& n/ A4 R
}% ~" Z$ q3 O" @; u7 L- Q2 t& R7 a) G
}& S7 t! _7 I( V4 m% ~2 _
}/ `6 B! n' p+ j9 c# G8 m! W8 r
EVM是一个栈虚拟机,栈这种数据结构只允许两个操作:压入(PUSH)或弹出(POP)数据。 最后压入的数据位于栈顶,因此将被第一个弹出,这被称为后进先出 (LIFO:Last In, First Out):
栈虚拟机将所有的操作数保存在栈上,关于栈虚拟机的详细信息 可以参考stack machine 基础0 |& \$ U' n9 g, p* O
堆栈结构机器的操作码' ]/ g9 r6 C* V, S! \
为了能够解决实际问题,栈结构机器需要实现一些额外的指令,例如 ADD、SUBSTRACT等等。指令执行时通常会先从堆栈弹出一个或多个值作为参数, 再将执行结果压回堆栈。这通常被称为逆波兰表示法(RPN:Reverse Polish Notation):7 N" n- m; s7 G4 V7 f; k
a + b // 标准表示法Infix
a b add // 逆波兰表示法RPN
在Solidity合约中使用内联汇编# b( h+ W2 T% ]* ^. ?# f6 {
可以在Solidity中使用assembly{}来嵌入汇编代码段,这被称为内联汇编:2 \( X& J* g- r* B
assembly {
// some assembly code here
}6 @9 M. e7 N2 s% V* K
在assembly块内的代码开发语言被称为Yul,为了简化我们称其为 汇编或EVM汇编。
另一个需要注意的问题时,汇编代码块之间不能通信,也就是说在 一个汇编代码块里定义的变量,在另一个汇编代码块中不可以访问。 例如:$ x5 N9 C9 d7 L3 i, ^
assembly { * _' E: V4 C* I, X7 g
let x := 2
} 2 ?# I* J( ^8 r) Z
assembly {
let y := x // Error
}
上面的代码编译时会报如下错误:
// DeclarationError: identifier not found% @: J& D/ f: k
// let y := x
// ^
下面的代码使用内联汇编代码计算函数的两个参数的和并返回结果:! q- [2 T1 n2 _4 @
function addition(uint x, uint y) public pure returns (uint) {
assembly {" |2 D3 C0 [' F+ D# C. _
let result := add(x, y) // x + y
mstore(0x0, result) // 在内存中保存结果! k' b$ _: x. q' w+ k
return(0x0, 32) // 从内存中返回32字节7 n; A* P2 r; m+ c
}
}
让我们重写上面的代码,补充一些更详细的注释,以便说明每个指令 在EVM内部的运行原理。$ ]1 R! r2 K- C# B5 L( \3 t
function addition(uint x, uint y) public pure returns (uint) { & b6 a/ w# Y5 [4 {9 d) u
assembly { $ m1 o* `5 A0 ?* p3 T. r1 D
// 创建一个新的变量result( ~# `9 R" J! n' F' q. _
// -> 使用add操作码计算x+y( X3 b+ k5 f$ [+ O
// -> 将计算结果赋值给变量result 7 F+ s* A/ v9 P" ?7 U8 t
let result := add(x, y) // x + y 9 ?8 m) j6 ?" \: M9 g( @. a
4 t t* w: o: e% l
// 使用mstore操作码
// -> 将result变量的值存入内存
// -> 指定内存地址 0x0
mstore(0x0, result) // 将结果存入内存8 h* |& e+ @; d( z2 Z1 b( q4 ^: l# m
// 从内存地址0x返回32字节
return(0x0, 32) 5 j# H% p- j; y. W
}- a, w" h0 A3 N) q% E
}1 G- D/ _! ]1 \
Solidity汇编中的变量定义与赋值
在Yul中,使用let关键字定义变量。使用:=操作符给变量赋值:, H/ E( ~* [: ? I. `
assembly {
let x := 24 W( X% |' |5 y: h6 `
}$ Q2 E# s% M8 |4 W
如果没有使用:=操作符给变量赋值,那么该变量自动初始化为0值:, ^! B/ |, P0 b$ Z7 S$ [
assembly {5 |% F- O7 H2 y" P0 s+ n
let x // 自动初始化为 x = 0
x := 5 // x 现在的值是5
}
你可以使用复杂的表达式为变量赋值,例如:4 f6 P/ V3 P9 ]% X0 R" l& ] `
assembly {' k0 k! Z9 j0 j: u9 K, x. \
let x := 7
let y := add(x, 3)
let z := add(keccak256(0x0, 0x20), div(slength, 32)) 9 w- i$ |. r# i2 u
let n
}" L+ d0 Z5 s& W) j, }
Solidity汇编中let指令的运行机制
在EVM的内部,let指令执行如下任务:
创建一个新的堆栈槽位为变量保留该槽位当到达代码块结束时自动销毁该槽位5 s5 p5 Y5 m$ u/ \
因此,使用let指令在汇编代码块中定义的变量,在该代码块 外部是无法访问的。
Solidity汇编中的注释
在Yul汇编中注释的写法和Solidity一样,可以使用单行注释// 或多行注释/* */。例如:
assembly {
// single line comment
/*
Multi
line% |# k6 j! A& X Z [1 A
comment% w, `! G; K5 z4 X
*/& `3 | z+ c# n! b2 v% [# A3 T! S
}
Solidity汇编中的字面量$ \. y3 `' g( a* I5 l a! J$ O% s" Q% N
在Solidity汇编中字面量的写法与Solidity一致。不过,字符串字面量 最多可以包含32个字符。$ {% u) v( j+ m* N8 r3 U; N
assembly { " a9 w% t- l/ s9 A0 T( U
let a := 0x123 // 16进制' ?7 t: S6 G- `8 |1 T
let b := 42 // 10进制7 x9 c4 @2 }4 L: U2 A5 N8 P b
let c := "hello world" // 字符串( i4 k# J( Z8 i- L6 R: @
let d := "very long string more than 32 bytes" // 超长字符串,错误!
}
Solidity汇编中的块和作用范围' f4 s5 j" S' J/ C# `
在Solidity汇编中,变量的作用范围遵循标准规则。一个块的范围使用 一对大括号标识。9 J! a7 H/ K( Z2 G3 K4 L7 N, f1 H
在下面的示例中,y和z仅在定义所在块范围内有效。因此y变量的作用 范围是scope 1,z变量的作用范围是scope 2。
assembly { 0 N0 E8 |% D- ?9 c5 ?% P0 _8 w+ ~5 X
let x := 3 // x在各处可见
+ j' }7 R7 R' ]% q( P& ^
// Scope 1
{ 2 x) G8 ]" ]3 Q2 l5 f* m
let y := x // ok 8 o- {" T7 ~8 \+ s( L+ R9 @
} // 到此处会销毁y
// Scope 2 1 f5 H& U3 ^( n
{
let z := y // Error
} // 到此处会销毁z
}/ M' }5 [. f: s- G$ {
// DeclarationError: identifier not found# K* W5 M: Y. W( H" m' a
// let z := y
// ^& i' ~& Y8 |5 V+ z4 M# P# v! f. f3 }
作用范围的唯一例外是函数和for循环,我们将在下面解释。* `8 I2 q8 ]5 f; ], z3 @7 U
在Solidity汇编中使用函数的局部变量% P( P/ P$ j* E2 `; _
在Solidity汇编中,只需要使用变量名就可以访问局部变量, 无论该变量是定义在汇编块中,还是Solidity代码中,不过 变量必须是函数的局部变量:' Z( c# Y2 k# U$ z' }/ E: B& ^- w
function assembly_local_var_access() public pure {
uint b = 5;
assembly { // defined inside an assembly block+ G1 [% t5 v& }6 v$ @6 x4 ~
let x := add(2, 3) - F4 n% A8 L1 h
let y := 10
z := add(x, y)+ Q" R4 n- J1 \* x1 B( T# T, ]
} ! Y$ i; H2 }0 ^2 K0 @* d
assembly { // defined outside an assembly block
let x := add(2, 3). x0 u/ W8 s* S! C4 P
let y := mul(x, b)
} ]+ H* ?7 v" B* b# Z9 z6 P+ Z
}3 }# n+ |4 d6 W8 v6 v
在Solidity汇编中使用for循环
先看一下Solidity中循环的使用。下面的Solidity函数代码中 计算变量的倍数n次,其中value和n是函数的参数:
function for_loop_solidity(uint n, uint value) public pure returns(uint) { 9 z0 H5 }+ z, u7 E( c
for ( uint i = 0; i G$ ?! T5 [% {; [6 L1 q
等效的Solidity汇编代码如下:
function for_loop_assembly(uint n, uint value) public pure returns (uint) {
assembly {
for { let i := 0 } lt(i, n) { i := add(i, 1) } {
value := mul(2, value) : V' _2 W6 |) m# C% V# m% l" t3 V
} 7 F& N0 m# e3 h# u
mstore(0x0, value)
return(0x0, 32)
} ; m1 H0 ?* w4 y- L) a
}3 ]; F* q5 Q. @# R- I
类似于其他开发语言中的for循环,在Solidity汇编中,for循环也包含 3个元素:0 k" t# m, d6 [0 K8 L( n7 F, p
初始化:let i := 0
执行条件:lt(i, n) ,必须是函数风格表达式: \7 ]; f% B5 I" {# Z% S
迭代后续步骤:add(i, 1)$ D4 A' A- }- `# O' r; ^9 ]
注意:for循环中变量的作用范围略有不同。在初始化部分定义的变量 在循环的其他部分都有效。$ d4 j8 J4 ~+ ~. G. b) v7 m
在Solidity汇编中使用while循环
在Solidity汇编中实际上是没有while循环关键字的,但是可以使用 for循环实现同样的功能:只要留空for循环的初始化部分和迭代后续步骤即可。
assembly {) G" h3 a) A0 f0 B8 q4 |: Q
let x := 0
let i := 00 N1 p4 ?' p6 ]: g
for { } lt(i, 0x100) { } { // 等价于:while(i
在Solidity汇编中使用if语句. i. Y5 ?6 C/ N: }- K9 F. i8 x5 K
Solidity内联汇编支持使用if语句来设置代码执行的条件,但是 没有其他语言中的else部分。
assembly {
if slt(x, 0) { x := sub(0, x) } // Ok. K% E, z" t8 x
if eq(value, 0) revert(0, 0) // Error, 需要大括号
}
if语句强制要求代码块使用大括号,即使需要保护的代码只有一行, 也需要使用大括号。这和solidity不同。9 M. L: o: i6 p& y
如果需要在Solidity内联汇编中检查多种条件,可以考虑使用 switch语句。4 a; ^/ V5 K* }' O5 i3 P }
在Solidity汇编中使用switch语句
EVM汇编中也有switch语句,它将一个表达式的值于多个常量 进行对比,并选择相应的代码分支来执行。switch语句支持 一个默认分支default,当表达式的值不匹配任何其他分支条件时,将 执行默认分支的代码。% O: k1 q- v; z1 y# L0 y0 {+ H
assembly {/ b) F3 v' e O$ ?: `( c/ l7 R8 B
let x := 0: x u1 X' [ `5 k+ H2 ]
switch calldataload(4); J7 ?' o+ o6 B* a! `2 S
case 0 {
x := calldataload(0x24); z* p7 c7 `9 ~$ M# u2 b5 _* R
}4 f/ f' A/ C; S) \6 L
default {
x := calldataload(0x44)( O- M1 A; o6 l6 {* t
}; H0 a8 b& o: t$ h [
sstore(0, div(x, 2))
}
switch语句有一些限制:& e! r% t3 h/ |, F) W7 S& V- A! H
分支列表不需要大括号,但是分支的代码块需要大括号; I' ^8 x+ b' `
所有的分支条件值必须:1)具有相同的类型 2)具有不同的值" ~$ J$ y( d! V: s1 i# ~- |
如果分支条件已经涵盖所有可能的值,那么不允许再出现default条件4 V U% L; t% y8 h9 ]
assembly {
let x := 34, K2 z* W* C8 [3 C3 q& @
. N* H: r( Y- ~
switch lt(x, 30)3 L+ a- ?0 x, j% R
case true {
// do something
} q: @( Y4 {- v
case false {/ I0 B2 t6 r% _' p, h
// do something els% D* X' V# v* j
}3 T" Q5 a" B8 m6 Q5 r2 F
default {8 o5 Q; W) E, {. i: Y
// 不允许$ w% J, x4 M' u8 Q0 V$ i
} 4 u' ]8 G2 J$ @5 ?0 s1 H
}
在Solidity汇编中使用函数
也可以在Solidity内联汇编中定义底层函数。调用这些自定义的函数 和使用内置的操作码一样。
下面的汇编函数用来分配指定长度的内存,并返回内存指针pos:
assembly { / `2 @% L! a5 @
function allocate(length) -> pos {
pos := mload(0x40)
mstore(0x40, add(pos, length))+ h# z, j% F* {& t( `: |# A: ^
} / Z8 G! |$ q, ~9 }
let free_memory_pointer := allocate(64)+ J5 y4 i0 d! j, `: V% R* o5 ]( U! U
}
汇编函数的运行机制如下:* a& H7 Q* L+ Z m( p( n, u% o
从堆栈提取参数将结果压入堆栈和Solidity函数不同,不需要指定汇编函数的可见性,例如public或private, 因为汇编函数仅在定义所在的汇编代码块内有效。# p. N: z8 ~; |( U3 D
8 w0 F7 [3 \) H
Solidity汇编中的操作码6 _" L8 \- l! j
EVM操作码可以分为以下几类:
算数和比较操作位操作密码学操作,目前仅包含keccak256环境操作,主要指与区块链相关的全局信息,例如blockhash或coinbase收款账号存储、内存和栈操作交易与合约调用操作停机操作日志操作
详细的操作码可以查看Solidity文档。
成为第一个吐槽的人