- 将具有方向的因子进行方向与数值的拆分,能提高预测的效果
- 预测暴涨事件和暴跌事件的核心因子相同,且具有相同的影响方向,本质是波动率的预测
- 未平仓合约变化率、负基差百分比、大户多空账户与大户头寸比例是对市场暴涨暴跌预测最具价值的因子
- 交易对(Symbol):例如 BTCUSDT,标识具体代币。
- 现货价格(index_price)和合约价格(mark_price):反映市场价格动态。
- 总体多空账户比例(long_short_account_ratio):散户在市场群体中占大多数,因此次指标可以看作散户是偏多(看涨)还是偏空(看跌)。
- 大户多空账户比例(top_trader_account_ls_ratio)和大户多空头寸比例(top_trader_position_ls_ratio):揭示资金主力(可能是庄家)的操作方向。
- Taker 买卖比例(taker_buy_sell_ratio):反映市场主动买入或卖出的情绪。
- 基差(basis)和基差百分比(basis_percent):合约价格与现货价格的差距,合约价格大于现货价格,基差为正,反映市场供需,若出现极端的基差情况,可能反映了代币在现货价格的控盘能力。
- 时间戳(timestamp):记录数据的具体时间。
- 未平仓合约数量(Open Interest):记录当前未平仓合约持有量
- 资金费率(funding rate): 合约与现货价格偏离的成本,合约价格大于现货价格时,费率为正,多头需要支付费率,提高持有多头的资金成本,补贴给空头,刺激空头的加入以及多头的减仓,使得合约价格向现货价格收敛。
- 暴涨:预测未来30分钟内,合约价格(mark_price)涨幅超过 5% 定义为暴涨事件。
- 暴跌:预测未来30分钟内,合约价格(mark_price)跌幅超过 5% 定义为暴跌事件。
- 暴涨事件数据统计:一周总共发生 1608 次,涉及 164 个代币,其中 ALPACA 发生次数最多,占总体上涨事件的 10.2%。

- 暴跌事件数据统计:一周总共发生 1069 次,涉及 136 个代币,同样也是其中 ALPACA 发生次数最多,占总体下跌事件的 10.57%。

- 轧空代币:同时存在上涨事件和下跌事件的代币,就是最近典型的轧空币代币。

- 数据点出现暴涨暴跌的情况:由于数据获取间隔为 10-15 分钟,因此 30 分钟内的合约价格可能出现 2-3 个数据,会出现一个数据点有暴涨和暴跌的情况。经统计,原始数据中有 9 个数据点出现这种情况,分别占暴涨暴跌事件的 0.39% 和 0.26%,属于少数类事件,总体来说对暴涨/暴跌因子分析影响不大。
- 总体多空账户比例(long_short_account_ratio):反映散户账号的多空比例
- 大户多空账户比例(top_trader_account_ls_ratio):反映资金主力账号的多空比例
- 大户多空头寸比例(top_trader_position_ls_ratio):反映资金主力多空头寸比例。
- Taker买卖比例(taker_buy_sell_ratio):市场主动买卖,推动价格变换的比例。
- 以上 6 个因子的差值:市场瞬息万变,因子的短期变化比静态值更重要,计算了每个因子在相邻时间间隔的差值,采用 _diff 后缀进行命名.
- 方向因子拆分:基差百分比(basis_percent)和 未平仓合约变化率(oi_change_pct)带有方向属性,分别拆分成正向和反向basis_percent_positive:当 basis_percent>0 时取值,否则为0。
- basis_percent_negative:当 basis_percent<0 时取绝对值,否则为0。
- oi_change_pct_positive:当 oi_change_pct>0 时取值,否则为0。
- oi_change_pct_negative:当 oi_change_pct<0 时取绝对值,否则为0。

- 过采样:通过复制或生成类似少数类的数据,增加少数类事件(暴涨 or 暴跌事件),但可能引入不真实的数据。
- 欠采样:减少多数类(上涨 or 下跌 ≤ 5%)数据,让数据比例更平衡,保留真实数据,但可能丢失部分信息。
- 类权重调整:在模型中给目标事件更高权重,强调稀有事件,但需调参。
- 组合方法:结合过采样和欠采样,平衡数据量和真实性。
- 真实性:大多数代币在大多数时间不会发生暴涨暴跌,多数类的数据冗余,欠采样保留真实数,避免过采样可能引入的“假”数据。
- 简化模型:减少数据量降低计算复杂性,适合快速验证。

- 逻辑回归可以快速分析哪些因子对暴涨/暴跌最重要,适合作为起点,帮助理解数据。
- 它的结果(系数和 P 值)直观,告诉你因子是正向(促进暴涨/暴跌)还是负向(抑制暴涨/暴跌)影响,以及影响的强度如何。
- AUC:衡量因子单独预测的能力,0.5表示随机,1 表示完美。AUC>0.6 表示因子有效。
- 系数(Coefficient):正系数表示因子增加事件发生的概率增加,负系数相反。绝对值越大,影响越强。
- P值(P-Value):小于 0.05 表示因子与事件发生的概率显著相关,可信度高。
- long_short_account_ratio(散户多空账户比例):AUC = 0.692,p-value = 1.02e-111
- top_trader_account_ls_ratio(大户多空账户比例):AUC = 0.711,p-value = 2.00e-125
- top_trader_position_ls_ratio(大户多空头寸比例):AUC = 0.639,p-value = 1.61e-49
- oi_change_pct_positive(正未平仓合约变化率):AUC = 0.630,p-value = 1.09e-87

- long_short_account_ratio(总体多空账户比例):系数 = -0.758,表明总体账户偏空(比例值较小)时,暴涨概率增加,影响较强。
- top_trader_account_ls_ratio(大户多空账户比例):系数 = -0.868,表明大户账户偏空时,暴涨概率增加,影响最强。
- top_trader_position_ls_ratio(大户多空头寸比例):系数 = -0.545,表明大户头寸偏空时,暴涨概率增加,影响中等。
- oi_change_pct_positive(正未平仓合约变化率):系数 = 2.163,表明未平仓合约快速增长时,暴涨概率显著增加,影响非常强。
- basis_percent_negative(负基差百分比):系数 = 2.541,正向影响最大,表明当基差为负(合约价格低于现货价格)且绝对值较大时,暴涨概率显著增加,影响非常强,结合 AUC > 0.5 表明这也是有有效的因子。这也揭示了极端负费率的情况下,会有极大的反弹概率。

- long_short_account_ratio(总体账户多空账户比例):AUC = 0.703,p-value = 1.04e-83
- top_trader_account_ls_ratio(大户多空账户比例):AUC = 0.722,p-value = 3.39e-91
- oi_change_pct_positive(正未平仓合约变化率):AUC = 0.651,p-value = 4.96e-65
- top_trader_position_ls_ratio(大户多空头寸比例):AUC = 0.649,p-value = 2.00e-32

- long_short_account_ratio(总体账户多空账户比例):系数 = -0.824,表明散户账户偏空(比例值较小)时,暴跌概率增加,影响较强。
- top_trader_account_ls_ratio(大户多空账户比例):系数 = -0.934,表明大户账户偏空时,暴跌概率增加,影响最强。
- top_trader_position_ls_ratio(大户多空头寸比例):系数 = -0.554,表明大户头寸偏空时,暴跌概率增加,影响中等。
- oi_change_pct_positive(正未平仓合约变化率):系数 = 2.441,表明未平仓合约快速增长时,暴跌概率显著增加,影响最强。这可能反映了市场在快速增长后出现回调或抛售压力。
- basis_percent_negative(负基差百分比):系数 = 1.761,表明当基差为负(合约价格低于现货价格)且绝对值较大时,暴跌概率显著增加,影响较强。这可能是由于负基差环境下,市场情绪偏空,进一步加剧下跌压力。

- long_short_account_ratio(总体多空账户比例):在暴涨(系数 = -0.758)和暴跌(系数 = -0.824)中均为负向影响,暴跌事件强度更大,表明总体账户偏空时,价格波动概率增加。
- top_trader_account_ls_ratio(大户多空账户比例):在暴涨(系数 = -0.868)和暴跌(系数 = -0.934)中均为负向影响,暴跌事件强度更大,表明大户账户偏空时,价格波动概率增加。
- top_trader_position_ls_ratio(大户多空头寸比例):在暴涨(系数 = -0.545)和暴跌(系数 = -0.554)中均为负向影响,暴跌事件强度更大,表明大户头寸偏空时,价格波动概率增加。
- oi_change_pct_positive(正未平仓合约变化率):在暴涨(系数 = 2.163)和暴跌(系数 = 2.441)中均为正向影响,暴跌事件强度更大,表明未平仓合约快速增长时,价格波动概率显著增加。
- basis_percent_negative(负基差百分比):在暴涨(系数 = 2.541)和暴跌(系数 = 1.761)中均为正向影响,暴涨事件强度更大,表明负基差环境下,价格波动概率增加。
- 拆分因子方向后预测效果提升
- 差值对模型预测的贡献小
- taker_buy_sell_ratio 及其衍生因子预测效果都比较差
- oi_change_pct(未平仓合约变化率):重要性 = 0.142
- basis_percent(基差百分比):重要性 = 0.115
- oi_change_pct_diff(未平仓合约变化率差值):重要性 = 0.112
- basis_percent_negative(负基差百分比):重要性 = 0.108
- oi_change_pct_positive(正未平仓合约变化率):重要性 = 0.091

- 未平仓合约变化率(oi_change_pct)及其衍生因子:在随机森林中,oi_change_pct 及其差值和正向拆分因子均排名靠前,重要性总和超过 0.34,表明未平仓合约的变化是预测暴涨事件的核心指标。这与逻辑回归中 oi_change_pct_positive 的高系数一致,验证了其对波动率和价格剧烈变化的显著影响。
- 基差百分比(basis_percent)及其衍生因子:basis_percent 及其反向拆分因子在随机森林中也表现出较高重要性,总和接近 0.23。这与逻辑回归中 basis_percent_negative 的高系数相呼应,进一步确认负基差对暴涨事件的预测价值。
- 交易者结构因子重要性较低:与逻辑回归中 long_short_account_ratio 和 top_trader_account_ls_ratio 的高预测能力不同,随机森林中这些因子的排名相对靠后(重要性分别为 0.053 和 0.069)。表明 OI 和 Basis 的非线性关系和交互作用,比起交易者结构更能刻画市场的变化。
- taker_buy_sell_ratio 仍然是预测能力差的因子
- Accuracy(准确率):预测正确的样本数占总样本数的比例,0.865
- AUC:模型区分暴涨和非暴涨的能力,适合不平衡数据集,0.875
- Precision(精确率):预测为暴涨的样本中,实际为暴涨的比例,0.759 (准确率是预测暴涨和非暴涨预测的整体准确度,不平衡数据容易有误差,而精确率是只计算预测为暴涨时正确的比例)
- Recall(召回率):实际暴涨样本中被模型正确预测为暴涨的比例,0.476
- F1:精确率和召回率的调和平均值,召回率的提高会损失掉精确率,F1 是对这两个比例的综合评估指标,0.585


- oi_change_pct(未平仓合约变化率):重要性 = 0.180
- oi_change_pct_diff(未平仓合约变化率差值):重要性 = 0.123
- oi_change_pct_positive(正未平仓合约变化率):重要性 = 0.103
- basis_percent_negative(负基差百分比):重要性 = 0.080
- top_trader_account_ls_ratio(大户多空账户比例):重要性 = 0.077

- 未平仓合约变化率(oi_change_pct)及其衍生因子:在随机森林中,oi_change_pct 及其差值和正向拆分因子均排名靠前,重要性总和超过 0.40,表明未平仓合约的变化是预测暴跌事件的核心指标。这与逻辑回归中oi_change_pct_positive 的高系数(2.441)一致,验证了其对波动率和价格剧烈变化的显著影响。
- 负基差百分比(basis_percent_negative):在随机森林中排名第四,重要性为 0.080。这与逻辑回归中 basis_percent_negative 的高系数(1.761)相呼应,进一步确认负基差对暴跌事件的预测价值。
- 大户多空账户比例(top_trader_account_ls_ratio):在随机森林中排名第五,重要性为 0.077,低于逻辑回归中的表现(AUC = 0.722)。这可能是因为随机森林更关注因子的非线性效应和交互作用,而交易者结构因子在逻辑回归的线性假设下表现更为突出。
- Accuracy(准确率):预测正确的样本数占总样本数的比例,0.885
- AUC:模型区分正负样本的能力,适合不平衡数据集,0.908
- Precision(精确率):预测为暴涨的样本中,实际为暴涨的比例,0.789 (准确率是预测正例和负例预测的整体准确度,不平衡数据容易有误差,而精确率是只计算暴涨中预测正确的比例)
- Recall(召回率):实际暴涨样本中被模型正确预测为暴涨的比例,0.583
- F1:精确率和召回率的调和平均值,召回率的提高会损失掉精确率,F1 是对这两个比例的综合评估指标,0.670


- 未平仓合约变化率(oi_change_pct)及其衍生因子:在暴涨和暴跌事件中,oi_change_pct 及其差值和正向拆分因子均排名靠前,重要性总和分别超过 0.34 和 0.40。这表明未平仓合约的变化是预测价格剧烈波动(无论是上涨还是下跌)的核心指标。
- 基差百分比(basis_percent)及其衍生因子:在暴涨事件中,basis_percent 及其负值拆分因子重要性总和接近 0.23,排名靠前;在暴跌事件中,basis_percent_negative 重要性为 0.080,排名第四。基差因子在两种事件中均表现出较强的预测能力,尤其是负基差对波动率的推动作用一致,表明负基差环境下,价格波动敏感性增强。
- 交易者结构因子的差异:在暴涨事件中,long_short_account_ratio 和 top_trader_account_ls_ratio 的重要性相对较低(分别为 0.053 和 0.069);而在暴跌事件中,top_trader_account_ls_ratio 重要性略有提升(0.077),排名第五。这提示交易者结构因子在暴跌事件中的预测价值略高于暴涨事件。
- 准确率(Accuracy):暴涨事件为 0.865,暴跌事件为 0.885,暴跌预测准确率略高。
- AUC(曲线下面积):暴涨事件为 0.875,暴跌事件为 0.908,暴跌预测的整体区分能力更强。
- 精确率(Precision):暴涨事件为 0.759,暴跌事件为 0.789,暴跌预测在避免误报方面表现更好。
- 召回率(Recall):暴涨事件为 0.476,暴跌事件为 0.583,暴跌预测在捕捉真实事件方面有显著提升。
- F1 值(F1 Score):暴涨事件为 0.585,暴跌事件为 0.670,暴跌预测综合表现更优。
- 未平仓合约变化率(oi_change_pct)及其衍生因子:在逻辑回归中,oi_change_pct_positive 在暴涨事件中表现出高系数和高 AUC 值,在暴跌事件中也有较高的预测能力。在随机森林中,oi_change_pct 及其差值和正向拆分因子在暴涨和暴跌事件中的重要性总和分别超过 0.34 和 0.40,排名靠前。这表明未平仓合约的变化率是预测价格剧烈波动(无论是上涨还是下跌)的核心指标。
- 基差百分比(basis_percent)及其衍生因子:在逻辑回归中,basis_percent_negative 在暴涨和暴跌事件中均表现出较高的系数,显示出负基差对价格波动的更预测价值。在随机森林中,basis_percent 及其反向拆分因子在暴涨事件中重要性总和接近 0.23,在暴跌事件中 basis_percent_negative 重要性为 0.080,排名第四。基差因子在两种模型和两种事件中均表现出较强的预测能力。
- 交易者结构因子:在逻辑回归中,long_short_account_ratio 和 top_trader_account_ls_ratio 在暴涨事件和暴跌事件中,均显示出一定的预测能力。在随机森林中,这些因子的表现略有差异,top_trader_account_ls_ratio 在暴跌事件中重要性为 0.077,排名第五,而在暴涨事件中重要性较低(0.069)。这表明交易者结构因子在暴跌事件中的预测价值略高于暴涨事件。
- long_short_account_ratio 与 top_trader_account_ls_ratio 相关性高,可归类为同一因子
- long_short_account ratio(top_trader_account_ls_ratio) 与 top_tader_position_ls_ratio 存在一定相关性
- OI 类因子、Basis 类因子、交易者结构类因子之间相关性低,且对事件的预测有一定准确度,是很好的因子组合分类

- 未平仓合约变化率:oi_change_pct 与其衍生因子(如 oi_change_pct_positive 和 oi_change_pct_negative)之间的相关性较高(相关系数在 0.5-0.7 之间),这表明这些因子在一定程度上捕捉了相似的市场动态。考虑到模型中需要避免冗余信息,考虑保留原始因子 oi_change_pct 作为代表。未平仓合约变化率反映了杠杆水平的变化,与暴涨暴跌事件呈现正相关,杠杆水平高容易推高波动率,符合市场规律。
- 基差百分比:basis_percent 与 basis_percent_negative 之间的相关系数约为 0.6,结合模型结果,保留 basis_percent_negative 作为预测波动率的关键变量。负基差与暴涨暴跌事件是正向关系,表明负基差增大时,有庄家的代币可能会出现轧空行情,若没有庄家,则会持续发生暴跌,符合市场规律。
- 交易者结构因子:(1) long_short_account_ratio 和 top_trader_account_ls_ratio 之间的相关系数约为 0.9,表明两者高度相关,反映了相似的市场情绪。结合模型表现,top_trader_account_ls_ratio 在暴涨暴跌事件中的预测能力略强,保留该因子。top_trader_account_ls_ratio 与暴涨暴跌事件时负向关系,大户通过积累空头头寸引诱散户加入,为轧空提供燃料,暴完空单后,将多头头寸通过暴空进行退出使得多空比例下降,符合市场规律; (2) top_trader_position_ls_ration 在逻辑回归中预测能力较高,且与 top_trader_account_ls_ratio 相关性中等,考虑保留此因子,逻辑与 top_trader_account_ls_ratio 一致;(3)taker_buy_sell_ratio 在逻辑回归和随机森林模型中预测能力都很差,剔除该因子。