AI 在交易栈中的位置：对冲基金真正用 AI 做哪些决策

2024 年美国 SEC 的一份审视报告显示，跑 AI 驱动策略的基金平均跑赢同行约 12%；同期 PwC 的调查则把替代数据与机器学习带来的 alpha 增量估在 20% 左右。两个数字都是真的，但它们其实分别落在一个四层栈上——信号、仓位、执行、风控——每一层跑的模型不同，失效模式也不同。把这四层看成一个黑箱，每一条「AI 对冲基金」标题都像变魔术；把它们摆成栈来读，同一条标题三十秒之内就能完成分诊。

一眼看全

交易栈可以干净地拆成四个决策：买什么卖什么、下多大仓、怎么成交、什么会爆。每一层归属一类模型；没有任何一层是「那个 AI」。

层级	决策	主导 ML	媒体公开报道的使用者
信号	买什么、卖什么、何时动	价格深度学习 + 文本 NLP + 替代数据	Renaissance、Two Sigma、DE Shaw、Man GLG
仓位	配多少资金	凸优化 + 由 ML 调节的权重	AQR、DE Shaw
执行	母单怎么拆怎么吃	面向订单簿的强化学习	Jane Street、HRT、Citadel Securities
风控	哪些仓要砍要对冲	压力模型 + 多智能体再平衡	Citadel、Jane Street

2024 年两个常被引用的数字——PwC 的替代数据基金 +20% alpha 与 SEC 的 AI 基金 +12% 跑赢同行——其实落在不同轴上；柱状图把它们与平坦基线并排放，给一个比例感。

「AI 对冲基金」这个标题，几乎总是只指四层里的两三层，而非全部。一则新闻里提到 LSTM，说的是信号层；提到 implementation shortfall，说的是执行层；提到 EU AI Act，往往担心的是风控层。读者只要知道这条新闻在说哪一层，剩下的内容才能读对。

四层栈

四层与各自主导的 ML 技术。母单自上而下流过；风险信号反向回上。

每一层只回答一个问题。之所以要分层来看，而不是把所有模型并成一团，是因为它们的失效模式不会传染：在信号层瞎编一只股票的论点，是信号层的事故；在仓位层超配，是仓位层的事故；在执行层把订单簿打穿，是执行层的事故。风控团队的工作，就是让这些事故停留在本层。

信号——挑出这笔交易

价格与订单簿上的深度学习

短期信号最主导的模型仍是某种循环或注意力网络——在订单簿特征的平稳变换上跑 LSTM 与 GRU，越来越多地在 tick 级价格序列上跑 transformer 变体。媒体报道里，Renaissance 的 Medallion 基金被描述为用深度学习去估计因子的有效性，而不是直接预测价格——动量何时有效、价值何时有效，按 regime 来条件化。Two Sigma 被报道在多资产组合上把同一类因子信号与宏观指标关联起来；DE Shaw 被报道用 NLP 解读高管在财报电话上的语气，预测 earnings beat。这些报道里有一个共同点：模型是特征抽取器，而不是策略本身。

面向电话会、新闻与卖方研报的 NLP

大语言模型——不只是前沿通用模型——以十年前需要每只票配一名研究员才能匹敌的规模在读财报电话纪要、卖方报告和新闻流。被公开提及最多的案例是 Man GLG 对中国新闻中 Versace 相关情绪的监控：2018 年舆论反噬期间，情绪从 +0.4 跌到 -0.7，几天内母公司股价跌了约 14%；Man GLG 的信号领先于这波下跌。值得注意的细节是：这并不是「模型预测了股价下跌」，而是「模型在新闻发出的当天就读到了，而不是在第二天早晨的分析师摘要里读到」。文本层面的胜出靠的就是延迟。

替代数据

到了 2025 年，Lowenstein Sandler 的《替代数据报告》把受访基金的替代数据使用率提到了 90%，2023 年还只有 62%；Morgan Stanley 的经验法则是每 10 亿 AUM 在第一年大约花 100 万美元买替代数据，到第三年涨到 300 万。真正能赚钱的几类数据——信用卡面板、卫星影像、地理位置、Web 抓取——都是同类信号模型的输入，而不是模型本身。ML 的活儿，是把一份噪声很重的消费交易面板，转成比公司自己预披露还早两三周的 same-store sales 预测。最大的难点是覆盖度：只看得到某一类人群的信用卡面板，在任何地方用都会给出偏差预测。其问题形态可以参考面向 RAG 的文档解析。

执行——成交但不漏风

RL 执行回路。状态是订单簿，动作是订单放置，奖励是负的 implementation shortfall。

信号层一旦决定要买一百万股，执行层就要决定如何成交而不把价格打高。经典基线是 2000 年的 Almgren–Chriss 模型，它假设线性市场冲击函数，给出最优清仓轨迹的闭式解。到今天二十六年过去了，几乎每一篇 RL 论文还在拿 Almgren–Chriss 当对比基准，因为这个闭式解对自己的假设是诚实的。

近期论文——2025 年中的 arXiv 2507.06345，关于市价单与限价单混合执行；以及 2025 年「数字社会与智能计算」会议上的 A3C+LSTM 框架——显示 RL 智能体在含噪声交易者、战术应答者和战略对手方的模拟订单簿里能跑赢 Almgren–Chriss 基线。奖励是 implementation shortfall，动作是不同档位的报单，智能体学到：簿薄的时候等，簿厚的时候抬。同一批论文也很坦率地承认局限：训练出来的模型倾向于记住训练环境，而不是学到可泛化的策略。本站的面向工具使用的强化学习解释了背后的信用分配问题；奖励设计与奖励黑客解释了一旦模拟器和生产不对齐会发生什么。

被点名最多的几家——Jane Street、Hudson River Trading、Citadel Securities——的生产实际细节都藏在保密墙后面，但公开信号是一致的：做市商在生产里跑的是「带硬规则护栏的 RL 派生策略」，不是原始 RL 策略。护栏是承重的安全件；RL 是优化件。

仓位与风控——监管最在意的层

仓位

仓位层是 ML 信号撞上凸优化器的地方。信号层输出的模型分数，在这里和其他若干输入一起进入一个组合构建问题，约束是总敞口、行业集中度、因子中性、换手率。这一层的 ML 贡献通常是信号条件化的权重——信号置信度高时允许优化器多担风险；regime 不确定时砍总敞口。2025 年有报道称 AQR 与 DE Shaw 在做空高估的 AI 板块名字时，用了 RL 派生的仓位响应来跑动量策略——信号是旧的，仓位响应是新的。

风控

风控是媒体最爱用多智能体来描述的一层。2025 年的几波波动率冲击中，Citadel 与 Jane Street 被报道采用一种结构：一个智能体盯尾部风险指标并触发对冲，另一个智能体在回撤时再平衡仓位。被公开描述的架构，其实就是监督者/工作者模式：风险监督者设策略边界，专项工作者在边界内行动。共享的仓位与敞口黑板，本质上就是共享记忆与黑板在通用智能体系统中描述的同一类东西。

这也是监管最想要可解释性的一层。2026 年全面生效的欧盟《人工智能法案》把交易模型默认归为高风险类，要求训练数据、压力测试下的模型行为、以及人工干预通路都要有文档。上面提到的几家不会公开自己的压力模型，但 2026 年的审计轨迹会以一种 2022 年还不存在的方式被真正留下来。

横向比较：同四条轴，不同答案

同样的四条轴——延迟、可解释性、数据依赖、监管暴露——在不同层上落到了截然不同的位置。

把这几层拉开距离最厉害的不是模型类别，而是延迟。信号层允许思考几秒到几天，看周期定；执行层在微秒尺度；风控层在秒到分钟之间，快得足够应对回撤，慢得足以推理敞口。同一种神经网络结构以信号速度（天级 LSTM）和以执行速度（微秒预算的前馈网络）部署，本质上是两套部署，不是一套。

可解释性反过来。信号模型可以是不透明的，只要回测和风险检查过得去；执行模型也可以不透明，只要它外面的护栏不是。风控模型是「不透明已不再可接受」的那一层，因为审计轨迹挂在这里。这也是信号团队招 ML 研究员、风控团队招精算师的原因。

数据依赖与对抗压力同向：最依赖数据质量的层，也是最容易被对手盯上的层。信号层的死活在替代数据完整性，执行层的死活在行情源完整性，风控层的死活在准确的仓位记录。每一层有自己的数据质量纪律，纪律之间不能干净地迁移——信号级别的替代数据团队，和风控级别的仓位记录团队，能力栈是不同的。监管暴露沿同一梯度走。

什么时候 AI 不是答案

每一种失效在哪一层咬得最重。过拟合与 regime 漂移咬信号层；数据泄漏咬执行层；审计期不透明咬风控层。

AI 在交易里最常见、媒体却报道最少的失效，是回测里好看、regime 一变就死。RL 执行论文对此非常坦白：在不同订单簿状况之间泛化，是当下的研究前沿，不是已解决问题。同样的动力学在信号层意味着，2024 年消费环境里能跑的信用卡面板，到 2026 年环境换了几样未建模的维度后可能就停了。本站的奖励设计与奖励黑客解释了同型问题——代理奖励和代理回测，因为同一种原因失效。

按近期行业事故复盘，数据泄漏比更常被讨论的 LLM 幻觉还要可怕，导致灾难级别事件的概率约高一个数量级——部分原因是泄漏类错误只会在生产里暴露出来。如果信号在训练时不小心用了一个未来字段，每一次回测都会完美，上线第一天就开始亏钱。执行层最不怕泄漏（订单簿就是事实），最怕行情源被污染；信号层最怕泄漏，最不怕行情源。

审计期的不透明是 2026 年之前不存在、之后开始主导风控层的失效模式。监管看不懂的模型，已经不算可部署模型；欧盟 AI 法案默认把交易模型归为高风险。技术层面的解决思路和 AI 系统通用做法相同——可解释的代理模型、有文档的训练数据、可重放的评估流水线——但法律层面的代价改变了「不透明换 alpha」这笔账的算法。

常见问题

基金真的会让 AI 自动扣扳机吗？

在执行层是的——信号层批了一张母单之后，路由策略基本是自动的，常常由 RL 派生，外面套着对成交量、价格带、时间窗口的硬规则护栏。在信号层就少得多——多数生产系统在建立仓位前要有可被人读懂的论点或因子分解，许多 shop 在新类型交易上还要人工签字。自治度的梯度，从高到低依次是执行 → 仓位 → 风控 → 信号。

既然 AI 都能做这些，为什么 quant fund 还要招 PhD？

因为模型不是护城河——数据、标注纪律、模拟器、风险模型才是。要做出有竞争力的信号模型，得先选好预测目标，找到能预测它的数据，干净地清洗它而不引入泄漏，再证明结果不是回测伪迹。PhD 做的就是「选、找、洗、证」这四步；ML 库是大宗品。

alpha 边际究竟来自模型还是数据？

几乎总是来自数据，几乎总是在信号层。媒体倾向于把功劳归给模型，因为模型显眼；从业者把功劳归给数据，因为数据难以复制。从公开行情和开源 ML 库里跑出来的信号，按定义就是低 alpha——人人都能在同一输入上跑同一模型。能守得住的边际是独家数据，配上有纪律的处理。

regime 变了之后，AI 策略会发生什么？

诚实的答案是，多数策略都会停止生效，就像人写的策略一样。缓解放在风控层，不在信号层：当条件偏离训练分布时由 regime 检测器砍总敞口，让组件之间足够多样的集成策略不要一起爆。辩论、投票与集成解释了为什么「设计出来的多样性」比组件数量更重要。