智能体 AI 用于交易研究：当 LLM 坐进决策回路

2025 年秋天，LiveTradeBench 用美国股票与 Polymarket 上的真实行情，让 21 个前沿 LLM 跑了 50 天实盘，得出一个应该改变所有人评估「AI 基金」声明方式的结论：模型在 LMArena 上的排名，几乎完全预测不了它在 P&L 上的排名。一家交易公司的「智能体层」是真实存在的，也在被部署——但它住的是研究台，不是执行场，而真正能落地的形态更像一支初级分析师团队，不像「机器人交易员」。把「智能体公司」这一架构看明白，「自治 AI 交易员」这套叙事就会收敛成一个窄得多、也更站得住脚的主张。

一眼看全

2026 年「智能体交易」的四个角是：TradingAgents（多智能体研究框架）、BloombergGPT（封闭的金融领域 LLM）、FinGPT（开源那一支）、LiveTradeBench（实盘评估靶场）。这四者一起，圈出了「让 LLM 进交易回路」的整个设计空间。

项目	发布	主要角色	部署形态
TradingAgents	2024-12 → v7 2025-06	多智能体研究框架	开源 Python；分析师 → 研究员辩论 → 交易员 → 风控监督者。
BloombergGPT	2023-03	封闭金融领域 LLM（50B 参数，金融语料预训练）	仅在 Bloomberg 内部使用；面向金融文本的情绪、问答与命名实体识别。
FinGPT	2023 至今	开源金融 LLM 系列	在开源基模型之上微调；多个公开金融基准上跑赢 BloombergGPT。
LiveTradeBench	2025-11	实盘交易基准	50 天实盘评估（2025-08–10），覆盖美股与 Polymarket，21 个 LLM。

LiveTradeBench 最值得拎出来的结论：静态基准的名次（LMArena、MMLU）预测不了实盘 P&L 的名次。一些在聊天基准上中等的模型，在交易榜上名列前茅；一些聊天基准的领跑者，在交易榜上垫底。对于任何要搭智能体交易系统的人，含义直接而具体：不要按排行榜挑模型，要在真任务上做评估。

「智能体公司」架构

智能体公司：专项分析师喂给研究员，研究员辩论，交易员综合，风控监督者把关。订单一旦下出，就离开了 LLM 区域。

参考设计——在 TradingAgents 论文里最清楚，2025 年半打跟进工作里也基本一致——是「小型专业公司」而不是「一个超级智能体」。三个分析师专项智能体读不同的证据：基本面分析师 读财报与备案，情绪分析师 把新闻、StockTwits、Reddit 聚成一个情绪信号，技术分析师 读图形与订单簿失衡。没有谁被要求独自下决心——每个分析师写一份简短的分析备忘，交给上一层。

上一层是 多头研究员 与 空头研究员，对同一笔交易进行辩论。两个研究员是同一个模型的两次实例，提示词把它们各自推向相反结论；它们的辩论会留下一份脚本，把双方论点最薄弱的一环都暴露出来。辩论、投票与集成给出一般性结论：辩论的收益完全取决于「被设计出来的多样性」。不强迫多空互相为对立立场辩护，他们会塌缩回最初的多数派，辩论沦为表演。

再上一层是 交易员智能体——读完分析备忘与辩论脚本，提出一个动作。风控监督者 把这个提案放在当前组合状态下做检验，要么批准，要么修改，要么否决。这正是监督者/工作者模式描述的那种结构：工作者做局部推理，监督者守全局约束。生产里「人在回路」的钩子也常常挂在这一层——零售平台自动化，机构则在风控监督之后再放一道人工签字。

执行通路离开 LLM 区域。风控签过的订单进入确定性的执行系统：SOR（智能路由）、TWAP 或 VWAP 调度器、或者「带硬规则护栏的 RL 派生执行策略」。2026 年关于「智能体公司」部署的所有公开报道，描述的都是同一条线——LLM 在研究里，规则代码在执行里。越线，是生产团队设计时最严防死守的失效模式。

交易智能体要的记忆与工具

交易智能体的工具面与记忆。读类工具是大宗品；护栏装在 broker 写入工具上。

交易智能体的工具面比想象的更窄：一个行情读取工具，一个新闻/纪要检索工具（本质上就是智能体式检索在私有的备案与卖方研报语料上跑），一个组合状态读取工具，一个 broker 写入工具。前三个是大宗读；第四个是生产栈装护栏的地方。零售平台对 broker 工具默认自动确认，套着按用户的金额与集中度上限。机构场景里，broker 工具要么对 LLM 智能体根本不存在——LLM 写出一份结构化提案，由独立的确定性系统去执行——要么挂在人工审批之后。工具设计原则解释了为何 broker 工具上的边界是承重的；结构化工具 I/O 则给出了让那份提案保持机器可读的 schema 纪律。

记忆分两类。短期记忆是本次决策的草稿——分析备忘、辩论脚本、监督者的回应。长期记忆装着以往的论点与它们的结局——一份提前看中财报 beat 的论点，对下一季是高价值上下文；一份预测了 beat 却错了的论点，反而更值得保留，因为它告诉智能体当时漏看了什么。本站的记忆存储介绍了后端选择，短期与长期记忆给出边界纪律。早期智能体公司的一个常见失败是「根本没有长期存储」——每次决策都从一个新鲜上下文开始，意思就是这个智能体在不同决策之间什么也没学到。

领域 LLM 与被提示的通用 LLM

权衡空间是金融召回 × 通用性 × 开放性 × 成本。没有一方碾压另外两方；如何挑取决于用例。

BloombergGPT 是封闭领域 LLM 的经典代表——50B 参数，在 Bloomberg 的私有金融语料上预训练。它在金融情绪分类、金融 NER、金融问答上很强，并且活在 Bloomberg 自家产品里。代价是封闭：在 Bloomberg 之外，你无法部署或微调它，也无法把它接进自己的智能体公司。2026 年的现实是，若干开源金融 LLM——尤以 FinGPT 为代表——以一小部分训练成本，在多个公开金融基准上追上甚至跑赢 BloombergGPT，因为数据护城河比算力护城河更早被填平。

FinGPT 在开源基模型（LLaMA、Mistral 及其后继）之上微调，训练便宜，在已公开发表的若干金融 NLP 任务上超过 BloombergGPT。代价正好相反：FinGPT 特化得很硬，金融之外的通用能力比它原本的基模型更弱。如果你的智能体公司只需要读金融文本和挑股，FinGPT 是个好选择；如果公司里任何一个智能体需要推理金融之外的东西——一次地缘事件、一次监管变化、一次供应链失败——这种特化会咬你。

被提示的前沿通用模型——Claude、GPT 级、Gemini——是第三个角。它们在 TradingAgents 这类框架里通常担任分析师与研究员，因为它们带来宽广的推理与工具使用能力；代价是每次调用更贵，金融召回不是最强（但够用）。2025–2026 年的主流趋势是混搭：把金融预训练模型当作一个「情绪分类器工具」，挂在智能体公司里，而推理回路本身跑在通用前沿模型上。提示、微调或 RL 给出了「何时从提示升级到特化」的一般决策规则。

实盘基准告诉了我们什么

LiveTradeBench 的核心结论，示意化呈现。静态基准（LMArena）名次和实盘 P&L 名次对不上；连线是交叉的。

LiveTradeBench 让 21 个 LLM 在美股与 Polymarket 预测市场上跑了 2025 年 8 月 18 日到 10 月 24 日的 50 天实盘窗口。论文给出的三条核心结论，每一条都打了从业者带进来的一些直觉。第一，LMArena 高分并不意味着更好的交易结果——一些聊天基准领跑者在 P&L 表上垫底，一些中等的聊天模型反而冒到顶。第二，不同模型呈现出明显不同的组合风格，反映了各家在风险偏好与推理动力学上的差异——有的模型把仓位押在「高把握的少数」上，有的激进分散，相同提示在不同模型族会引出结构性不同的风格。第三，只有一部分 LLM 能真正利用实时信号去调整决策——其余的会锚定在训练期的先验上，对实时 regime 变化完全无感。

方法论上值得郑重对待的细节是，LiveTradeBench 跑的是真实行情流，做的是真正的组合级控制——这不是回测。回测专属的评估恰恰是过拟合最容易藏起来的地方。Evals 101 解释了一般性失败：训练与评估之间不变换输入分布的基准，对部署行为没有信息量。研究社区现在向实盘基准伸手，是因为 2026 年纸面回测结果已经失去了可信度——而实盘的数字也确实更谦虚。

另一个相邻基准 TraderBench 在对抗性市场条件下评估 AI 智能体，发现在合作型基准上排得好的智能体，到对抗压力下迅速垮掉。多智能体失效模式给出了通用结论；具体到交易场景，含义是：在一个合作型模拟器里调好的智能体公司，并不能泛化到一个其他参与者正在尝试识别并反向交易你的市场。

怎么挑

用例	选 TradingAgents 式公司，如果…	选 BloombergGPT（或领域 LLM），如果…	选被提示的通用 LLM，如果…
股票研究台	你要多空辩论 + 综合备忘，每晚跑一遍覆盖股。	你只要在备案上做情绪 + NER，而 Bloomberg 已是你的栈。	你的智能体还要推理金融之外的语境（地缘、供应链）。
情绪信号	你要在信号触发前先让多样意见相互核对。	你只要在金融情绪文本上拿最好的准度。	你要快速原型，成本可以后调。
交易点子生成	你想要监管能读的、可审计的论点链。	你在一个封闭的企业栈里，集成优先于灵活。	你想快速并行拉起多个专项智能体，且不打算训练。
执行	不要——执行还是规则。	不要——执行还是规则。	不要——执行还是规则。

每个系统在哪里最强。没有一行碾压其他；按用例选。

常见问题

LLM 智能体真的能自主交易吗？

零售层面，能——2026 年有数个零售平台在严格的人均金额与集中度上限下，不经人工审批就下单。机构层面，几乎不能——LLM 写出一份结构化提案，由确定性的执行系统去下。机构的克制不是技术保守，是审计需求：一个非确定性智能体的订单，事后比一个规则路由器的订单更难复盘。

为什么生产栈里执行还是规则代码？

延迟、可审计、失效模式可控。一次 LLM 调用要几百毫秒，一次执行决策只能花微秒。LLM 调用不确定且事后难解释；规则路由器确定且可审。LLM 在 broker 工具上幻觉一下，就是市场冲击事件；规则路由器不会幻觉一张订单出来。「研究 / 执行」这条边界，就是把这三件事控制住的地方。

怎么处理智能体研究产物里的幻觉？

三道机制叠加。第一，结构化工具 I/O——分析备忘和交易员提案是带类型的对象，不是自由文本，一个幻觉出来的 ticker 在 schema 校验阶段就死了，根本走不到交易员那里（参见结构化工具 I/O）。第二，风控监督者把提案对照组合状态读，凡是与现金、敞口上限或仓位方向不一致的，一律退回。第三，broker 工具本身在下单前校验 ticker、买卖方向、数量是否合规——能突破前两道的幻觉，第三道把它接住。

在金融数据上微调比提示前沿模型强吗？

在窄金融任务上——情绪、NER、金融问答——常常强出一截。在需要通用推理、规划与工具使用的智能体公司任务上，提示的前沿模型通常更稳。2026 年的混搭模式，是把微调模型当成「工具」挂在智能体公司里，公司的推理回路跑在前沿模型上，特化与通用同时拿到。