2025 年秋天,LiveTradeBench 用美国股票与 Polymarket 上的真实行情,让 21 个前沿 LLM 跑了 50 天实盘,得出一个应该改变所有人评估「AI 基金」声明方式的结论:模型在 LMArena 上的排名,几乎完全预测不了它在 P&L 上的排名。一家交易公司的「智能体层」是真实存在的,也在被部署——但它住的是研究台,不是执行场,而真正能落地的形态更像一支初级分析师团队,不像「机器人交易员」。把「智能体公司」这一架构看明白,「自治 AI 交易员」这套叙事就会收敛成一个窄得多、也更站得住脚的主张。
一眼看全
2026 年「智能体交易」的四个角是:TradingAgents(多智能体研究框架)、BloombergGPT(封闭的金融领域 LLM)、FinGPT(开源那一支)、LiveTradeBench(实盘评估靶场)。这四者一起,圈出了「让 LLM 进交易回路」的整个设计空间。
| 项目 | 发布 | 主要角色 | 部署形态 |
|---|---|---|---|
| TradingAgents | 2024-12 → v7 2025-06 | 多智能体研究框架 | 开源 Python;分析师 → 研究员辩论 → 交易员 → 风控监督者。 |
| BloombergGPT | 2023-03 | 封闭金融领域 LLM(50B 参数,金融语料预训练) | 仅在 Bloomberg 内部使用;面向金融文本的情绪、问答与命名实体识别。 |
| FinGPT | 2023 至今 | 开源金融 LLM 系列 | 在开源基模型之上微调;多个公开金融基准上跑赢 BloombergGPT。 |
| LiveTradeBench | 2025-11 | 实盘交易基准 | 50 天实盘评估(2025-08–10),覆盖美股与 Polymarket,21 个 LLM。 |
LiveTradeBench 最值得拎出来的结论:静态基准的名次(LMArena、MMLU)预测不了实盘 P&L 的名次。一些在聊天基准上中等的模型,在交易榜上名列前茅;一些聊天基准的领跑者,在交易榜上垫底。对于任何要搭智能体交易系统的人,含义直接而具体:不要按排行榜挑模型,要在真任务上做评估。
「智能体公司」架构
参考设计——在 TradingAgents 论文里最清楚,2025 年半打跟进工作里也基本一致——是「小型专业公司」而不是「一个超级智能体」。三个分析师专项智能体读不同的证据:基本面分析师 读财报与备案,情绪分析师 把新闻、StockTwits、Reddit 聚成一个情绪信号,技术分析师 读图形与订单簿失衡。没有谁被要求独自下决心——每个分析师写一份简短的分析备忘,交给上一层。
上一层是 多头研究员 与 空头研究员,对同一笔交易进行辩论。两个研究员是同一个模型的两次实例,提示词把它们各自推向相反结论;它们的辩论会留下一份脚本,把双方论点最薄弱的一环都暴露出来。辩论、投票与集成 给出一般性结论:辩论的收益完全取决于「被设计出来的多样性」。不强迫多空互相为对立立场辩护,他们会塌缩回最初的多数派,辩论沦为表演。
再上一层是 交易员智能体——读完分析备忘与辩论脚本,提出一个动作。风控监督者 把这个提案放在当前组合状态下做检验,要么批准,要么修改,要么否决。这正是 监督者/工作者模式 描述的那种结构:工作者做局部推理,监督者守全局约束。生产里「人在回路」的钩子也常常挂在这一层——零售平台自动化,机构则在风控监督之后再放一道人工签字。
执行通路离开 LLM 区域。风控签过的订单进入确定性的执行系统:SOR(智能路由)、TWAP 或 VWAP 调度器、或者「带硬规则护栏的 RL 派生执行策略」。2026 年关于「智能体公司」部署的所有公开报道,描述的都是同一条线——LLM 在研究里,规则代码在执行里。越线,是生产团队设计时最严防死守的失效模式。
交易智能体要的记忆与工具
交易智能体的工具面比想象的更窄:一个行情读取工具,一个新闻/纪要检索工具(本质上就是 智能体式检索 在私有的备案与卖方研报语料上跑),一个组合状态读取工具,一个 broker 写入工具。前三个是大宗读;第四个是生产栈装护栏的地方。零售平台对 broker 工具默认自动确认,套着按用户的金额与集中度上限。机构场景里,broker 工具要么对 LLM 智能体根本不存在——LLM 写出一份结构化提案,由独立的确定性系统去执行——要么挂在人工审批之后。工具设计原则 解释了为何 broker 工具上的边界是承重的;结构化工具 I/O 则给出了让那份提案保持机器可读的 schema 纪律。
记忆分两类。短期记忆是本次决策的草稿——分析备忘、辩论脚本、监督者的回应。长期记忆装着以往的论点与它们的结局——一份提前看中财报 beat 的论点,对下一季是高价值上下文;一份预测了 beat 却错了的论点,反而更值得保留,因为它告诉智能体当时漏看了什么。本站的 记忆存储 介绍了后端选择,短期与长期记忆 给出边界纪律。早期智能体公司的一个常见失败是「根本没有长期存储」——每次决策都从一个新鲜上下文开始,意思就是这个智能体在不同决策之间什么也没学到。
领域 LLM 与被提示的通用 LLM
BloombergGPT 是封闭领域 LLM 的经典代表——50B 参数,在 Bloomberg 的私有金融语料上预训练。它在金融情绪分类、金融 NER、金融问答上很强,并且活在 Bloomberg 自家产品里。代价是封闭:在 Bloomberg 之外,你无法部署或微调它,也无法把它接进自己的智能体公司。2026 年的现实是,若干开源金融 LLM——尤以 FinGPT 为代表——以一小部分训练成本,在多个公开金融基准上追上甚至跑赢 BloombergGPT,因为数据护城河比算力护城河更早被填平。
FinGPT 在开源基模型(LLaMA、Mistral 及其后继)之上微调,训练便宜,在已公开发表的若干金融 NLP 任务上超过 BloombergGPT。代价正好相反:FinGPT 特化得很硬,金融之外的通用能力比它原本的基模型更弱。如果你的智能体公司只需要读金融文本和挑股,FinGPT 是个好选择;如果公司里任何一个智能体需要推理金融之外的东西——一次地缘事件、一次监管变化、一次供应链失败——这种特化会咬你。
被提示的前沿通用模型——Claude、GPT 级、Gemini——是第三个角。它们在 TradingAgents 这类框架里通常担任分析师与研究员,因为它们带来宽广的推理与工具使用能力;代价是每次调用更贵,金融召回不是最强(但够用)。2025–2026 年的主流趋势是混搭:把金融预训练模型当作一个「情绪分类器工具」,挂在智能体公司里,而推理回路本身跑在通用前沿模型上。提示、微调或 RL 给出了「何时从提示升级到特化」的一般决策规则。
实盘基准告诉了我们什么
LiveTradeBench 让 21 个 LLM 在美股与 Polymarket 预测市场上跑了 2025 年 8 月 18 日到 10 月 24 日的 50 天实盘窗口。论文给出的三条核心结论,每一条都打了从业者带进来的一些直觉。第一,LMArena 高分并不意味着更好的交易结果——一些聊天基准领跑者在 P&L 表上垫底,一些中等的聊天模型反而冒到顶。第二,不同模型呈现出明显不同的组合风格,反映了各家在风险偏好与推理动力学上的差异——有的模型把仓位押在「高把握的少数」上,有的激进分散,相同提示在不同模型族会引出结构性不同的风格。第三,只有一部分 LLM 能真正利用实时信号去调整决策——其余的会锚定在训练期的先验上,对实时 regime 变化完全无感。
方法论上值得郑重对待的细节是,LiveTradeBench 跑的是真实行情流,做的是真正的组合级控制——这不是回测。回测专属的评估恰恰是过拟合最容易藏起来的地方。Evals 101 解释了一般性失败:训练与评估之间不变换输入分布的基准,对部署行为没有信息量。研究社区现在向实盘基准伸手,是因为 2026 年纸面回测结果已经失去了可信度——而实盘的数字也确实更谦虚。
另一个相邻基准 TraderBench 在对抗性市场条件下评估 AI 智能体,发现在合作型基准上排得好的智能体,到对抗压力下迅速垮掉。多智能体失效模式 给出了通用结论;具体到交易场景,含义是:在一个合作型模拟器里调好的智能体公司,并不能泛化到一个其他参与者正在尝试识别并反向交易你的市场。
怎么挑
| 用例 | 选 TradingAgents 式公司,如果… | 选 BloombergGPT(或领域 LLM),如果… | 选被提示的通用 LLM,如果… |
|---|---|---|---|
| 股票研究台 | 你要多空辩论 + 综合备忘,每晚跑一遍覆盖股。 | 你只要在备案上做情绪 + NER,而 Bloomberg 已是你的栈。 | 你的智能体还要推理金融之外的语境(地缘、供应链)。 |
| 情绪信号 | 你要在信号触发前先让多样意见相互核对。 | 你只要在金融情绪文本上拿最好的准度。 | 你要快速原型,成本可以后调。 |
| 交易点子生成 | 你想要监管能读的、可审计的论点链。 | 你在一个封闭的企业栈里,集成优先于灵活。 | 你想快速并行拉起多个专项智能体,且不打算训练。 |
| 执行 | 不要——执行还是规则。 | 不要——执行还是规则。 | 不要——执行还是规则。 |
常见问题
LLM 智能体真的能自主交易吗?
零售层面,能——2026 年有数个零售平台在严格的人均金额与集中度上限下,不经人工审批就下单。机构层面,几乎不能——LLM 写出一份结构化提案,由确定性的执行系统去下。机构的克制不是技术保守,是审计需求:一个非确定性智能体的订单,事后比一个规则路由器的订单更难复盘。
为什么生产栈里执行还是规则代码?
延迟、可审计、失效模式可控。一次 LLM 调用要几百毫秒,一次执行决策只能花微秒。LLM 调用不确定且事后难解释;规则路由器确定且可审。LLM 在 broker 工具上幻觉一下,就是市场冲击事件;规则路由器不会幻觉一张订单出来。「研究 / 执行」这条边界,就是把这三件事控制住的地方。
怎么处理智能体研究产物里的幻觉?
三道机制叠加。第一,结构化工具 I/O——分析备忘和交易员提案是带类型的对象,不是自由文本,一个幻觉出来的 ticker 在 schema 校验阶段就死了,根本走不到交易员那里(参见 结构化工具 I/O)。第二,风控监督者把提案对照组合状态读,凡是与现金、敞口上限或仓位方向不一致的,一律退回。第三,broker 工具本身在下单前校验 ticker、买卖方向、数量是否合规——能突破前两道的幻觉,第三道把它接住。
在金融数据上微调比提示前沿模型强吗?
在窄金融任务上——情绪、NER、金融问答——常常强出一截。在需要通用推理、规划与工具使用的智能体公司任务上,提示的前沿模型通常更稳。2026 年的混搭模式,是把微调模型当成「工具」挂在智能体公司里,公司的推理回路跑在前沿模型上,特化与通用同时拿到。
延伸阅读
本站
- 多智能体拓扑 —— 智能体公司搭在什么样的接线之上。
- 监督者/工作者编排 —— 风控监督者落地的那个模式。
- 辩论、投票与集成 —— 多空辩论只有在「被设计出来的多样性」下才奏效。
- 智能体式检索 —— 新闻/纪要工具面。
- 结构化工具 I/O —— 接住幻觉提案的 schema 纪律。
- AI 在交易栈中的位置 —— 与本文配套的「整张地图」视角。
- FinRL、TensorTrade、ABIDES-Gym 与 ElegantRL —— 「RL 交易框架」这位兄弟:当上文中的智能体被换成一份 RL 策略时,真正要落地的就是这几个库;「谁掌控仿真契约」这套视角,对智能体公司跑回测的任何场景同样适用。
- Llama 4、DeepSeek V3、Qwen3 与 Mistral Large 3 —— 在 2026 年,本文「被提示的通用 LLM」那一列真正会从中选的开源权重旗舰;它们的推理模式与每次调用成本的取舍,决定每款能在智能体公司里承担哪个角色。
外部来源
- arXiv 2412.20138 —— TradingAgents:多智能体 LLM 金融交易框架(v7,2025-06)。
- arXiv 2511.03628 —— LiveTradeBench:寻找真实世界 alpha 的大语言模型。
- TauricResearch/TradingAgents —— 开源参考实现。
- ulab-uiuc/live-trade-bench —— LiveTradeBench 开源 harness。
- BloombergGPT(2023) —— 封闭领域 LLM 原论文。