AI 博客

智能体 AI 用于交易研究:当 LLM 坐进决策回路

炒作说 AI 智能体在「跑基金」;2026 年的现实是 LLM 智能体在跑研究台——基本面、情绪、多空辩论、风控签字——真正扣扳机的还是规则代码。看清这条分界线,就分得清「把模式用对」和「把它当神」。

作者 智能体 AI 维基 35 分钟读完

2025 年秋天,LiveTradeBench 用美国股票与 Polymarket 上的真实行情,让 21 个前沿 LLM 跑了 50 天实盘,得出一个应该改变所有人评估「AI 基金」声明方式的结论:模型在 LMArena 上的排名,几乎完全预测不了它在 P&L 上的排名。一家交易公司的「智能体层」是真实存在的,也在被部署——但它住的是研究台,不是执行场,而真正能落地的形态更像一支初级分析师团队,不像「机器人交易员」。把「智能体公司」这一架构看明白,「自治 AI 交易员」这套叙事就会收敛成一个窄得多、也更站得住脚的主张。

一眼看全

2026 年「智能体交易」的四个角是:TradingAgents(多智能体研究框架)、BloombergGPT(封闭的金融领域 LLM)、FinGPT(开源那一支)、LiveTradeBench(实盘评估靶场)。这四者一起,圈出了「让 LLM 进交易回路」的整个设计空间。

项目发布主要角色部署形态
TradingAgents2024-12 → v7 2025-06多智能体研究框架开源 Python;分析师 → 研究员辩论 → 交易员 → 风控监督者。
BloombergGPT2023-03封闭金融领域 LLM(50B 参数,金融语料预训练)仅在 Bloomberg 内部使用;面向金融文本的情绪、问答与命名实体识别。
FinGPT2023 至今开源金融 LLM 系列在开源基模型之上微调;多个公开金融基准上跑赢 BloombergGPT。
LiveTradeBench2025-11实盘交易基准50 天实盘评估(2025-08–10),覆盖美股与 Polymarket,21 个 LLM。

LiveTradeBench 最值得拎出来的结论:静态基准的名次(LMArena、MMLU)预测不了实盘 P&L 的名次。一些在聊天基准上中等的模型,在交易榜上名列前茅;一些聊天基准的领跑者,在交易榜上垫底。对于任何要搭智能体交易系统的人,含义直接而具体:不要按排行榜挑模型,要在真任务上做评估。

「智能体公司」架构

Trading agent firm architecture Three specialist analyst agents (fundamentals, sentiment, technicals) feed two researcher agents arguing the bull and bear case. A trader agent synthesises; a risk-supervisor agent gates the proposal before it is handed to a deterministic broker outside the LLM region. LLM region · research desk Deterministic execution Fundamentals analyst Filings · ratios · guidance → memo Sentiment analyst News · StockTwits · Reddit → memo Technicals analyst Chart · LOB imbalance → memo Bull researcher Defend the long case from memos Bear researcher Attack the long case from memos Trader agent Synthesises memos + debate → proposal Risk supervisor Approve / modify / reject vs portfolio Broker SOR / TWAP / RL + guards The line between LLM region and deterministic execution is the load-bearing boundary in 2026 production stacks.
智能体公司:专项分析师喂给研究员,研究员辩论,交易员综合,风控监督者把关。订单一旦下出,就离开了 LLM 区域。

参考设计——在 TradingAgents 论文里最清楚,2025 年半打跟进工作里也基本一致——是「小型专业公司」而不是「一个超级智能体」。三个分析师专项智能体读不同的证据:基本面分析师 读财报与备案,情绪分析师 把新闻、StockTwits、Reddit 聚成一个情绪信号,技术分析师 读图形与订单簿失衡。没有谁被要求独自下决心——每个分析师写一份简短的分析备忘,交给上一层。

上一层是 多头研究员空头研究员,对同一笔交易进行辩论。两个研究员是同一个模型的两次实例,提示词把它们各自推向相反结论;它们的辩论会留下一份脚本,把双方论点最薄弱的一环都暴露出来。辩论、投票与集成 给出一般性结论:辩论的收益完全取决于「被设计出来的多样性」。不强迫多空互相为对立立场辩护,他们会塌缩回最初的多数派,辩论沦为表演。

再上一层是 交易员智能体——读完分析备忘与辩论脚本,提出一个动作。风控监督者 把这个提案放在当前组合状态下做检验,要么批准,要么修改,要么否决。这正是 监督者/工作者模式 描述的那种结构:工作者做局部推理,监督者守全局约束。生产里「人在回路」的钩子也常常挂在这一层——零售平台自动化,机构则在风控监督之后再放一道人工签字。

执行通路离开 LLM 区域。风控签过的订单进入确定性的执行系统:SOR(智能路由)、TWAP 或 VWAP 调度器、或者「带硬规则护栏的 RL 派生执行策略」。2026 年关于「智能体公司」部署的所有公开报道,描述的都是同一条线——LLM 在研究里,规则代码在执行里。越线,是生产团队设计时最严防死守的失效模式。

交易智能体要的记忆与工具

Trading agent: tools and memory surface A single LLM agent at the centre with four tool connections (market-data read, news/transcript RAG, portfolio-state read, broker write — guarded) and two memory blocks (short-term scratchpad for the current decision; long-term store of prior theses and outcomes). The broker tool is marked guarded. LLM agent read → reason → act tool calls + memory I/O Tools Market data (read) price · LOB · greeks · vol News / transcripts (RAG) filings · analyst notes Portfolio state (read) positions · cash · exposures Broker (write) · guarded human approval at institutional GUARD Memory Short-term · this decision's scratchpad analyst memos · debate transcript supervisor reply · current plan Long-term · prior theses + outcomes what was called right + what was missed queried for the next similar decision
交易智能体的工具面与记忆。读类工具是大宗品;护栏装在 broker 写入工具上。

交易智能体的工具面比想象的更窄:一个行情读取工具,一个新闻/纪要检索工具(本质上就是 智能体式检索 在私有的备案与卖方研报语料上跑),一个组合状态读取工具,一个 broker 写入工具。前三个是大宗读;第四个是生产栈装护栏的地方。零售平台对 broker 工具默认自动确认,套着按用户的金额与集中度上限。机构场景里,broker 工具要么对 LLM 智能体根本不存在——LLM 写出一份结构化提案,由独立的确定性系统去执行——要么挂在人工审批之后。工具设计原则 解释了为何 broker 工具上的边界是承重的;结构化工具 I/O 则给出了让那份提案保持机器可读的 schema 纪律。

记忆分两类。短期记忆是本次决策的草稿——分析备忘、辩论脚本、监督者的回应。长期记忆装着以往的论点与它们的结局——一份提前看中财报 beat 的论点,对下一季是高价值上下文;一份预测了 beat 却错了的论点,反而更值得保留,因为它告诉智能体当时漏看了什么。本站的 记忆存储 介绍了后端选择,短期与长期记忆 给出边界纪律。早期智能体公司的一个常见失败是「根本没有长期存储」——每次决策都从一个新鲜上下文开始,意思就是这个智能体在不同决策之间什么也没学到。

领域 LLM 与被提示的通用 LLM

Domain LLM vs open finance LLM vs prompted general LLM Three columns — BloombergGPT (closed domain LLM, finance pre-trained), FinGPT (open finance LLM family fine-tuned on open base), and a prompted frontier general model (Claude or GPT-class). Compared across four axes: finance recall, generality, openness, cost per call. Each cell is shaded high/medium/low. BloombergGPT FinGPT Prompted general Finance recall sentiment / NER / QA High High Medium Generality non-finance reasoning Low Medium High Openness deploy / fine-tune Closed Open API-only Cost per call at production scale Medium (internal) Low (self-host) High Low / weak Medium High / strong
权衡空间是金融召回 × 通用性 × 开放性 × 成本。没有一方碾压另外两方;如何挑取决于用例。

BloombergGPT 是封闭领域 LLM 的经典代表——50B 参数,在 Bloomberg 的私有金融语料上预训练。它在金融情绪分类、金融 NER、金融问答上很强,并且活在 Bloomberg 自家产品里。代价是封闭:在 Bloomberg 之外,你无法部署或微调它,也无法把它接进自己的智能体公司。2026 年的现实是,若干开源金融 LLM——尤以 FinGPT 为代表——以一小部分训练成本,在多个公开金融基准上追上甚至跑赢 BloombergGPT,因为数据护城河比算力护城河更早被填平。

FinGPT 在开源基模型(LLaMA、Mistral 及其后继)之上微调,训练便宜,在已公开发表的若干金融 NLP 任务上超过 BloombergGPT。代价正好相反:FinGPT 特化得很硬,金融之外的通用能力比它原本的基模型更弱。如果你的智能体公司只需要读金融文本和挑股,FinGPT 是个好选择;如果公司里任何一个智能体需要推理金融之外的东西——一次地缘事件、一次监管变化、一次供应链失败——这种特化会咬你。

被提示的前沿通用模型——Claude、GPT 级、Gemini——是第三个角。它们在 TradingAgents 这类框架里通常担任分析师与研究员,因为它们带来宽广的推理与工具使用能力;代价是每次调用更贵,金融召回不是最强(但够用)。2025–2026 年的主流趋势是混搭:把金融预训练模型当作一个「情绪分类器工具」,挂在智能体公司里,而推理回路本身跑在通用前沿模型上。提示、微调或 RL 给出了「何时从提示升级到特化」的一般决策规则。

实盘基准告诉了我们什么

LiveTradeBench: static benchmark rank vs live P&L rank Two ranked columns of LLM family labels (left: static LMArena rank top to bottom; right: live trading P and L rank top to bottom over the 50-day August to October 2025 LiveTradeBench window). Connection lines between the same family on the two columns cross substantially, illustrating that the two rankings do not match. Rank stability check · LMArena ↔ LiveTradeBench P&L Stylised — 5 frontier families · 50-day window Aug 18 – Oct 24, 2025 LMArena (static) rank LiveTradeBench P&L rank #1 Family A #2 Family B #3 Family C #4 Family D #5 Family E #1 Family D #2 Family A #3 Family E #4 Family B #5 Family C Crossing connectors illustrate the headline finding: high LMArena rank does not imply high P&L rank.
LiveTradeBench 的核心结论,示意化呈现。静态基准(LMArena)名次和实盘 P&L 名次对不上;连线是交叉的。

LiveTradeBench 让 21 个 LLM 在美股与 Polymarket 预测市场上跑了 2025 年 8 月 18 日到 10 月 24 日的 50 天实盘窗口。论文给出的三条核心结论,每一条都打了从业者带进来的一些直觉。第一,LMArena 高分并不意味着更好的交易结果——一些聊天基准领跑者在 P&L 表上垫底,一些中等的聊天模型反而冒到顶。第二,不同模型呈现出明显不同的组合风格,反映了各家在风险偏好与推理动力学上的差异——有的模型把仓位押在「高把握的少数」上,有的激进分散,相同提示在不同模型族会引出结构性不同的风格。第三,只有一部分 LLM 能真正利用实时信号去调整决策——其余的会锚定在训练期的先验上,对实时 regime 变化完全无感。

方法论上值得郑重对待的细节是,LiveTradeBench 跑的是真实行情流,做的是真正的组合级控制——这不是回测。回测专属的评估恰恰是过拟合最容易藏起来的地方。Evals 101 解释了一般性失败:训练与评估之间不变换输入分布的基准,对部署行为没有信息量。研究社区现在向实盘基准伸手,是因为 2026 年纸面回测结果已经失去了可信度——而实盘的数字也确实更谦虚。

另一个相邻基准 TraderBench 在对抗性市场条件下评估 AI 智能体,发现在合作型基准上排得好的智能体,到对抗压力下迅速垮掉。多智能体失效模式 给出了通用结论;具体到交易场景,含义是:在一个合作型模拟器里调好的智能体公司,并不能泛化到一个其他参与者正在尝试识别并反向交易你的市场。

怎么挑

用例选 TradingAgents 式公司,如果…选 BloombergGPT(或领域 LLM),如果…选被提示的通用 LLM,如果…
股票研究台 你要多空辩论 + 综合备忘,每晚跑一遍覆盖股。 你只要在备案上做情绪 + NER,而 Bloomberg 已是你的栈。 你的智能体还要推理金融之外的语境(地缘、供应链)。
情绪信号 你要在信号触发前先让多样意见相互核对。 你只要在金融情绪文本上拿最好的准度。 你要快速原型,成本可以后调。
交易点子生成 你想要监管能读的、可审计的论点链。 你在一个封闭的企业栈里,集成优先于灵活。 你想快速并行拉起多个专项智能体,且不打算训练。
执行 不要——执行还是规则。 不要——执行还是规则。 不要——执行还是规则。
Feature matrix: agentic-trading systems Heatmap matrix. Rows are four systems — TradingAgents, BloombergGPT, FinGPT, Prompted general LLM. Columns are five capabilities — finance recall, multi-agent orchestration, openness, production-ready boundaries, cost efficiency. Each cell is shaded strong, medium, or weak with a short label. Where each system leans hardest Finance recall Multi-agent orchestration Openness / deployability Production boundaries Cost efficiency TradingAgents Medium Strong (firm pattern) Strong (OSS) Medium Medium BloombergGPT Strong Weak (single model) Weak (closed) Strong (internal) Medium FinGPT Strong Medium Strong (OSS) Medium Strong (self-host) Prompted general LLM Medium Strong (broad) API-only Strong (mature) Weak Weak Medium Strong
每个系统在哪里最强。没有一行碾压其他;按用例选。

常见问题

LLM 智能体真的能自主交易吗?

零售层面,能——2026 年有数个零售平台在严格的人均金额与集中度上限下,不经人工审批就下单。机构层面,几乎不能——LLM 写出一份结构化提案,由确定性的执行系统去下。机构的克制不是技术保守,是审计需求:一个非确定性智能体的订单,事后比一个规则路由器的订单更难复盘。

为什么生产栈里执行还是规则代码?

延迟、可审计、失效模式可控。一次 LLM 调用要几百毫秒,一次执行决策只能花微秒。LLM 调用不确定且事后难解释;规则路由器确定且可审。LLM 在 broker 工具上幻觉一下,就是市场冲击事件;规则路由器不会幻觉一张订单出来。「研究 / 执行」这条边界,就是把这三件事控制住的地方。

怎么处理智能体研究产物里的幻觉?

三道机制叠加。第一,结构化工具 I/O——分析备忘和交易员提案是带类型的对象,不是自由文本,一个幻觉出来的 ticker 在 schema 校验阶段就死了,根本走不到交易员那里(参见 结构化工具 I/O)。第二,风控监督者把提案对照组合状态读,凡是与现金、敞口上限或仓位方向不一致的,一律退回。第三,broker 工具本身在下单前校验 ticker、买卖方向、数量是否合规——能突破前两道的幻觉,第三道把它接住。

在金融数据上微调比提示前沿模型强吗?

在窄金融任务上——情绪、NER、金融问答——常常强出一截。在需要通用推理、规划与工具使用的智能体公司任务上,提示的前沿模型通常更稳。2026 年的混搭模式,是把微调模型当成「工具」挂在智能体公司里,公司的推理回路跑在前沿模型上,特化与通用同时拿到。

延伸阅读

本站

外部来源