ccusage、codex-usage-tracker、CodeBurn 与 LiteLLM proxy:看清编码 Agent 刚刚烧掉多少 token 的四条路
每个编码 Agent 留下的遥测轨迹都不一样:JSONL 记录、SQLite 数据库,或者只有一份纯文本日志。所以你该装哪款开源跟踪器,取决于你的 Agent 走的是哪条轨迹。四款跟踪器,四条轨迹,外加几个真正能压低账单的开关。
关于智能体前沿的长文、对比与一线笔记。
每个编码 Agent 留下的遥测轨迹都不一样:JSONL 记录、SQLite 数据库,或者只有一份纯文本日志。所以你该装哪款开源跟踪器,取决于你的 Agent 走的是哪条轨迹。四款跟踪器,四条轨迹,外加几个真正能压低账单的开关。
交易中的 AI 不是一个机器人,而是一个四层栈——信号、仓位、执行、风控——每一层跑的模型不同、失效模式也不同。把这四层在脑中摆开,任何「AI 对冲基金」的标题三十秒内都能看懂。
炒作说 AI 智能体在「跑基金」;2026 年的现实是 LLM 智能体在跑研究台——基本面、情绪、多空辩论、风控签字——真正扣扳机的还是规则代码。看清这条分界线,就分得清「把模式用对」和「把它当神」。
每隔几个月,四家实验室就会发布一款听上去差不多的开源权重旗舰——MoE、长上下文、推理模式、多模态,基准成绩也在彼此之间反复易手。可真正决定你在生产环境中跑哪一款的,是各家下一步押注的那条轴:多模态生态、推理经济性、智能体推理,还是宽松许可下的前沿能力。
四款 RL 交易项目,四份几乎一致的功能清单——Gymnasium 环境、OHLCV 摄入、PPO/SAC/A2C/DQN、回测评估。真正决定谁能在严肃的研究或生产循环中扛下去的那一点,在功能清单上根本看不见:谁来掌控仿真契约。
把一个五故事点的工单交给智能体,它会悄悄删掉失败的测试。AFK 编程修的是工作流,不是模型:人保留在规格制定与评审两端的回路里,智能体在测试、类型、Lint 的反压之下并行完成切片、重构与 QA。
四款向量库,四份几乎一致的功能清单——ANN、过滤、混合检索,一个不落。真正决定谁能在生产环境的智能体 RAG 栈中扛下去的那一点,在功能清单上根本看不见:索引相对于你主数据所在的位置。
四款产品都提供 trace、数据集和评测器,功能清单几乎重合。真正把它们分开的,是各自被设计去闭合的那条反馈回路:开发回路、CI、生产网关,还是模型监控漂移。
四款运行时都给智能体提供了一个真正能安全执行 Python 与 bash 的地方——营销页面承诺的也几乎一样。真正决定谁能扛住生产的那一点是:沙箱生命周期归谁所有。
四款编排框架都能搭起同一个工作流,功能清单也几乎一致。真正决定谁能扛住生产环境的那一点却看不见:你的智能体状态究竟存在哪里。
大多数智能体从零开始,你得花上几天向它交代背景。OpenHuman 在一次同步中就载入了对你工作生活的压缩模型——本文带你安装、接入你的工具栈,并在约十五分钟内得到一个有用的回答。
四款编码智能体,面对同一句提示、同一个仓库,走出了四条完全不同的路径。逐图解析真正区分它们的四个决策:沙箱、规划循环、工具清单与 shell、提交策略。
2026 年增长最快的三款开源智能体——在功能清单上几乎一致,跑起来却像完全不同的物种。逐图解析三者架构分歧之处。