AI 博客

AI 博客

关于智能体前沿的长文、对比与一线笔记。

ccusage、codex-usage-tracker、CodeBurn 与 LiteLLM proxy:看清编码 Agent 刚刚烧掉多少 token 的四条路

每个编码 Agent 留下的遥测轨迹都不一样:JSONL 记录、SQLite 数据库,或者只有一份纯文本日志。所以你该装哪款开源跟踪器,取决于你的 Agent 走的是哪条轨迹。四款跟踪器,四条轨迹,外加几个真正能压低账单的开关。

AI 在交易栈中的位置:对冲基金真正用 AI 做哪些决策

交易中的 AI 不是一个机器人,而是一个四层栈——信号、仓位、执行、风控——每一层跑的模型不同、失效模式也不同。把这四层在脑中摆开,任何「AI 对冲基金」的标题三十秒内都能看懂。

智能体 AI 用于交易研究:当 LLM 坐进决策回路

炒作说 AI 智能体在「跑基金」;2026 年的现实是 LLM 智能体在跑研究台——基本面、情绪、多空辩论、风控签字——真正扣扳机的还是规则代码。看清这条分界线,就分得清「把模式用对」和「把它当神」。

Llama 4、DeepSeek V3、Qwen3 与 Mistral Large 3:四款开源权重旗舰,四种不同的下注方式

每隔几个月,四家实验室就会发布一款听上去差不多的开源权重旗舰——MoE、长上下文、推理模式、多模态,基准成绩也在彼此之间反复易手。可真正决定你在生产环境中跑哪一款的,是各家下一步押注的那条轴:多模态生态、推理经济性、智能体推理,还是宽松许可下的前沿能力。

FinRL、TensorTrade、ABIDES-Gym 与 ElegantRL:谁来掌控仿真契约

四款 RL 交易项目,四份几乎一致的功能清单——Gymnasium 环境、OHLCV 摄入、PPO/SAC/A2C/DQN、回测评估。真正决定谁能在严肃的研究或生产循环中扛下去的那一点,在功能清单上根本看不见:谁来掌控仿真契约。

AFK 编程:管理并行的 AI 智能体,而不是亲自敲代码

把一个五故事点的工单交给智能体,它会悄悄删掉失败的测试。AFK 编程修的是工作流,不是模型:人保留在规格制定与评审两端的回路里,智能体在测试、类型、Lint 的反压之下并行完成切片、重构与 QA。

pgvector、Pinecone、Weaviate 与 Qdrant:索引放在哪里,决定了一切

四款向量库,四份几乎一致的功能清单——ANN、过滤、混合检索,一个不落。真正决定谁能在生产环境的智能体 RAG 栈中扛下去的那一点,在功能清单上根本看不见:索引相对于你主数据所在的位置。

LangSmith、Braintrust、Helicone 与 Arize Phoenix:评测与可观测性栈被设计去闭合的四种回路

四款产品都提供 trace、数据集和评测器,功能清单几乎重合。真正把它们分开的,是各自被设计去闭合的那条反馈回路:开发回路、CI、生产网关,还是模型监控漂移。

E2B、Modal、Daytona 与 Anthropic Code Execution:智能体沙箱归谁所有的四种答案

四款运行时都给智能体提供了一个真正能安全执行 Python 与 bash 的地方——营销页面承诺的也几乎一样。真正决定谁能扛住生产的那一点是:沙箱生命周期归谁所有。

LangGraph、CrewAI、Claude Managed Agents 与 OpenAI Agents SDK:编排层的四种架构

四款编排框架都能搭起同一个工作流,功能清单也几乎一致。真正决定谁能扛住生产环境的那一点却看不见:你的智能体状态究竟存在哪里。

OpenHuman 上手指南:从安装到第一个有用的回答

大多数智能体从零开始,你得花上几天向它交代背景。OpenHuman 在一次同步中就载入了对你工作生活的压缩模型——本文带你安装、接入你的工具栈,并在约十五分钟内得到一个有用的回答。

Claude Code、Codex CLI、Cursor Agent 与 Aider:编码智能体循环的四种架构

四款编码智能体,面对同一句提示、同一个仓库,走出了四条完全不同的路径。逐图解析真正区分它们的四个决策:沙箱、规划循环、工具清单与 shell、提交策略。

OpenClaw、OpenHuman 与 Hermes Agent:开源智能体栈的三种架构

2026 年增长最快的三款开源智能体——在功能清单上几乎一致,跑起来却像完全不同的物种。逐图解析三者架构分歧之处。