这篇文章面向所有使用 AI API 的用户,无论你是用 ChatBox、Cherry Studio、SillyTavern 还是其他客户端。内容不涉及任何具体平台和服务商,纯粹是使用层面的科普。花几分钟看完,能帮你省下不少时间和钱。
一、对话计费与实际消耗
很多人以为和 AI 聊天就像微信——你发一条,它回一条,轻轻松松。
实际上,AI 没有记忆。它不会在某个服务器上坐着等你的下一条消息。每一轮对话,AI 做的事情是把你从第一条消息开始到最新一条的所有聊天记录全部重新读一遍,然后才生成回复。
你和 AI 聊了 50 轮,到第 50 轮的时候,AI 不是只看你最新发的那句话,而是把前面 49 轮的所有内容全部重新吃一遍,再加上你这句,然后才开始写回复。所以对话越长,每一轮消耗就越大,费用自然越来越高。
而且你在输入框里打的那几个字,只是实际消耗的一小部分。一次请求真正消耗的 token 包括:你设置的系统预设(system prompt)、所有历史对话记录、你本次输入的内容、AI 的思考过程(部分模型有 thinking 功能)、以及 AI 最终输出的回复。这些加在一起,才是一轮的真实消耗。
你的聊天记录始终保存在你本地的客户端里,AI 那边什么都没存,每次都是重新来过。
如果对话已经很长而且前面的内容不太重要了,开个新对话是最简单的省钱方式,AI 的表现也会更好。
二、什么是 Token
全文会多次提到 token,这里简单解释一下。
Token 是 AI 处理文本的基本单位。它不完全等于一个字或一个词,而是模型自己的一套切分方式。大致的换算关系是:1 个中文字约等于 1.5 到 2 个 token,1 个英文单词约等于 1 到 1.5 个 token。
所以当你看到某个模型写着"支持 128K 上下文",意思是它能处理大约 128000 个 token 的内容,换算成中文大概是 6 万到 8 万字。
了解这个概念之后,后面提到的各种数字你就能有个直观感受了。
三、上下文长度:能装多少不等于能用多好
"支持百万上下文"是很多模型的宣传卖点。但百万上下文的意思是模型技术上能接收这么长的内容,不代表它能完美记住和处理其中每一个细节。
你能带一本 1000 页的书进考场,不代表你能记住每一页写了什么。AI 也是一样。学术上有个现象叫"Lost in the Middle"——模型对开头和结尾的内容关注度较高,中间的内容容易被忽略或遗忘。
大致的表现规律:0 到 8K token 的范围内表现最佳,细节准确。8K 到 32K 表现良好,偶尔遗漏。32K 到 100K 早期内容开始被遗忘,但主线还能维持。超过 100K 能跑,但质量明显下滑,可能出现前后矛盾。
重要的设定建议放在系统预设里,或者在对话中主动重复提醒关键信息。觉得 AI 开始"失忆"了,开个新对话比硬撑效果好。
你也可以定期让ai对上文自行总结,在输入新的对话中。
四、输出能力:极限是极限,日常是日常
以 Gemini 为例,官方标注最大输出长度可以达到 65000+ token。但这是模型的极限能力,不是它每次都能稳定达到的水平。
就像一个人百米冲刺能跑 11 秒,但你不能要求他每次都用这个速度跑完全程。
实际使用中,大部分模型稳定输出在 2000 到 4000 token 左右。要求一次性输出 7000 字以上的高质量连贯内容,对目前任何模型来说都相当吃力。输出越长,后半段越容易出现重复、跑题、逻辑断裂。
Claude Opus 相对擅长长文本输出,但也有上限。如果需要长内容,分段生成是更靠谱的做法,每次让 AI 写一部分,比一口气全写完效果好得多。
五、流式输出
大部分客户端默认开启了流式输出(streaming),也就是 AI 的回复一个字一个字地往外蹦,像打字一样。这是正常的,也是推荐的方式,体验更流畅,也能更快看到回复内容。
如果你的客户端没有开启流式输出,那你会遇到这种情况:发完消息之后界面完全没有反应,等了很久才一整段话一次性弹出来。内容越长,等待时间越长。这不是卡了,也不是挂了,只是在等 AI 把整段内容全部生成完才一次性返回。
另外,使用思考模型(比如 Claude 的 thinking 模式、GPT 的 o 系列)的时候,即使开了流式输出,也会有一段时间界面没有任何内容输出。这是因为模型在"思考阶段",思考过程不会显示在对话里,只有思考完毕之后才会开始输出正式回复。思考时间从几秒到几十秒不等,取决于问题的复杂程度。这也不是卡了,耐心等一下就好。
建议检查一下你的客户端设置,确认流式输出(streaming)是开启状态。一般在设置里找"Stream"或者"流式"相关的选项就能看到。
六、客户端与使用场景:工具要选对
不同的客户端设计目的不同,擅长的事情也不同。
ChatBox 和 Cherry Studio 是轻量级的通用对话工具,适合日常问答、翻译、写作辅助、模型切换管理这类用途。
SillyTavern(酒馆)是专门为角色扮演设计的前端,它对预设的管理、上下文的处理、角色卡的支持,都是通用工具做不到的。
Next Web、LobeChat 这类属于通用对话前端,适合知识问答和日常使用。
每个工具对 prompt 的处理方式、预设注入方式、上下文管理方式都完全不同。想要什么样的体验,就选专门为那个场景设计的工具。在一个锤子上要求螺丝刀的功能,是工具选错了,不是工具不好用。
七、模型选择
不是所有模型都适合做所有事情。简单了解一下各家的特点,能帮你少走很多弯路。
Claude 系列擅长长文本生成、写作、内容理解和角色扮演的连贯性,文笔在主流模型中属于比较好的。
GPT 系列综合能力均衡,在函数调用、工具使用、代码生成方面表现稳定,生态最成熟。
Gemini 系列上下文窗口大,适合处理长文档,多模态能力(图片、视频理解)比较突出。
不需要记得很细,大致知道方向就行。具体到某个任务用哪个模型好,试几次就知道了。
八、参数设置
从别人那里抄来一套参数直接用在自己的模型上,是非常常见的踩坑方式。因为不同模型支持的参数和取值范围完全不同。
以最常见的几个参数为例:
temperature(控制随机性):Claude 系列的范围是 0 到 1.0,GPT 系列是 0 到 2.0,Gemini 系列也是 0 到 2.0。把 GPT 的 temperature 1.5 直接搬到 Claude 上就超出范围了。
top_p(控制采样范围):三个系列都是 0 到 1.0。
top_k:Claude 支持,Gemini 支持(1 到 100),GPT 不支持。
presence_penalty 和 frequency_penalty(重复惩罚):GPT 和 Gemini 支持,范围是 -2.0 到 2.0。Claude 不支持这两个参数,设了就可能报错或者表现异常。
特别注意 Claude 的思考模式(Thinking / Extended Thinking):在这个模式下 temperature 必须是 1 不能改,top_k 不能设置,top_p 建议保持默认不要动。思考模式下乱改参数是空回和报错的高发原因。
如果你不确定怎么设置,保持默认就是最好的选择。默认参数是模型厂商调优过的,绝大部分场景下表现都不差。
九、空回与回复中断
用着用着突然 AI 不回了,或者回复到一半停了,很多人第一反应是"API 挂了"。
但大部分情况下,这是模型自身安全机制触发了。所有主流模型——Claude、GPT、Gemini——都有内容安全审查。当模型判断对话内容触及了它的安全策略,它可能会返回空内容、回复到一半突然停止、或者给一段拒绝回复的说明。
这是模型层面的行为。API 中转做的事情是把请求原样送过去、把回复原样送回来,中间不做任何修改,也没有能力干预模型内部的审查逻辑。
遇到空回的时候,看看自己的对话内容和预设,大概率能找到原因。
十、预设:过去好用不等于现在好用
模型在不断更新。三个月前甚至一个月前好用的预设,现在可能已经不适配了。
原因很简单:模型版本更新了,对 prompt 的理解方式变了。安全策略调整了,之前能过的写法现在过不了了。模型能力提升了,之前需要复杂引导的内容现在简单说就行。
不要把别人分享的预设当作一成不变的宝贝。预设是需要跟着模型版本不断调整的。一个半年前写的预设放到今天的模型上效果不好,太正常了。
觉得预设效果不对,先看看它是什么时候写的、针对哪个模型写的。去对应工具的社区找找有没有更新的版本,比自己死磕要高效得多。
十一、多轮对话质量
一开始聊得好好的,聊着聊着 AI 就开始犯傻、重复、跑偏。这种情况很常见,原因通常有几个。
第一,上下文越来越长,AI 对早期内容的记忆随着长度增加而模糊。
第二,上下文污染。对话过程中如果出现了质量不高的回复而你没有删掉或者重新生成,这些内容会一直留在历史记录里。AI 下一轮读到这些就会被带偏。坏的回复就像往汤锅里扔了一块臭豆腐,后面怎么加料都有那个味。
第三,预设和 prompt 里的问题被放大。开始的时候可能看不出来,但随着对话深入内容变复杂,问题就慢慢暴露了。
对话中出现不满意的回复,及时删掉或重新生成,不要将就。对话太长了就果断开新的。不要指望一个对话窗口用到天荒地老。
十二、用 AI 来解决 AI 的问题
当你遇到报错、空回、回复异常这类问题,不用自己硬猜原因。你手上就有一个现成的排查工具——AI 本身。
做法很简单。新开一个对话,或者打开一个方便操作的工具比如 ChatBox 网页版,随便找一个能正常对话的模型,把你遇到的问题丢给它让它帮你分析。
报错信息可以截图发过去,有日志直接贴上去更好。预设内容也可以贴给它看,让它帮你检查有没有写法上的问题、有没有过时的用法、有没有和当前模型不兼容的地方。关键词和 prompt 的优化也是一样的道理,与其自己一遍遍试不如让 AI 帮你迭代。
不过想让 AI 有效帮你排查问题,你给它的信息要尽量清晰完整。含含糊糊说一句"不好用了",AI 也帮不了你。
一个比较好的提问结构:
先说你遇到了什么问题,是报错、空回、回复质量下降还是别的什么,尽量具体。然后说你做了什么操作,用的什么模型、什么客户端、参数怎么设的、预设是什么内容。再说你期望的结果是什么,你希望 AI 怎么回复、达到什么效果。最后说实际结果是什么,AI 给了你什么回复、和你预期的差距在哪里,有报错信息或截图就一并贴上。
把这些信息给全了,AI 基本上能帮你快速定位到问题——是参数超范围了、预设写法有问题、上下文太长了、还是触发了安全机制。
用 AI 来 debug AI,你手上的工具比你想象的能干。
十三、写在最后
AI 是工具,不是万能的。
每个模型都有自己的能力边界和限制。官方宣传的数据是理论上限,不是每一次使用都能达到的水准。这就像汽车厂商标的百公里油耗 5L,你在市区堵车开出 8L 甚至 10L,不是车坏了,是实际使用和理想条件本来就不一样。
用好 AI 是需要学习的。理解这些基础的机制和常识,使用体验会好很多。不理解的话,换什么模型换什么平台,该踩的坑一个都不会少。
希望这篇内容对你有帮助。