➡️【好看的皮囊千篇一律,有趣的鲲志一百六七!】- 欢迎认识我~~ 作者:鲲志说 (公众号、B站同名,视频号:鲲志说996) 科技博主:全网【鲲志说】 全栈研发:java、go、ts,前电商、现web3 博主:多平台博客专家,IFClub星珩联盟智库星系专家 AI爱好者:脉脉AI领域创作者、阿里蚂蚁校友会技术AI分会副秘书长 社区Builder:杭州AI工坊联创;COC杭州开发者社区 、周周黑客松杭州主理人
模型、Token、上下文、API Key、Base URL、CC Switch……这些词你听过但没搞懂?读完这篇,你就能和任何AI编程老手平等对话了。
上篇文章发出后,后台收到一堆问题:
“鲲志,你说DeepSeek性价比高,但我想知道它和GPT-5.6在写具体某种代码时到底差多少?” “Token到底是什么?1M token能写多少行代码?” “我在编辑器里配了API Key,为什么还是报错‘401’?” “CC Switch我下载了,但开了之后Claude Code还是不能用啊?”
这些问题暴露了一个共同点:大家对AI编程的底层概念还停留在“模模糊糊”的阶段。
所以我决定写这篇“终极扫盲”——把每个概念用你听得懂的方式讲清楚。
这篇文章我会尽力做到:
文章很长,建议先收藏,分块阅读。

在聊具体模型之前,必须先搞清楚几个基础概念。它们就像编程里的“变量”和“函数”,不懂就看不懂代码。
Token是什么?
Token是AI模型处理文本的最小单位(中文常译为“词元”)。它不是一个字母,也不完全是一个词,而是介于两者之间的“碎片”。
直观理解:
实战换算:
内容 | 大约Token数 |
|---|---|
“Hello, how are you?” | 5 Token |
一段100字的Python函数 | 150-200 Token |
一篇1500字的公众号文章 | 2000-2500 Token |
《三体》第一部(约20万字) | 30-40万 Token |
为什么Token重要?
小技巧:用DeepSeek时,缓存命中后输入Token价格可以降到0.02元/百万——相当于你重复问同一个问题,几乎不要钱。
定义:模型一次能“看到”的最大Token数量。
类比:上下文长度就像你的短期记忆。记性好的人能一次听完整段故事然后复述,记性差的听一半就忘了开头。
为什么重要?
主流模型上下文对比(截至2026年6月):
模型 | 上下文长度 | 能装下什么 |
|---|---|---|
GPT-5.6 | 1.5M | 约3本《三体1》 |
Gemini Pro | 2M | 约4本《三体1》 |
Claude Opus | 200K | 约500页代码 |
DeepSeek V4 | 1M | 约2000页代码 |
Qwen3.7 | 128K | 约250页代码 |
⚠️ 注意:上下文长不等于“都能记住”。超过一定长度后,模型对中间内容的召回率会下降。实测中Gemini的2M上下文质量保持最好。
定义:当你把问题(输入)发给模型,模型计算并生成答案(输出)的过程。
两种模式:
编程任务中推理的重要性:
预训练(Pre-training):模型在互联网海量数据(代码、文档、论文)上“通读”,学会基本的编程语法和模式。这一步成本极高,单次训练数百万美元。
微调(Fine-tuning):在预训练基础上,用特定数据(比如高质量代码对、Bug修复记录)进一步训练,让模型更擅长编程。微调成本较低。
强化学习(RLHF):通过人类反馈让模型学会“哪种答案更好”。这一步让模型更符合人类偏好(比如代码可读性、注释规范)。
你不需要自己训练模型,但知道这些能帮你理解:为什么有的模型更懂Web3? 因为它的训练数据里Web3相关内容更多。
这可能是最乱的一堆名词。我用一个生活类比帮你彻底理清:
术语 | 类比 | 解释 |
|---|---|---|
API | 快递服务(比如顺丰) | 一套标准的调用方式,你不需要知道内部怎么运作 |
API Key | 你的寄件码 | 证明你有权限使用服务,扣费凭证 |
Base URL | 顺丰的官网地址 | API服务的根地址,比如 https://api.deepseek.com |
Endpoint | 具体的业务页面(比如“寄件”) | API的具体功能路径,比如 /v1/chat/completions |
完整调用过程:
你的代码 → Base URL + Endpoint → 完整地址 → 带上API Key → 发送请求 → 模型返回结果
举例:https://api.deepseek.com/v1/chat/completions + Header: Authorization: Bearer sk-xxx常见错误:
https://api.deepseek.com/v1)→ 编辑器会重复拼接成 /v1/v1/...
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
GPT-5.6 | 最新旗舰 | 1.5M | ⭐⭐⭐⭐⭐ |
GPT-4.1 | 上一代旗舰,性价比 | 1M | ⭐⭐⭐⭐½ |
o3 | 推理专用 | 200K | ⭐⭐⭐⭐(数学/逻辑) |
编程能力详评:
成本:GPT-5.6输出30-40/百万token,GPT-4.1输出8/百万token。
短板:长上下文(1.5M)实际表现不如Gemini;复杂Agent任务不如Claude。
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
Claude Opus 4.6 | 最强编程 | 200K | ⭐⭐⭐⭐⭐ |
Claude Sonnet 4.6 | 均衡旗舰 | 200K | ⭐⭐⭐⭐⭐ |
Claude Haiku 4.5 | 轻量快速 | 200K | ⭐⭐⭐⭐ |
编程能力详评:
成本:Opus输出约25-40/百万token,Sonnet约15。
短板:价格贵;中文代码注释偶尔有英文残留;上下文不够大(相比Gemini)。
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
Gemini 3.5 Pro | 旗舰 | 2M | ⭐⭐⭐⭐ |
Gemini 3.5 Flash | 速度性价比 | 1M | ⭐⭐⭐ |
编程能力详评:
成本:Pro输出约10/百万token,Flash约2.5。
短板:代码生成的“工程感”较弱;复杂逻辑推理不如Claude和GPT。
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
V4 Pro | 强能力 | 1M | ⭐⭐⭐⭐ |
V4 Flash | 极致性价比 | 1M | ⭐⭐⭐ |
编程能力详评:
成本:Flash输入0.67元/百万token,输出1.34元;Pro约为5倍。
短板:中文代码注释偶尔奇怪;Web3等西方生态知识更新慢;复杂推理不如Claude。
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
Qwen3.7-Max | 旗舰 | 128K | ⭐⭐⭐⭐ |
Qwen3.7-Flash | 性价比 | 128K | ⭐⭐⭐ |
编程能力详评:
成本:阿里云百炼平台,Max版本输出约¥4-8/百万token,Flash约¥0.4-1。
短板:上下文128K偏小;复杂算法不如DeepSeek Pro;Tool Calling能力弱于GPT/Gemini。
产品线:
模型 | 定位 | 上下文 | 编程能力评级 |
|---|---|---|---|
GLM-4.6 | 旗舰 | 128K | ⭐⭐⭐⭐ |
编程能力详评:
成本:约¥2-3/百万token输出。
短板:上下文128K;复杂逻辑深度不够;社区生态不如前两者。
模型 | SWE-bench (修Bug) | HumanEval (生成) | 前端UI | Go并发 | Web3 | 中文注释 | 价格指数 |
|---|---|---|---|---|---|---|---|
Claude Sonnet 4.6 | 72.7% | 90% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 100 |
GPT-5.6 | ~65% | 91% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 200 |
DeepSeek V4 Pro | 68-71% | 88% | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 15 |
Qwen3.7-Max | ~63% | 86% | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | 20 |
GLM-4.6 | ~60% | 83% | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | 5 |
Gemini Pro | ~58% | 84% | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | 30 |
价格指数:以Claude Sonnet输出价$15/百万token为100,数值越小越便宜。
你的需求 | 首选模型 | 第二选择 | 理由 |
|---|---|---|---|
日常CRUD、简单Bug | DeepSeek Flash | Qwen Flash | 便宜且够用 |
复杂算法、数据结构 | Claude Sonnet | GPT-5.6 | 推理深、代码质量高 |
前端UI开发 | GPT-5.6 | Claude Sonnet | GPT-5.6的UI生成质变 |
Go/Rust并发编程 | GPT-5.6 | DeepSeek Pro | GPT并发原语理解最好 |
Web3/DeFi/合约 | Claude/GPT | CodeX | 西方生态知识更新快 |
中文项目、国内业务 | Qwen3.7-Max | GLM-4.6 | 中文理解好、文化适配 |
超长代码库分析 | Gemini Pro | DeepSeek Pro | 2M上下文碾压 |
成本极度敏感 | DeepSeek Flash | Qwen Flash | 时均不到1元 |
私有部署、数据安全 | DeepSeek开源版 | Qwen开源版 | 可本地运行 |
这部分会详细讲“怎么配”,以及“配错了怎么查”。
模型 | 官方平台 | 注册难度 | 支付方式 |
|---|---|---|---|
DeepSeek | platform.deepseek.com | 手机号 | 微信/支付宝 |
Qwen | 阿里百炼 | 阿里账号 | 支付宝/对公 |
GLM | open.bigmodel.cn | 手机号 | 微信/支付宝 |
豆包 | 火山方舟 | 手机号 | 微信/支付宝 |
平台 | 支持模型 | 国内访问 | 支付 |
|---|---|---|---|
OpenRouter | 全系列 | 需代理 | 信用卡/支付宝 |
API2D | GPT系列 | ✅ | 支付宝 |
标准配置:
https://api.deepseek.com
https://api.atomclub.com(示例,以实际为准)
/v1
deepseek-v4-flash、gpt-4.1
sk-xxx 或 tp-xxx
测试配置是否正确:
在编辑器的聊天框输入 Hello,看是否能正常回复。如果报错,看错误信息:
错误 | 原因 | 解决 |
|---|---|---|
401 Unauthorized | API Key错误或过期 | 重新复制Key,检查空格 |
404 Not Found | Base URL或模型名错误 | 检查URL末尾有无/v1,模型名是否正确 |
402 Payment Required | 余额不足 | 充值 |
429 Too Many Requests | 请求频率超限 | 慢一点,或升级套餐 |
Connection Error | 网络不通 | 检查是否需要代理(国产模型不需要) |
模式 | 说明 | 适合人群 |
|---|---|---|
按量付费 | 用多少Token扣多少钱 | 所有用户,最公平 |
月费订阅 | 固定费用包一定量Token | 轻度用户(如Cursor Pro) |
Token套餐 | 预购Token包,有效期30-90天 | 中等强度,比按量略便宜 |
企业合同 | 谈好价格后开票 | 团队使用 |
关键概念:输入 vs 输出
缓存命中:
如果连续对话中,某段输入内容完全重复(比如系统prompt),模型会直接复用之前的计算结果,大幅降价。DeepSeek将缓存命中的输入价格降至0.02元/百万token,便宜30倍。
建议:写长prompt时,把固定指令放在system消息里,重复利用率高。
很多人把CC Switch和网络代理搞混。这里深入讲清楚。
全称:Claude Code Switch
性质:开源桌面应用(Windows/macOS/Linux)
核心功能:统一管理多个AI编程CLI工具的配置,并提供本地代理做故障转移和日志记录。
传统方式:
[Claude Code] → 读取 ~/.claude/config.json (写死了一个API Key)
[Codex] → 读取 ~/.codex/config.toml (另一个配置)
CC Switch方式:
[CC Switch] → 存储所有供应商配置(多个API Key + Base URL)
↓ 启动本地HTTP代理(例如 localhost:8080)
[Claude Code] → 将请求发送到 localhost:8080/v1/...
[Codex] → 也发送到 localhost:8080/v1/...
↓
[CC Switch] → 根据当前选中的供应商,转发请求到真实API,并记录日志关键点:
功能 | 说明 | 例子 |
|---|---|---|
多供应商管理 | 存储多个API Key和Base URL | DeepSeek、GPT、Claude各一个 |
一键切换 | 更改当前激活的供应商 | 从DeepSeek切到GPT,所有CLI工具立刻生效 |
故障转移 | 主供应商返回错误时自动切备用 | Claude挂了自动用GPT |
请求日志 | 记录每次请求的输入输出Token、耗时 | 查看哪个模型最贵 |
本地代理 | 提供统一入口,无需修改CLI配置 | CLI的base URL统一设为http://localhost:8080 |
你需要CC Switch当且仅当:
你不需要CC Switch:
常见误解澄清:
“我装了CC Switch,为什么还是无法在国内调用Claude?”
因为CC Switch不是网络代理。你的请求经过CC Switch后,最终还是要发到Claude官方API(api.anthropic.com),而这个域名在国内无法直接访问。你需要配合中转平台或者自建代理才能用。CC Switch只能管理配置,不能翻墙。
很多人把CC Switch和OneAPI、APICat这类“API网关”混淆。
维度 | CC Switch | API网关(如OneAPI) |
|---|---|---|
部署位置 | 本地桌面 | 服务器(可云端) |
主要用途 | 管理CLI工具配置 | 统一分发、负载均衡、多用户配额 |
转发对象 | 请求到本地代理 | 请求到上游API |
多用户 | 单用户 | 多用户/团队 |
典型场景 | 个人开发者换模型 | 团队共享额度、开箱即用 |
简单说:CC Switch是给“你的电脑”用的,API网关是给“你们的服务器”用的。
OpenAI、Anthropic、Google的AI服务,官方API禁止来自中国大陆IP的请求。这不是某个“墙”的问题,而是这些公司主动在服务器端做了IP过滤。
可能的原因:
方案 | 原理 | 难度 | 成本 | 稳定性 | 适合人群 |
|---|---|---|---|---|---|
合规中转平台 | 平台在海外部署代理,提供国内入口 | ⭐ | 中等 | 高 | 绝大多数开发者 |
自建代理(境外服务器) | 租一台海外VPS,装Nginx/Cloudflare转发 | ⭐⭐⭐ | 低(用量大时) | 取决于服务器 | 技术爱好者 |
使用国内模型 | 直接调用DeepSeek/Qwen/GLM | ⭐ | 很低 | 高 | 非西方生态项目 |
VPN + 官方API | 全局代理后再调用 | ⭐⭐ | 中等 | 低(VPN易断) | 临时用 |
你的电脑(国内IP)
↓ 请求(带有API Key)
中转平台国内入口(例如 api.atomclub.com)
↓ 内部转发
中转平台海外节点
↓ 请求官方API(海外IP)
OpenAI/Claude/Gemini 官方API
↓ 返回结果
原路返回中转平台的优势:
需要注意:
推荐平台:
为什么国内模型在处理Web3、最新框架时不如国际模型?
原因 | 解释 |
|---|---|
训练数据分布 | 国内模型训练数据更多来自中文网站、国内技术社区,西方技术生态(英文博客、GitHub、Stack Overflow)比例较低 |
更新频率 | 国际模型几乎每月升级,MetaMask这类小工具的变化可能很快被纳入训练;国内模型更新周期较长 |
微调方向 | 国产模型更注重大规模商业化部署、中文场景优化,而非追逐小众开源项目 |
这不是贬低国产模型——事实上在日常CRUD、国内业务逻辑上,国产模型完全不输甚至更强。只是在特定赛道(Web3、最新技术预览)有差距。
我的策略:日常用DeepSeek省钱,Web3/新东西用CodeX或GPT。
目标:花20块钱,跑通AI编程,解决日常任务。
预算分析:20元 ≈ 高强度使用40-50小时(按我的实测)。一个中等项目开发周期足够。
遇到国产模型解决不了的问题时(比如Web3),再考虑:
技巧 | 说明 | 节省幅度 |
|---|---|---|
优先用Flash | DeepSeek Flash比Pro便宜5倍 | 80% |
利用缓存 | 长对话中复用system prompt | 30-50% |
精简上下文 | 只发送必要的代码,别全贴 | 20-40% |
设置月度限额 | 在控制台设置预警 | 避免超支 |
组合使用 | 简单任务用Flash,复杂任务用Pro | 综合节省60% |
遇到问题按顺序检查:
API Key是否正确?重新复制,注意空格
Base URL是否正确?不要加/v1,检查末尾斜杠
模型名是否正确?去平台文档确认
余额是否充足?登录控制台查看
网络是否通?国内模型用curl测试:
curl -X POST https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer sk-xxx" \
-H "Content-Type: application/json" \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"ping"}]}'国际模型是否通过中转?不要直接调用官方API

这篇扫盲篇写了近万字,但核心就一句话:
了解模型的能力边界,根据自己的场景组合使用,把成本控制在合理范围。
我不希望你成为一个“只会用Claude的土豪”,也不希望你成为一个“为省几毛钱死磕免费模型的守财奴”。
平衡点在哪里?
这个预算,能让你无焦虑地高强度开发,遇到任何问题都有备用方案。
如果你读完这篇文章还有疑问,欢迎留言。