
2026年3月31日,发现
Anthropic的Claude Code CLI工具通过source map文件暴露了完整源代码。这一发现迅速引发技术社区关注。

本次泄露的核心价值不在于代码本身,
Claude Code作为客户端工具,其大部分逻辑本就可通过反编译获取,而在于它完整暴露了Anthropic的安全控制架构、提示词工程策略以及权限边界设计。对于安全研究人员而言,这是一份难得一见的商业级AI Agent安全实现参考样本。


泄露的源码并非原始开发仓库,而是基于已发布包中的cli.js与cli.js.map进行反推恢复。这种恢复方式在技术上具有以下特点:
ounter(line
原始产物 → Source Map解析 → TypeScript源码重构 → 工程化还原恢复后的代码库呈现典型的分层架构:
层级 | 核心模块 | 功能定位 |
|---|---|---|
入口层 | src/entrypoints/, src/bootstrap/ | 启动分流、全局状态初始化 |
交互层 | src/components/, src/ink/, src/screens/ | 终端UI渲染、事件处理 |
业务层 | src/services/, src/tools/, src/tasks/ | API调用、工具实现、任务执行 |
基础设施 | src/utils/, src/constants/, src/state/ | 配置管理、权限控制、状态容器 |
泄露代码中最受关注的安全控制点位于src/constants/cyberRiskInstruction.ts。该文件定义了一个系统级指令常量,被注入到所有对话模式的系统提示词中。
原始指令内容(泄露版本):
ounter(line
export const CYBER_RISK_INSTRUCTION = `IMPORTANT: Assist with authorized security testing, defensive security, CTF challenges, and educational contexts. Refuse requests for destructive techniques, DoS attacks, mass targeting, supply chain compromise, or detection evasion for malicious purposes. Dual-use security tools (C2 frameworks, credential testing, exploit development) require clear authorization context: pentesting engagements, CTF competitions, security research, or defensive use cases.`该指令在src/constants/prompts.ts中被注入到两个关键位置:
getSimpleIntroSection()函数(第182行)Claude Code的安全架构并非单一依赖提示词控制,而是采用多层防御:
┌─────────────────────────────────────────────────────────────┐
│ Layer 1: 系统提示词控制 (System Prompt) │
│ - CYBER_RISK_INSTRUCTION (网络安全限制) │
│ - URL生成限制、提示词注入检测、OWASP防护 │
├─────────────────────────────────────────────────────────────┤
│ Layer 2: 权限系统 (Permission System) │
│ - 危险命令模式匹配 │
│ - 权限检查流程 │
│ - 自动模式分类器 (yoloClassifier) │
├─────────────────────────────────────────────────────────────┤
│ Layer 3: 工具级安全检查 (Tool-Level Security) │
│ - PowerShell AST安全分析 │
│ - Bash破坏性命令警告 │
│ - 沙箱文件系统隔离 │
├─────────────────────────────────────────────────────────────┤
│ Layer 4: 输入清理 (Input Sanitization) │
│ - Unicode隐藏字符攻击防护 │
└─────────────────────────────────────────────────────────────┘权限控制核心位于src/utils/permissions/目录:
模块 | 功能 |
|---|---|
dangerousPatterns.ts | 定义危险命令的正则匹配模式 |
permissions.ts | 权限检查主流程 |
yoloClassifier.ts | 自动模式ML分类器 |
权限级别枚举:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
enum PermissionLevel {
ALWAYS_ALLOW = "always_allow", // 持久化授权
ALLOW_ONCE = "allow_once", // 单次授权
DENY = "deny", // 拒绝
ASK = "ask" // 需要用户确认(默认)
}GitHub仓库Ta0ing/claude-code_evil展示了如何通过最小化修改绕过提示词级安全控制。
项目地址:https://github.com/Ta0ing/claude-code_evil
文件:src/constants/cyberRiskInstruction.ts
修改前:
ounter(line
export const CYBER_RISK_INSTRUCTION = `IMPORTANT: Assist with authorized security testing...`修改后:
ounter(line
export const CYBER_RISK_INSTRUCTION = ``修改仅移除了提示词层面的安全边界,其他安全机制仍然生效:
安全机制 | 状态 | 说明 |
|---|---|---|
URL生成限制 | ✅ 生效 | prompts.ts第183行 |
提示词注入检测 | ✅ 生效 | prompts.ts第191行 |
OWASP安全漏洞防护 | ✅ 生效 | prompts.ts第234行 |
敏感操作确认 | ✅ 生效 | prompts.ts第255-266行 |
危险命令模式匹配 | ✅ 生效 | dangerousPatterns.ts |
Bash/PowerShell安全分析 | ✅ 生效 | 工具级检查 |
沙箱隔离 | ✅ 生效 | sandbox-adapter.ts |
本文分享自 Ms08067安全实验室 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!