首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 对比claude code等编程cli工具与deepseek v4的适配情况

    Deepseekv4发布了一个多星期了,我们来梳理、对比一下市面上主流的agentic编程工具与Deepseekv4的适配情况。 各家对比1.1ClaudeCode要在ClaudeCode中使用deepseekv4,你有两种接入方法。 方法1:通过ClaudeCode环境变量传入deepseekv4的api-key和baseUrl信息,这是deepseek官方的推荐方法。 1.5deepseek-tui这是2026.5.2号的新开源项目,根据描述,这个编程工具是专门为deepseekv4模型而准备。类型Geminicli专用于谷歌的gemini模型那样的。 总结综上所述,如果你已经安装了ClaudeCode,你可以通过deepseek官方的指导方法来使用deepseekv4模型。

    1.1K10编辑于 2026-05-06
  • 来自专栏大模型系列

    打造你的百万上下文AI智能体:OpenClaw深度集成DeepSeek V4全攻略—— 解锁 DeepSeek-V4 的百万上下文与 MoE 架构

    本文将为您提供一份从零开始、深入浅出的完整指南,详细阐述如何将OpenClaw与DeepSeekV4进行无缝集成。 DeepSeekV4是什么?根据官方于2026年4月24日发布的公告,DeepSeekV4是深度求索(DeepSeek)推出的全新一代大语言模型。 我们将通过修改此文件来添加DeepSeekV4作为新的模型提供商。 我们将其设置为我们想要的DeepSeekV4模型。 观察响应:如果一切配置正确,您将收到来自DeepSeekV4的回复,并且它会自豪地告诉您它支持1,000,000tokens的上下文。

    2.8K51编辑于 2026-04-24
  • 来自专栏百科知识

    DeepSeek V4发布,改写全球AI规则,产业链全线爆发

    DeepSeekV4发布,改写全球AI规则,产业链全线爆发摘要DeepSeekV4正式发布,携mHC架构与Engram条件记忆两大底层创新,实现百万Token上下文、算力利用率85%、推理成本降90%的核心突破 正文一、AI格局重塑:DeepSeekV4发布,凭什么改写全球规则?2026年春节前后,AI圈迎来里程碑式事件——DeepSeekV4正式登场。 一句话总结:别人靠堆芯片拼性能,DeepSeekV4靠算法优化挖潜力,这正是它能改写全球AI规则的核心底气。 四、投资主线:五大方向最受益,把握产业链爆发机遇DeepSeekV4引发的产业变革,背后暗藏着巨大的投资机遇。 5.大模型生态与合作方核心逻辑:DeepSeekV4将持续完善开源生态,开发者数量将快速增长。

    6.6K50编辑于 2026-02-12
  • 抛弃CUDA生态,万亿参数全栈国产化——拆解DeepSeek V4的「飞行换引擎」

    抛弃CUDA生态,万亿参数全栈国产化——拆解DeepSeekV4的「飞行换引擎」大家好,我是摘星,今天我们来拆解一下DeepSeekV4把万亿参数大模型从英伟达CUDA全面迁移到华为昇腾这件事。 二、DeepSeekV4架构全解析:万亿参数只激活3%在深入迁移细节之前,先搞清楚DeepSeekV4本身的技术架构。这个模型的参数规模约1万亿,但每次推理只激活大约370亿参数——不到总量的4%。 DeepSeekV4最引人注目的不是模型本身,而是它完成了从CUDA到CANN的全面迁移。 CANN从2021年推出到DeepSeekV4完成迁移,只用了5年。 四、DeepSeekV4实战:从API调用到本地部署理解了架构和迁移背景,来看看怎么实际使用DeepSeekV4

    1.4K130编辑于 2026-04-24
  • 来自专栏大模型系列

    解密 DeepSeek V4:双轴稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    DeepSeekV4的发布并非孤立事件,而是深度求索长期技术积累的必然结果。 2.3混合注意力机制详解DeepSeekV4的混合注意力机制是其长上下文能力的核心支撑。 2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。 这是DeepSeekV4训练效率的关键保障。通过这三种并行策略的有机结合,DeepSeekV4成功在数千个GPU上实现了高效的分布式训练,训练时间相比传统方法缩短了数倍。 结论DeepSeekV4的发布标志着国产大模型进入了一个新的发展阶段。

    18620编辑于 2026-05-16
  • BUG Report: DeepSeek V4 思考模式与工具调用兼容性问题

    一、问题描述使用WorkBuddy连接DeepSeekV4系列模型(deepseek-v4-pro/deepseek-v4-flash)时,当AI响应涉及工具调用(tool_calls),WorkBuddy 后续轮次立即报错错误码:HTTP400BadRequest不涉及工具调用的纯文本对话不受影响旧模型deepseek-chat/deepseek-reasoner可正常工作(但即将下线)二、根本原因分析DeepSeekV4 的思考模式(reasoningmode)引入了一个新的协议约束:DeepSeekV4协议要求当模型响应包含tool_calls时,reasoning_content字段必须在后续所有API请求中完整回传 该字段在第二轮请求时丢失,触发了DeepSeekV4的400校验失败。 关键点:这不是用户配置问题,而是WorkBuddy客户端尚未完成对DeepSeekV4新协议(reasoning_content回传机制)的适配。

    3.4K10编辑于 2026-04-26
  • 来自专栏大模型系列

    国产大模型杀疯了!DeepSeek V4 开源 1.6 万亿 MoE,推理成本仅 GPT-4 的 1/70

    更令人震撼的是,DeepSeekV4完全采用MIT协议开源,允许免费商用,且训练与推理全流程100%运行于国产算力(如华为昇腾),彻底摆脱对英伟达CUDA生态的依赖。 第一章:DeepSeekV4发布全景图——不止是参数堆砌1.1双子星战略:Pro与Flash并行出击DeepSeekV4并非单一模型,而是采用“高低搭配”策略,一次性推出两款MoE模型:模型总参数量激活参数量预训练数据上下文长度定位 正如HuggingFace联合创始人ClemDelangue所言:“DeepSeekV4可能是目前最开放的万亿级MoE模型。” 2.2双轴稀疏架构:DeepSeekV4的独门绝技DeepSeekV4在传统MoE基础上,创新性地提出“双轴稀疏”(Two-AxisSparsity):(1)专家轴稀疏(ExpertSparsity)动态路由 在评论区告诉我们:你会用DeepSeekV4做什么?点赞、收藏、分享,一起推动中国AI走向世界!

    27820编辑于 2026-05-16
  • 来自专栏大模型系列

    全栈国产化:DeepSeek V4与国产AI基础设施深度集成——中国AI产业的历史性突围

    第二章:DeepSeekV4——架构革新与极致成本控制的典范DeepSeekV4的成功,首先源于其自身卓越的技术实力。它并非简单的参数堆砌,而是在模型架构、长文本处理和成本控制上实现了革命性的突破。 第三章:昇腾950PR——国产AI芯片的“核武级”跃迁如果说DeepSeekV4是这场突围战的先锋,那么华为昇腾950PR芯片就是为其提供强大火力的“核武器”。 这为DeepSeekV4等前沿大模型提供了强大的“国家力量”级算力底座。 6.2开源与自主可控的辩证统一DeepSeekV4的成功,也证明了开源与自主可控并非对立。 未来,随着更多像DeepSeekV4这样的创新涌现,中国AI必将在全球舞台上扮演更加重要的角色,引领新一轮的技术革命与产业变革。

    21520编辑于 2026-05-15
  • 来自专栏设计模式

    教你 3 分钟搭建 AI 智能体到微信小程序(无需编码)

    输入:“帮我生成AI写作工具文案,特点:1000个模版,拿来就用,内置DeepSeekV4模型。” 1000套现成写作模版+DeepSeekV4模型=写作自由 谁还在为写不出东西秃头啊! 我直接把这个AI写作工具焊在电脑上了! 直到我遇见这款内置DeepSeekV4模型的AI写作工具,才发现写作原来可以不用这么痛苦。 ### DeepSeekV4加持:AI写作不再是「生硬的机器文本」 很多人对AI写作的印象还停留在「语句不通、逻辑混乱」,但这款工具内置的DeepSeekV4大模型,彻底改变了我的看法。 **智能内容生成**:内置DeepSeekV4大模型,根据你的需求生成高质量原创内容,支持自定义文风、字数、侧重点 3.

    58410编辑于 2026-04-30
  • 来自专栏低代码平台

    Claude Code + DeepSeek V4 唯一的遗憾要被补齐了:多模态识图灰度上线

    JeecgBootAI专题研究|用DeepSeekV4几乎完美替代Claude,唯一卡点就是不收图——这块短板马上要补上一句话先说结论DeepSeekV4系列上线一周多,密集跑下来,ClaudeCode 这一周用下来:DeepSeekV4真的能替代Claude我之前写过一篇ClaudeCode+DeepSeekV4-Pro真实评测,结论是"除了贵,没别的毛病"。 ④成本:日常开销降到1/5Opus4.6输入价15/百万tokens,DeepSeekV4−Pro是¥4/百万tokens左右(折合不到15/百万tokens,DeepSeekV4-Pro是¥4/百万tokens 左右(折合不到15/百万tokens,DeepSeekV4−Pro是¥4/百万tokens左右(折合不到0.6),输入端便宜25倍以上。 那个让人坐立不安的"唯一短板":DeepSeekV4不收图舒服归舒服,但只要任务一旦涉及"看一眼这张图给点意见",DeepSeek就立刻举手投降。

    1.6K20编辑于 2026-04-30
  • 来自专栏大模型系列

    容器化部署:DeepSeek V4 Docker与K8s集成方案

    DeepSeekV4,特别是其V4-Pro(1.6T参数)和V4-Flash(284B参数)版本,代表了当前开源大模型的顶尖水平。 本方案将以vLLM作为核心推理引擎,因其对MoE模型和长上下文场景的卓越优化,是部署DeepSeekV4的最佳选择。 第二章:构建DeepSeekV4的高性能Docker镜像一个优秀的Dockerfile是成功部署的第一步。我们需要在镜像大小、构建速度和运行时性能之间取得平衡。 对于DeepSeekV4,推荐使用CUDA12.4或更高版本。 结语通过Docker和Kubernetes,我们将DeepSeekV4这一前沿大模型的部署复杂性,转化为一系列标准化、可重复、可自动化的云原生操作。

    11910编辑于 2026-05-15
  • DeepSeek V4 刚刚发布:API 定价、配置与最佳实践完全指南

    DeepSeekV4刚刚发布:API定价、配置与最佳实践完全指南从OpenAI迁移只需改两行代码,成本却只有1/90。 新一代模型发布DeepSeekV4正式发布并开源,带来两个版本:模型参数规模定位DeepSeek-V4-Pro1.6T总参数/49B激活参数性能对标顶级闭源模型DeepSeek-V4-Flash284B 定价详解DeepSeekV4定价模型输入(缓存命中)输入(缓存未命中)输出deepseek-v4-flash$0.028/M$0.14/M$0.28/Mdeepseek-v4-pro$0.145/M$1.74 最长、最稳定的内容放消息数组开头选择合适的模型:Flash用于大多数任务,Pro用于复杂推理设置适当的max_tokens:防止过长输出批量处理相似请求:保持缓存活跃长输出使用流式传输:改善用户体验总结DeepSeekV4

    8.4K290编辑于 2026-04-27
  • 来自专栏大模型系列

    微调实战:DeepSeek V4领域适配完全指南

    第一章:引言——为何需要微调DeepSeekV4?尽管DeepSeekV4在通用任务上表现出色,但其知识库截止于2025年12月,且训练数据主要来源于公开网络。 对于DeepSeekV4这样的MoE模型,全参微调意味着要同时优化所有专家和门控网络,对显存和带宽的要求极高。除非拥有国家级算力资源,否则不建议普通开发者尝试。 对于DeepSeekV4,社区普遍采用LoRA对其进行高效微调。 Axolotl同样支持DeepSeekV4,并能利用FlashAttention-2等技术进一步加速训练。其配置过程相对复杂,但灵活性极高,是构建生产级微调流水线的理想选择。 第六章:国产算力平台上的微调探索DeepSeekV4的发布伴随着与华为昇腾等国产芯片的深度集成。然而,微调与推理不同,对软件栈的依赖更为底层和复杂。

    19210编辑于 2026-05-15
  • 告别 GUI!这个终端里的 AI 编程助手,让我再也不想打开浏览器

    它调用DeepSeekV4的API,直接在你的命令行里帮你读文件、写文件、跑Shell、管Git——一切都不离开终端。 核心特性100万Token上下文+前缀缓存基于DeepSeekV4(deepseek-v4-pro/deepseek-v4-flash),支持1Mtoken超长上下文窗口,并充分利用DeepSeek的前缀缓存机制降低成本 客观说几点不足:模型绑定较深:虽然理论上支持OpenAI兼容格式的第三方Provider,但目前深度优化的是DeepSeekV4,换模型体验会打折扣。

    96030编辑于 2026-05-08
  • Claude月费$100?我只充了10块,3步教程

    这篇的诞生:我从小米CodingPlan的Token焦虑,到DeepSeekV4骨折价延期,果断开始使用claude桌面版。前阵子我一直用ClaudeCLI搭配小米的CodingPlan来写代码。 第一件,DeepSeekV4出来了,价格直接打骨折。而且本来官方说的是折扣只到5月5日就恢复原价——结果就今天,DeepSeek直接宣布:继续延长。 两件事一拼:ClaudeDesktop的丝滑体验+DeepSeekV4的骨折价+Cowork的全套代理能力。打通了。我二话不说直接接入,今天把整个使用过程完整拆给你看。01这件事有多香先算一笔账。 Claude官方订阅:20−20-20−100/月(Pro20⋅Max20·Max20⋅Max100)DeepSeekV4接入:¥10起,日常Cowork跑半个月而且DeepSeek服务器就在国内。 DeepSeekV4骨折价加上官方延期,基本不用再盯着Token条看了。

    59020编辑于 2026-05-01
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 普通Transformer每层hidden是:[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream:[batch,seq,hc_mult,hidden]

    14010编辑于 2026-05-09
  • 4月国内外十款新发布AI模型 参数和价格对比

    35ClaudeOpus4.7$5$25未公开与Opus4.6持平ClaudeOpus4.6$5$25未公开基准价格Gemini3.1pro未公开未公开未公开加量不加价策略关键指标:上下文长度竞争:Qwen3.6系列、DeepSeekV4 发布时间密集:4月份成为发布高峰期,DeepSeekV4、hy3-preview、GPT-5.5均在4月23-24日发布。

    1.1K00编辑于 2026-04-26
  • 来自专栏热度文章

    别卷了,DeepSeek V4 来交卷了

    别卷了,DeepSeekV4来交卷了最近这一周,我的状态基本上就是:早上起来装一个模型,中午吃饭测一个模型,晚上睡觉前又发一个模型。昨天最离谱。 我寻思这下总能睡了吧,结果今天早上闹钟还没响,DeepSeekV4的发布公告直接把我炸醒了。我现在打开GitHub的姿势,你感受一下:这波模型大战的密度,我已经记不清上一次是什么时候了。 DeepSeekV4最拿得出手的是SimpleQA这类知识型测试,跟Gemini3.1Pro咬得很紧,在开源圈属于断档领先。其他几项就比较中规中矩,第一梯队是稳的,但没有拉开明显差距。 DeepSeekV4目前排第三,压在前面的是GLM-5.1和还没完全开源的MiMo。这个榜单变化很快,今天你是第三,明天可能就第五了,且看且珍惜。Agent能力那一栏我多看了两眼。

    35331编辑于 2026-04-24
  • 来自专栏AI资讯

    肝了5小时搞定俩项目,一看账单惊了:DeepSeekv4 只收了2块钱?!

    肝了5小时搞定俩项目,一看账单惊了:DeepSeekv4只收了2块钱?!导语:昨晚灵感爆棚,从晚上9点一口气肝到凌晨2点。5个小时,我靠AI手搓了两个结构完全不同的小程序项目。

    25800编辑于 2026-05-02
  • 来自专栏大模型系列

    万亿参数震撼发布:DeepSeek V4 MoE架构深度解析

    当行业深陷“ScalingLaw”(规模定律)的思维定式,认为“更大即更好”时,DeepSeekV4选择了一条截然不同的道路:智能的提升不应仅依赖于算力的蛮力投入,而应源于对模型内部工作机制的深刻理解和精妙重构 四、国产算力适配:一场“去CUDA化”的里程碑DeepSeekV4的另一大历史性意义在于其全栈国产化适配。 据阿里云透露,其已预订数十万片昇腾910B芯片,专门用于支撑DeepSeekV4模型的推理计算需求。这不仅是技术上的成功,更是商业生态上的重大胜利。 七、总结:开启大模型新纪元DeepSeekV4的发布,不仅仅是参数数字的突破,更是一次技术范式的跃迁。 DeepSeekV4的出现,清晰地宣告:大模型的竞争,已经从单纯的“军备竞赛”,进入了“精耕细作、效率为王”的新时代。这场由DeepSeek引领的静默革命,正在重塑全球AI格局。

    36730编辑于 2026-05-14
领券