首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 无奈,在使用时候deepseek总是提示服务器繁忙,请稍后再试。本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 引发伦理监管讨论:国际社会对AI伦理问题关注度提升,数据安全、隐私保护和内容监管等问题成为焦点,促使各国制定更严格的AI模型监管政策。 GeForce RTX 4070Ti可以运行模型deepseek-r1的哪个版本的模型? 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.3K33编辑于 2025-02-06
  • 来自专栏编程教程

    DeepSeek使用终极指南:解锁国产模型的隐藏实力

    引言 在人工智能领域,DeepSeek作为国产语言模型的佼佼者,正在改变人机交互的方式。它不仅支持文本、代码、文件解析等多种交互形式,更在数学、编码、逻辑推理等任务中展现出超越GPT的惊艳表现。 本文将从基础操作到进阶技巧,系统揭秘DeepSeek的高效使用秘籍,助您快速成为AI交互高手。 一、认识DeepSeek国产模型的逆袭 1.1 技术底座解析 多模态支持:能同时处理文本、代码、表格、图像(识别文字内容) 中文优化:针对中文语境训练,在中文任务中表现显著优于国际模型 编码神器:官方宣称编码任务成功率达 ds = deepseek.API(api_key="your_key") for file in excel_files: response = ds.query(f"分析{file}中的销售趋势 作为国产模型的代表,正在以惊人的速度迭代进化。

    48610编辑于 2025-08-28
  • 来自专栏人工智能

    DeepSeek杀疯了!国产AI模型如何重构未来技术版图?

    这一案例不仅展示了DeepSeek的技术实力,也证明了其在推动技术普及方面的巨大潜力。二、技术解析:DeepSeek的三杀手锏1. 智能涌现:MoE架构的魔力DeepSeek采用了一种创新的混合专家模型(MoE)架构,将模型拆分成多个“专家”,训练时分工协作,推理时按需调用。 通过模型蒸馏实现的轻量化奇迹DeepSeek的蒸馏技术将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型到小型高效模型的知识迁移。这种结合方式不仅提升了模型的性能,还显著降低了计算成本。 模型通过实时学习用户反馈数据,实现了“边服务边进化”的闭环3. 多模态觉醒:当视觉语言模型遇上产业互联网DeepSeek的多模态能力使其在医疗、金融等领域展现出了强大的应用潜力。 案例:深圳宝妈用DeepSeek制作「幼儿园晨检系统」,将家长需求转为技术文档,外包给大学生开发者,赚取35%差价四、未来已来:DeepSeek引领的三技术趋势1.

    45810编辑于 2025-02-15
  • 来自专栏大模型系列

    DeepSeek是什么?一文看懂国产开源模型 DeepSeek 的功能、特点与使用方法

    一句话总结:DeepSeek 是由中国初创公司“深度求索”开发的一系列完全开源、免费商用的语言模型,以 DeepSeek-Coder(代码模型) 起家,现已扩展至 MoE 架构、多模态与智能体领域,目标是成为 :性能超越 CodeLlama-34B 的开源代码模型DeepSeek-MoE:以稀疏激活实现“小成本、性能”的混合专家模型DeepSeek-VL:支持图文理解的多模态模型。 1.2 战略定力:不做“全能选手”,只做“单项冠军” 2023 年初,当市场狂热追逐千亿参数通用模型时,DeepSeek 团队冷静指出两大问题: 同质化严重:多数国产模型仅是在 LLaMA 上微调中文语料 从 V3 的效率革命,到 DualPath 的智能体加速,再到 V4 的架构前瞻,DeepSeek 正在证明:中国不仅能做出好用的模型,更能定义下一代 AI 的基础设施标准。 延伸阅读「模型系列」专栏深入 Transformer、MoE、RAG、Agent 等核心技术,专注可复现的硬核干货。 点击进入专栏

    4K40编辑于 2026-03-27
  • 来自专栏量子位

    国产模型已无公司可投

    纵向对比,相继奔赴模型创业的公司太多了。据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产模型数量已超百家。 毕竟拉起队伍后,模型商业模式不明确,盈利点不清晰,许多创业项目还停留在概念验证阶段。 到训出模型、拿出真产品,甚至赶上GPT-3.5,赛道上的国内选手们要走的路还挺长。 部分投资人干脆放弃看模型项目,转向infra层面看芯片、看硬件的老路。 等年底他们发布模型,试过深浅再说。 8个月前,ChatGPT一石激起千层浪;6个月前,国内的模型赛道开始备受瞩目,热度逐渐如日中天。 到现在,想走模型路线通向AGI的人依旧络绎不绝。 大火热炒半年,模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,模型创投界渐渐迎来了第一波冷静期。

    33910编辑于 2023-09-08
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B

    3.4K12编辑于 2025-01-26
  • 来自专栏服务端技术杂谈

    特斯拉将搭载豆包模型DeepSeek模型

    8月22日,字节跳动方面发布消息称,特斯拉与火山引擎已于近日达成合作,在国内,火山引擎将为特斯拉提供模型服务,助力特斯拉智能座舱交互体验升级。 全新上市的特斯拉Model Y L车型将搭载豆包模型DeepSeek模型,两款模型均通过火山引擎接入。 其中,豆包模型将承担语音命令功能,如导航设定、媒体播放操控、空调温度调节等,同时,还具备车主手册查询功能;DeepSeek模型则提供AI语音闲聊服务 。

    19010编辑于 2026-03-11
  • 来自专栏算法一只狗

    国产模型如何追上OpenAI

    目前看,算力其实不是一个比较大的瓶颈,数据的有效性才是模型能力提升的关键。比如最近的deepseek V3一发布,大家就发现其实能够用很低的成本就能够训练出一个媲美GPT-4o的模型。 用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。 目前看,算力其实不是一个比较大的瓶颈,数据的有效性才是模型能力提升的关键。比如最近的deepseek V3一发布,大家就发现其实能够用很低的成本就能够训练出一个媲美GPT-4o的模型。 比起动辄几百亿人民币都训练不出来一个好用的模型DeepSeek V3的训练简直颠覆了大家的想象。 这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。为什么会这么省钱?DeepSeek V3除了使用了FP8之外,还有一些其他的模型细节。

    33720编辑于 2025-01-06
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约

    2.7K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI模型DeepSeek

    这一系列令人咋舌的事件,让DeepSeek这个名字,瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的语言模型的名称。 DeepSeek的核心产品,是一系列强大的语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 本地运行,让用户可在本地设备上运行大型语言模型,无需网络连接也能使用部分功能。 官方网址: https://ollama.com/ 快速上手使用语言模型。 2、搜索并安装DeepSeek模型。 搜索语言模型: https://ollama.com/search 可以看到DeepSeek-R1。

    76610编辑于 2025-02-10
  • 来自专栏数据小冰

    Claude Code接入国产模型

    前言 本文介绍在macOS环境中搭建Claude Code接入国产模型的详细步骤。 配置MiniMax国产模型 访问MINIMAX官网,注册并登录账号,申请API key。 登录Claude Code 配置上述连接地址后,在终端执行 claude login,即可成功连接上模型。 通过 claude -p 指令进行问答快速验证效果,参数-p表示不要进入交互式会话。 让它简要介绍下模型,测试效果如下。

    1.2K10编辑于 2026-03-04
  • 来自专栏大模型成长之路

    模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在模型的学习过程中基于RAG技术将本地知识库与模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 promptmessages = [ {"role": "user", "content": f"""请根据以下参考内容回答问题: {retrieved} 问题:{query}"""}]4️⃣ 模型部署 mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的模型问答系统:搭建知识库后:模型输出写在最后:✅ 本项目搭建了一个简单的知识库问答系统,用户可以将自己的私人知识库进行搭建,基于RAG技术实现问答系统

    1K31编辑于 2025-07-19
  • 来自专栏前端必修课

    低价模型 DeepSeek 实用指南

    火爆全网的国产模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2K60编辑于 2025-05-08
  • DeepSeek、豆包向左,盘古模型向右

    通义千问中文理解能力全球领先,支持百万级上下文窗口和多模态交互;豆包模型月活用户量第二,擅长图像理解和多模态融合。另一类是由DeepSeek、Kimi为代表的创业公司模型DeepSeek就不用说了,如今也是国内最火的模型,月活用户量高达1.8亿,妥妥的一哥;Kimi由月之暗面开发,支持20万汉字输入,长文本处理能力突出,适合数据分析与专业文档解读,同样受到了不少用户的欢迎 国产模型普遍向左,盘古模型偏偏向右不管是DeepSeek也好,还是豆包模型也罢,大多数的国产模型几乎都选择了面向C端用户。 此次发布的5.5版本,包括比肩全球一流模型的718B准万亿级NLP深度思考模型、基于盘古多模态模型的世界模型、升级的预测模型、升级的视觉模型,以及科学计算模型。算力支持方面。 总体来看,国产模型与ChatGPT等国外先进模型的差距是越来越小了。在DeekSeek、盘古模型国产模型的共同推动下,必然会推动中国式AI走出一条独特发展的道路。

    57810编辑于 2025-07-01
  • 来自专栏大模型成长之路

    模型学习 | RAG & DeepSeek 实战(二)】

    Deepseek & RAG 实战(二)在【模型学习 | RAG & DeepSeek 实战】-腾讯云开发者社区-腾讯云文章中,已经实现了基于RAG建立了本地知识库,通过检索相似度最高的知识来辅助模型的问答系统 文中提的是“省部级奖励金额”,但向量模型可能找不到这段“我想了解奖助学金政策” 向量模型找“奖学金”段落,但“助学金”是关键词 “获得奖项后的政策支持?” 这时候引入rerank 模型(如 BGE-Reranker、ColBERT),对多个段落的得分进行重排序,具体实现:1️⃣ 将 (query, paragraph) 成对送入 BERT/Transformer 在原来的代码中,我们没有采用任何的向量压缩,采用了最简单和最基础的检索方式IndexFlatL2,通过欧氏距离进行相似度计算,为了加快检索速度, faiss提供了多种压缩方式:✅ 必须了解底层原理(尤其你是模型工程师

    89521编辑于 2025-07-20
  • 来自专栏天意云&天意科研云&天意生信云

    国产模型DeepSeek临床诊疗能力不输ChatGPT

    这2篇论文主要评估了DeepSeek模型在医学临床应用中的能力,并与其他模型进行对比。 评估Deepseek在临床诊断与治疗的效果 LLM模型正逐渐应用于医学领域,但专有模型 (如 GPT-4o) 因其隐私限制不能很好地应用在临床医学中,开源型模型DeepSeek的出现为AI临床应用提供了一种新的解决方案 在治疗任务中,DeepSeek-R1和GPT-4o表现同样优于其他模型,且这两个模型之间没有显著差异。 评估DeepSeek在临床医疗推理效果 LLM模型凭借其强大的自然语言处理能力,在医学教育、医疗诊断以及临床判断辅助等方面展现出巨大的潜力。 从以上2篇论文研究可以看出,国产开源模型DeepSeek已具备临床应用的能力,代表中国在医疗与人工智能领域的重要突破。

    40610编辑于 2025-06-08
  • 来自专栏IT从业者张某某

    语言模型-1.3-GPT、DeepSeek模型介绍

    推理模型:o-series GPT-1(1.1亿参数) 当时NLP的问题 此时训练一个 NLP 模型和我们之前做的推荐类似,针对某个任务,首先搞一些样本,然后对模型进行有监督训练。 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言模型DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态模型DeepSeek-VL ➢ 推理模型DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破 为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿模型的核心技术 ➢ 模型开源、技术开放

    1.1K00编辑于 2025-03-15
  • 来自专栏猫头虎博客专区

    开源模型DeepSeek.ai火遍全球:9条让DeepSeek颠覆通用模型的事实

    DeepSeek.ai火遍全球的几个事实: DeepSeek 不是套壳不是蒸馏美国的模型。 虽然中国有些模型是套壳和蒸馏的, 但 DeepSeek 不是。 在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 ( 比如轻量化设计把钢板换成钢条 (类似通过稀疏的办法减少模型的参数量); 涡轮增压利用废气能量增加空气供给, 提高燃烧效率; 精密制造, 使得发动机零部件的配合更加紧密, 从而减少能量损失; 等等。 因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。 基础模型终将 commoditize (商品化), toB 领域看谁能将 LLM 更好和复杂的生产环节衔接好帮客户落地提高生产效率, toC 领域看谁有流量入口, 最终才会获取 AI 产业价值创造中最多的利润

    1.1K10编辑于 2025-02-02
  • 来自专栏睡前机器学习

    国产模型井喷的原因及收场

    这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。 这俩问题想的不少,说得好的不多,姑且说说。 一些以前分明不是搞AI的企业,居然这波也说要推自己的模型。 事实啪啪打脸。这脸打得怎么说呢?痛快。 当然了,大家第一个问题就是,为什么LLM的门槛忽然就降低了呢? 对于宣布搞自家LLM的企业来说,最不差的恐怕就是钱了。何况现在还有一堆LLM的预训练模型排着队的开源呢。 最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。 规模、质量高的数据集很可能才是ChatGPT取得惊人成功的真正秘诀。 然而,人工标一个规模、质量高的数据集需要花很多的钱,更重要的是需要花很多的时间。 最后说说国产LLM的区别,其实这才是关键。 互联网企业大干快上已经上演了好几次,所以这次国产LLM的主要剧情也不难猜,技术上大差不差,基本都是上面这些,最终活下来的关键就是区别。

    39120编辑于 2023-09-09
  • 来自专栏大龄程序员的人工智能之路

    国产系统上部署开源模型

    Ollama 模型框架 Ollama 是一个新兴的模型框架,旨在为机器学习和人工智能研究提供高效、灵活和可扩展的解决方案。 启动一个模型非常简单,比如我想运行 gemma2 27b 参数的模型: (base) alex@alex-deepin-os:~$ ollama run gemma2:27b pulling manifest 我使用的是 Google 的 Gemma2 9b 模型,速度还挺快。 如果你想尝试其它的模型,可以去 ollama 的模型仓库看看。 https://ollama.com/library 里面收录了很多大模型,比如 llama3、qwen2、deepseek-coder-v2 等。 小结 写到这里,是不是感觉到在 Deepin 系统上部署模型太简单了?

    79510编辑于 2024-07-18
领券