搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
不要再用Ollama，不要再用llama.cpp
大家好，我是 Ai 学习的老章最近在测试 llama.cpp 这个推理引擎的表现，主要是启动 GGUF 格式的量化大模型比较方便 # 内网部署 llama.cpp，运行量化大模型 # 纯离线安装大模型推理引擎只有在进行 LLM 的部分或全部 CPU 卸载时，你才应该使用 llama.cpp。也不要使用 Ollama，它只是 llama.cpp 的一个封装，干的就是设置环境变量、蹩脚地计算显存拆分和卸载。当你试图用 llama.cpp 让 LLMs 彼此对话时，引擎会把这些 GPU 拖慢，让它们一个接一个地排队等待。 / [2] llama.cpp: https://github.com/ggerganov/llama.cpp [3] 并不支持、也大概率永远不会支持张量并行（Tensor Parallelism）
1.6K10编辑于 2025-10-11
来自专栏DeepHub IMBA
使用Llama.cpp在CPU上快速的运行LLM
在这篇文章中，我们将介绍如何使用Python中的llama.cpp库在高性能的cpu上运行llm。大型语言模型(llm)正变得越来越流行，但是它们的运行在计算上是非常消耗资源的。这要归功于他的llama.cpp库，该库为各种llm提供了高速推理。原始的llama.cpp库侧重于在shell中本地运行模型。而最近LangChain的发展使得我可以可以在python中使用llama.cpp。在这篇文章中，我们将介绍如何在Python中使用llama-cpp-python包使用llama.cpp库。总结在这篇文章中，我们介绍了如何在Python中使用llama.cpp库和llama-cpp-python包。这些工具支持基于cpu的llm高性能执行。 Llama.cpp几乎每天都在更新。在Llama.cpp有一个“convert.py”可以帮你将自己的Pytorch模型转换为ggml格式。
3.4K31编辑于 2023-08-30
llama.cpp在各个操作系统本地编译流程
Build llama.cpp locally To get the Code: git clone https://github.com/ggerganov/llama.cpp cd llama.cpp CPU Build Build llama.cpp using CMake: cmake -B build cmake --build build --config Release Notes: For For Intel GPU support, please refer to llama.cpp for SYCL. For detailed info, please refer to llama.cpp for SYCL. This allows you to use the same llama.cpp binary on different machines with different GPUs.
2K10编辑于 2025-07-16
来自专栏机器之心
研究完llama.cpp，我发现手机跑大模型竟这么简单
有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码，效果极好，获得了人们的广泛关注。 llama.cpp 至今在 GitHub 上已经收获了 3.8 万个 Star，几乎和 LLaMa 模型本身一样多。以至于到了 6 月份，llama.cpp 的作者 Georgi Gerganov 干脆开始创业，宣布创立一家新公司 ggml.ai，旨在用纯 C 语言框架降低大模型运行成本。这为我们提供了一个方便的类 GPT 模型参数数量方程：在这里，我们将重点讨论在本地运行类 ChatGPT 服务的情况，这就是 llama.cpp 所做的事情，让我们假设 batch size 为 1 由于 llama.cpp 使用目前深度学习推理中较为激进的 int4 格式，因此 KV 缓存的 RAM 需求减少到 1.33GB，模型参数的 VRAM 减少到 16.25GB。
3K50编辑于 2023-09-08
来自专栏机器学习与统计学
Xinference 大模型推理框架，离线部署，支持vLLM、SGLang、llama.cpp等引擎
大家好，我是 Ai 学习的老章 # 为何要本地部署大模型 # Linux 安装 Docker 完整教程 # 不要再用 Ollama，不要再用 llama.cpp # 内网部署 llama.cpp，运行量化大模型我个人是 vLLM 的忠实用户，但是最近在部署某个 Reranker 模型时下游对接出现了一些问题，用 xinference（一个性能强大且功能全面的分布式推理框架，它直接支持了 vllm、sglang、llama.cpp
2.1K10编辑于 2025-10-11
来自专栏GPUS开发者
探秘NVIDIA RTX AI：llama.cpp如何让你的Windows PC变身AI超人
llama.cpp：AI界的轻量级冠军llama.cpp，这个名字听起来可能有点奇怪，但它在AI界可是个响当当的角色。 llama.cpp说“没问题！”在生产应用中部署LLM，最大的挑战就是它们太“吃资源”了，需要大量的内存和计算资源。但是，llama.cpp可不怕这个。 NVIDIA RTX上的llama.cpp：速度与激情的碰撞NVIDIA已与llama.cpp社区合作，改进和优化其在RTX GPU上的性能。要使用CUDA后端构建带有NVIDIA GPU优化的llama.cpp库，请访问GitHub上的llama.cpp/docs。基于llama.cpp的开发者生态系统基于llama.cpp构建了一个庞大的开发者框架和抽象层生态系统，使开发者能够进一步加速他们的应用程序开发过程。
2.6K10编辑于 2024-10-04
来自专栏机器之心
llama.cpp作者创业，用纯C语言框架降低大模型运行成本
Georgi Gerganov 今年 3 月 Georgi Gerganov 又构建了开源项目 llama.cpp，llama.cpp 让开发者在没有 GPU 的条件下也能运行 Meta 的 LLaMA llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。项目发布后，很快就有开发者尝试并成功在 MacBook 和树莓派上运行 LLaMA。 llama.cpp 和 whisper.cpp 都使用了 ggml，我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。
74920编辑于 2023-08-07
来自专栏大模型
高效 GPU 加速：DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
高效GPU加速：DeepSeek-R1系列模型在llama.cpp上的生产级部署指南充分发挥RTX30/40系列显卡性能，实现推理质量与吞吐量的最佳平衡本文聚焦于GPU加速场景，提供一套经过生产验证的llama.cpp 虽然llama.cpp以CPU推理著称，但在以下场景中，GPU加速能带来显著收益：降低延迟：RTX4090上8B模型推理速度可达CPU的3–5倍；提升吞吐：支持更高并发请求；释放CPU：将计算密集型任务卸载到推荐选择展开代码语言：YAMLAI代码解释image:ghcr.io/ggml-org/llama.cpp:server-cuda12-b7751基于CUDA12.1，兼容驱动≥525.85；包含完整CUDA 完整启动配置（DockerCompose示例）展开代码语言：YAMLAI代码解释services:llamacpp:image:ghcr.io/ggml-org/llama.cpp:server-cuda12 3.基础高可用设计（1）健康检查llama.cpp提供/health端点，返回200表示就绪，503表示加载中或异常。Docker/K8s可据此判断实例状态。
42610编辑于 2026-01-16
来自专栏DeepHub IMBA
llama.cpp Server 引入路由模式：多模型热切换与进程隔离机制详解
llama.cpp server在 2025年12月11日发布的版本中正式引入了 router mode（路由模式），如果你习惯了 Ollama 那种处理多模型的方式，那这次 llama.cpp 的更新基本就是对标这个功能去的路由模式的核心机制简单来说，router mode 就是一个内嵌在 llama.cpp 里的模型管理器。以前跑 server，启动时需要指定一个模型，服务就跟这个模型绑定了。要想换模型？启动配置与自动发现启用方式很简单，启动 server 时不要指定具体模型即可： llama-server 服务启动后会自动扫描默认缓存路径（LLAMA_CACHE 或 ~/.cache/llama.cpp 总结 Router mode 看似只是加了个多模型支持，实则是把 llama.cpp 从一个单纯的“推理工具”升级成了一个更成熟的“推理服务框架”。
68110编辑于 2025-12-19
来自专栏机器学习与统计学
纯离线安装大模型推理引擎，部署量化大模型
大家好，我是 Ai 学习的老章继续介绍大模型推理引擎+Llama.cpp，前文我写了# 内网部署 llama.cpp，运行量化大模型，详细介绍了 llama.cpp 这个推理引擎，内网离线 cmake 编译安装、开启 GPU 加速、Llama.cpp 的使用及核心参数深度解析等。本文我们用个更省事儿的内网离线部署方式——Docker，然后用其部署量化大模型，其中踩坑若干，才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存选择镜像最好是官方，比如 llama.cpp 提供的有不同版本，不同用途的镜像我选择的是 ghcr.io/ggml-org/llama.cpp:server-cuda https://github.com/ggml-org/llama.cpp/ /dir 再传入内网： llama.cpp 服务需要模型文件才能运行，在你的 Linux 服务器上创建一个目录，用来存放 GGUF 格式的模型文件。
1.2K10编辑于 2025-10-11
来自专栏大模型本地部署
Qwen3.5本地部署
1.2.Llama.cpp指南1.2.1llama.cpp安装在Github可获取最新的llama.cpp。你也可以按照下面的构建说明操作。 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.6\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.7\--top-p0.8\ /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95
2.2K00编辑于 2026-03-06
来自专栏机器学习与统计学
Qwen3.5 本地部署
本地部署 llama.cpp 是目前跑 GGUF 模型最成熟的方案。 Qwen3.5 本身就是混合架构（Gated Delta Networks + MoE），llama.cpp 已经做了支持。 1. # 编译（有 GPU 用 -DGGML_CUDA=ON，Mac 用 -DGGML_METAL=ON，纯 CPU 用 -DGGML_CUDA=OFF） cmake llama.cpp -B llama.cpp 场景推荐方案硬件要求 Mac 用户尝鲜 llama.cpp + GGUF（2-bit 或 3-bit） 128-192GB 统一内存 Mac 高配用户 llama.cpp + MXFP4 256GB 纯 CPU llama.cpp（去掉 GPU 参数） 256GB+ RAM，速度较慢最后能在 MacBook 上跑一个和 GPT-5.2 正面对抗的模型，放在两年前简直不敢想。
5K10编辑于 2026-03-02
来自专栏机器学习与统计学
Ollama，危？
可在 macOS 和 Windows 上使用 Ollama 的新动作：大模型联网搜索 API、MCP 客户端集成 Ollama 可以启动云端大模型了，免费 Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。官方介绍，优势如下：完全免费、开源且由社区驱动在所有硬件上表现出色高级上下文和前缀缓存并行和远程用户支持极其轻量级且内存高效充满活力且富有创造力的社区 100% 隐私使用之前需要先安装 llama.cpp server 我还是喜欢命令行直接安装 ## Winget (Windows) winget install llama.cpp ## Homebrew (Mac and Linux) brew
34810编辑于 2025-11-20
来自专栏机器学习与统计学
实测，单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B，46 Token每秒！
llama.cpp 安装安装真是一言难尽，大家各显神通吧我的内网机基础环境很差，编译从来没有成功过所以还是走的 Docker 方案 docker pull ghcr.io/ggml-org/llama.cpp nvidia --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp 只有在进行 LLM 的部分或全部 CPU 卸载时，你才应该使用 llama.cpp。但在多 GPU 配置下，需要经过优化的批推理与 Tensor Parallelism，此时 vLLM 是正确选择。附 LocalLLaMA 社区的吐槽 llama.cpp 项目 issue 吐槽 14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器，# Stop Wasting Your Multi-GPU Setup With llama.cpp
1.7K30编辑于 2026-03-27
来自专栏为了不折腾而去折腾的那些事
构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型
直接使用 ggerganov/ggml[8] 会比较麻烦，不过 ggerganov/llama.cpp[9] 做了完善的封装，所以我们可以从 llama.cpp 这个项目入手。 FROM python:3.11.4-slim-bullseye as base COPY --from=code /app/llama.cpp /app/llama.cpp WORKDIR /app / /app/llama.cpp/ WORKDIR /app/llama.cpp/ 在上面的 Dockerfile 中，我们做了几件事： •将 llama.cpp 将最近发布的代码，存储到一个共享的镜像中 •使用 Python 官方镜像[11]，安装开发依赖，接着构建 llama.cpp 项目的二进制文件，用于后续转换模型和调用模型。 : https://github.com/ggerganov/llama.cpp [10] soulteary/docker-llama2-chat/llama.cpp/Dockerfile.converter
1.2K20编辑于 2023-09-04
来自专栏机器之心
4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了
本文还将 PowerInfer 与 llama.cpp 进行了比较，llama.cpp 是最先进的本地 LLM 推理框架。为了便于进行比较，该研究还扩展了 llama.cpp 以支持 OPT 模型。该研究首先比较了 PowerInfer 和 llama.cpp 的端到端推理性能，批大小为 1。平均而言，PowerInfer 实现了 8.32 tokens/s 的生成速度，最高可达 16.06 tokens/s，显着优于 llama.cpp，比 llama.cpp 提高了 7.23 倍，比在此阶段，CPU 和 GPU 上都会激活少量神经元，与 llama.cpp 相比，减少了不必要的计算。图 12 显示了 PowerInfer 和 llama.cpp 的 CPU 和 GPU 之间的神经元负载分布。
2.4K10编辑于 2023-12-21
来自专栏机器学习与统计学
Qwen3.5本地部署终极指南，Qwen3.5-27B
极简部署：复制粘贴就能跑方案一：llama.cpp 直接起飞（推荐）以 Qwen3.5-35B-A3B 为例，这是 24GB 显卡/内存用户的最佳选择： 1. cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp - B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release /bin/llama-* llama.cpp 2. /llama.cpp/llama-server \ --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_
17.1K43编辑于 2026-03-02
来自专栏机器学习与统计学
自动检测电脑可以跑什么大模型，自动启动 Coding Agent
变成一个命令在本地运行 Coding Agent 比较有意思的是，他这里面提到了三个工具，每一个我都有介绍： llmfit：电脑能跑多大模型，一键测算+本地部署 llama.cpp：内网部署llama.cpp ，运行量化大模型，so easy，还有最近的一片实测，单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B，46 Token每秒！由于 hf-agents 接的是 llama.cpp + GGUF，脚本里专门把 mlx-8bit、mlx-4bit、mlx-3bit 映射成 Q8_0、Q4_K_M、Q3_K_M 这样的 GGUF 量化名
24110编辑于 2026-03-27
来自专栏量子位
3w+星标项目大佬创业：树莓派即可运行大模型，已获GitHub前CEO投资
Georgi Gerganov，今年三月曾开源了llama.cpp项目，GitHub上已破三万星标，要知道Stable Diffusion也不过8.8k。的LLaMA模型，即便是在树莓派、MacBook上运行大模型也通通不在话下~ △在 M2 Max 上以 40 tok/s 的速度运行 7B LLaMA 甚至还成功吸引了小扎的注意：Meta也在运行llama.cpp （狗头） llama.cpp作者创业 ggml，是一个纯C语言编写的张量库，可帮助开发者在消费级硬件上运行大模型，GitHub星标数达到4.4k。大哥自己的两个上万星标的项目llama.cpp和whisper.cpp都使用了它。至于llama.cpp也是他一晚上Hacking出来的。除此之外，他还有一些有意思的项目。比如检查键盘是否可以通过麦克风窃听、猜Hacker News的标题，Wordle克隆版等等。
52010编辑于 2023-08-05
来自专栏机器学习与统计学
一个超强的推理增强大模型,开源了,本地部署
`[1]：https://huggingface.co/mistralai/Magistral-Small-2506_gguf[2] `lmstudio`（llama.cpp, MLX）[3]：https ://lmstudio.ai/models/mistralai/magistral-small[4] `ollama` (llama.cpp)[5]: https://ollama.com/library /magistral[6] `unsloth` (llama.cpp)[7]: https://huggingface.co/unsloth/Magistral-Small-2506-GGUF[8] Magistral 371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等参考资料 [1] llama.cpp: https://github.com/ggml-org/llama.cpp Magistral-Small-2506_gguf: https://huggingface.co/mistralai/Magistral-Small-2506_gguf [3] lmstudio（llama.cpp
54510编辑于 2025-06-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

不要再用Ollama，不要再用llama.cpp

使用Llama.cpp在CPU上快速的运行LLM

llama.cpp在各个操作系统本地编译流程

研究完llama.cpp，我发现手机跑大模型竟这么简单

Xinference 大模型推理框架，离线部署，支持vLLM、SGLang、llama.cpp等引擎

探秘NVIDIA RTX AI：llama.cpp如何让你的Windows PC变身AI超人

llama.cpp作者创业，用纯C语言框架降低大模型运行成本

高效 GPU 加速：DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南

llama.cpp Server 引入路由模式：多模型热切换与进程隔离机制详解

纯离线安装大模型推理引擎，部署量化大模型

Qwen3.5本地部署

Qwen3.5 本地部署

Ollama，危？

实测，单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B，46 Token每秒！

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了

Qwen3.5本地部署终极指南，Qwen3.5-27B

自动检测电脑可以跑什么大模型，自动启动 Coding Agent

3w+星标项目大佬创业：树莓派即可运行大模型，已获GitHub前CEO投资

一个超强的推理增强大模型,开源了,本地部署

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐