搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI工程落地
vLLM源码学习
vLLM v1 vLLM从v0.6.0开始，为了解决功能碎片化、模块之间耦合严重、技术债等问题，并行开发了v1。v1不仅解决了上述问题，还提升了推理性能，让CPU调度开销更小。 :MyLlava") 平台插件可以支持一个新的硬件，使用方式如下：分布式并行单机多卡单机多卡使用python的多进程实现，vllm/vllm/v1/executor/multiproc_executor.py at main · vllm-project/vllm，3D并行（张量并行、流水线并行、专家并行）的每一个分片是一个进程。 /vllm/v1/executor/ray_distributed_executor.py at main · vllm-project/vllm。：vllm-project/vllm-ascend: Community maintained hardware plugin for vLLM on Ascend 昇腾vllm插件文档：Quickstart
1.8K12编辑于 2025-05-28
vllm+vllm-ascend本地部署QwQ-32B
2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基础镜像基础镜像地址：https://quay.io/repository/ascend/vllm-ascend? git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm cd vllm VLLM_TARGET_DEVICE= # Install vLLM Ascend git clone --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git cd vllm-ascend pip install -e . 其余具体参数含义请参考vllm官方文档
1.9K10编辑于 2025-04-21
来自专栏机器学习
vLLM 框架教程
1. vLLM 简介vLLM（Very Large Language Model）是一个高效的推理引擎，专为大语言模型（LLM）优化，旨在提升推理性能并降低显存占用。 vLLM 主要由 UC 伯克利开发，采用了一种称为 PagedAttention 的创新机制，使其在多 GPU 环境下也能高效地执行推理任务。为什么使用 vLLM？ , "vLLM 的优势是什么？"] 性能优化6.1 增加批量推理vLLM 的批量处理机制可以大幅提高吞吐量。prompts = ["介绍 vLLM", "vLLM 的优势是什么？", "如何安装 vLLM？"] 推荐进一步学习： vLLM 官方文档：https://github.com/vllm-project/vllm Hugging Face LLM 介绍：https://huggingface.co/docs
2.6K21编辑于 2025-04-01
来自专栏机器学习与统计学
vLLM 重要更新
vLLM 作为目前最受欢迎的开源 LLM 推理和服务框架，近期发布了一系列重大更新。核心架构 vLLM Router 是一款专为 vLLM 打造的高性能、轻量级负载均衡器，采用 Rust 构建以实现最小开销。 vLLM Router 架构示意图智能负载均衡策略 vLLM Router 提供多种负载均衡算法：策略特点一致性哈希确保相同路由键的请求"粘性"路由到同一工作节点，最大化 KV 缓存复用 Power 这一成就离不开 vLLM 社区 1,969 位贡献者的努力。本文由 AI 辅助编写，基于 vLLM 官方博客https://blog.vllm.ai/内容整理。
91010编辑于 2025-12-25
来自专栏机器学习与统计学
vLLM 重磅项目
vLLM Semantic Router 大家好，我是 Ai 学习的老章 vLLM 团队刚刚发布了一个重磅项目 —— vLLM Semantic Router v0.1 Iris，这是一个面向多模型协作生态整合 vLLM Semantic Router 已经和主流 AI 基础设施深度整合：推理框架： vLLM Production Stack - vLLM 生产部署参考栈 NVIDIA Dynamo 安装 pip install vllm-sr # 3. 初始化配置 vllm-sr init # 4. 编辑 config.yaml 配置后端模型 # 5. }' 常用命令： # 查看日志 vllm-sr logs router vllm-sr logs envoy vllm-sr logs router -f # 实时跟踪 # 检查状态 vllm-sr vLLM Semantic Router 给出了一个系统性的解决方案：优点：架构设计清晰，信号-决策分离，扩展性好不依赖 GPU，部署门槛低和 vLLM 生态深度整合安全能力全面（越狱、PII
41210编辑于 2026-01-13
来自专栏AI工程落地
vLLM-Omni学习
vLLM-Omni是什么？ vLLM 被设计用于支持基于文本的自回归生成任务的大型语言模型，为了解决多模态、文本生成和视频生成等任务，vLLM社区推出了全新的vLLM-Omni框架，扩展了它对全模态模型推理和服务的支持：全模态：文本：https://docs.vllm.ai/projects/vllm-omni/en/latest/代码仓库：https://github.com/vllm-project/vllm-omni路演PPT 和vllm-omni（vllm-omni需要依赖vllm）：uv pip install vllm==0.12.0 --torch-backend=auto uv pip install vllm-omni 基于上面三种观察，vLLM-Omni的架构设计如下：性能与加速：该框架通过多种优化技术实现高性能：高效的AR支持：利用继承自vLLM的高效KV缓存管理。
49421编辑于 2026-02-09
来自专栏自然语言处理
vllm的SamplingParams参数
vllm部署示例 from vllm import LLM, SamplingParams # Sample prompts. prompts = [ "Hello, my name is",
2.1K10编辑于 2024-02-03
来自专栏GiantPandaCV
VLLM推理流程解析
前言本文在对VLLM进行解析时只关注单卡情况，忽略基于ray做分布式推理的所有代码。 0x1. 运行流程梳理先从使用VLLM调用opt-125M模型进行推理的脚本看起： from vllm import LLM, SamplingParams # Sample prompts. prompts 完整文章清移步知乎，这个是最近有空时逐步走读了下vllm的流程，还不包含paged attention的实现具体解析，后续有空会把这paged attention这一节的 kernel 实现细节补一下
2.2K32编辑于 2023-08-22
来自专栏AI工程落地
vLLM Disaggregated Prefilling源码学习
vLLM相关的源码实现：https://github.com/vllm-project/vllm/tree/main/vllm/distributed/kv_transfer三个核心概念1.LookupBuffer /vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py#L74通俗理解，是对NCCL通信库实现案例：P2pNcclConnector以P2pNcclConnector为例，理解上述三个概念：P2pNcclConnector类：https://github.com/vllm-project/vllm /vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py#L74实现真正的单向FIFO传输提供 https://github.com/vllm-project/vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.pytensor_memory_pool.py
17510编辑于 2026-03-28
来自专栏运维小路
DeepSeek-基于vLLM部署
1.vLLM介绍 vLLM相比ollama复杂，ollama启动以后，读取模型文件就可以提供服务，但是vllm则只是一个框架，本身不具有启动服务的能力，它需要依赖python来启动服务。虽然vLLM比较复杂，但是他具有组成集群跑更大模型的能力，所以我这里先用单机版来让搭建对这个vLLM有一个的理解，后期再深入。 conda create --name vllm python=3.12.9 4.切换进入vLLM虚拟Python环境 (base) [root@MiWiFi-RD03-srv ~]# conda activate vllm (vllm) [root@MiWiFi-RD03-srv ~]# 5.下载vLLM 强烈建议采用原生自带高版本的内核，由于我这个机器是复用上次Linux+GPU的机器，所以我又重新编译了gcc (vllm) [root@MiWiFi-RD03-srv ~]# pip install vllm -i https://mirrors.huaweicloud.com/repository/pypi
2.4K01编辑于 2025-03-03
来自专栏Crossin的编程教室
DeepSeek 本地部署指南（基于 vLLM）
安装 vLLM vLLM 是一个高效的大型语言模型推理库，支持快速部署。 vLLM 简介：vLLM GitHub[1] 官方文档：vLLM 文档[2] 推荐使用虚拟环境：为避免包冲突，建议在虚拟环境中安装 vLLM。启动 vLLM 推理服务模型下载完成后，可以使用 vLLM 启动推理服务。调用 vLLM 推理服务服务启动后，可以通过代码调用 vLLM 提供的 API 进行推理。参考资料 [1] vLLM GitHub: https://github.com/vllm-project/vllm [2] vLLM 文档: https://docs.vllm.ai/en/latest
80810编辑于 2026-03-11
来自专栏AI工程落地
vLLM多租户LoRA原理揭秘
vllm lora的使用加载基座大模型首先需要加载模型Llama 3 8b，并向vLLM表明我们将使用LoRA，同时还需要设置max_lora_rank。 from vllm import LLM, SamplingParams from vllm.lora.request import LoRARequest from huggingface_hub import vllm lora的网络层以Llama 3 8B的微调模型kaitchup/Meta-Llama-3-8B-oasst-Adapter为例：网络层算子名 attention self_attn.q_proj self_attn.k_proj self_attn.v_proj self_attn.o_proj mlp mlp.down_proj mlp.gate_proj mlp.up_proj 从vllm vllm lora实现原理思想来源实现思想来自于论文Punica: Multi-Tenant LoRA Serving，该论文主要解决多租户LoRA服务问题，Punica设计原则： 1.GPU很昂贵
1.4K21编辑于 2025-08-07
来自专栏架构驿站
LLM 推理引擎之争：Ollama or vLLM ?
—02 — 什么是 vLLM 以及如何认识？ vLLM 是一款开源推理框架，专注于大语言模型的高效推理与服务，旨在为开发者提供高性能、可扩展的 LLMs 部署解决方案。 import requests def query_vllm(api_url, model_name, prompt): """ Send a prompt to a vLLM API 高并发支持：vLLM 能够处理数百个并发请求，推理速度保持稳定，适合高负载生产环境。低延迟：通过内存优化和分布式计算，vLLM 的推理延迟显著降低，平均响应时间可控制在 100ms 以内。 —03 — vLLM vs Ollama ，该如何选择？ 2、对于对推理性能和系统可扩展性有较高要求的场景：建议选择 vLLM。尤其适用于需要处理高并发请求和大规模推理任务的应用，vLLM 在性能优化方面表现出色。
1.8K11编辑于 2025-04-24
来自专栏AI工程落地
vLLM优化模式下Mask生成
Mask是注意力计算中的一个控制开关，用于在Softmax归一化之前，有选择地屏蔽掉（遮盖住）某些位置的信息，使其不参与当前步骤的注意力计算。
22410编辑于 2026-02-09
来自专栏云上修行
vLLM: 加速AI推理的利器
为了集成到您的系统中，vLLM提供了一个简单的接口，让机器学习工程师通过Python接口进行开发，您可以在不使用复杂包或依赖的情况下将其集成到您的系统中。vLLM的秘密武器是什么？为了理解vLLM如何实现降低延迟和优化系统总体性能的目标，我们应该了解vLLM的瓶颈以及如何解决这个问题。 vLLM的OpenAI兼容服务器如果你希望快速的使用vLLM启动一个OpenAI兼容的服务器，可以如下执行：命令行安装：pip3 install vllm==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn 如果提供了函数，vLLM会将其添加到服务器使用@app.middleware('http')。如果提供了类，则vLLM会使用app.add_middleware()添加它。仅用于vLLM的profile_run。
3.3K10编辑于 2024-07-22
来自专栏机器学习与统计学
vLLM 硬核四连发！
大家好，我是 Ai 学习的老章关于 vLLM，我之前写过不少：吃瓜，大模型推理引擎，vLLM和SGLang 杠起来了大模型本地部署，vLLM 睡眠模式来了 vLLM 最新版来了，Docker Model Runner 集成vLLM 全模态大模型部署，vLLM-Omni 来了，100%开源 vLLM 重磅项目今天再来聊聊 vLLM 在 2026 年 3 月密集发布的四个重大更新——Semantic Router 四、Model Runner V2：vLLM 核心引擎的彻底重构如果前面三个更新是"在 vLLM 之上做加法"，那 Model Runner V2（MRV2）就是对 vLLM 核心引擎的彻底重写。 ://vllm.ai/blog/nemotron-3-super P-EAGLE：https://vllm.ai/blog/p-eagle Model Runner V2：https://vllm.ai /blog/mrv2 vLLM 官网：https://vllm.ai Semantic Router GitHub：https://github.com/vllm-project/semantic-router
14210编辑于 2026-04-13
来自专栏Se7en的架构笔记
vLLM 核心技术 PagedAttention 原理详解
本文是 vLLM 系列文章的第二篇，介绍 vLLM 核心技术 PagedAttention 的设计理念与实现机制。 vLLM PagedAttention 论文精读视频可以在这里观看：https://www.bilibili.com/video/BV1GWjjzfE1b 往期文章： vLLM 快速部署指南 1 引言： vLLM 团队将 vLLM 的推理吞吐量与 HuggingFace Transformers（HF）和 HuggingFace Text Generation Inference（TGI）进行了对比这些共享前缀同样可以被 vLLM 缓存并复用。 /2023/06/20/vllm.html
2.6K10编辑于 2025-06-09
来自专栏AI技术探索和应用
使用vLLM加速大语言模型推理
://github.com/vllm-project/vllm 文档：https://vllm.readthedocs.io/en/latest/models/supported_models.html 安装 pip install vllm 检查模型是否被 vLLM 支持，返回成功则是支持的。 from vllm import LLM llm = LLM(model=... 代码地址：https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.api_server 客户端请求，更多示例：https://github.com/vllm-project/vllm/blob/main/examples/api_client.py curl http://localhost 代码地址：https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.openai.api_server
24K21编辑于 2024-03-13
来自专栏机器学习与统计学
大模型本地部署，vLLM 睡眠模式来了
按需重载模型 → 每次切换需要30-100+秒（速度慢，资源浪费） vLLM睡眠模式 vLLM睡眠模式提供了第三种方案：模型在几秒内进入休眠，快速唤醒——在保持按需加载效率的同时，实现持久化服务的速度服务器： # 终端1：启动 Phi-3-vision export VLLM_SERVER_DEV_MODE=1 vllm serve microsoft/Phi-3-vision-128k-instruct --enable-sleep-mode --port 8001 # 终端2：启动 Qwen3-0.6B export VLLM_SERVER_DEV_MODE=1 vllm serve Qwen/Qwen3 不使用睡眠模式：每次切换需要完整的vLLM重启和重载。 https://blog.vllm.ai/2025/10/26/sleep-mode.html vLLM官方博客吃瓜，大模型推理引擎，vLLM和SGLang 杠起来了 Xinference 大模型推理框架
86610编辑于 2025-11-20
来自专栏Se7en的架构笔记
使用 Higress AI 网关代理 vLLM 推理服务
在众多的大模型推理引擎中，vLLM 凭借其卓越的性能和高效的资源利用率，已成为目前最热门的 LLM 推理引擎之一。虽然 vLLM 本身性能卓越，但要构建一个真正面向生产环境的 vLLM 推理服务仍存在一定挑战。可以参考该教程部署 GPU 集群：一键部署 GPU Kind 集群，体验 vLLM 极速推理。这两个模型都将使用 vLLM 作为推理引擎，每个模型分配一块 GPU 资源。在 llmaz 中，我们需要创建两种类型的资源： OpenModel - 定义模型的来源和基本信息。推理服务首先，为两个 vLLM 推理服务分别创建对应的 AI Service Provider。
1.1K21编辑于 2025-06-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

vLLM源码学习

vllm+vllm-ascend本地部署QwQ-32B

vLLM 框架教程

vLLM 重要更新

vLLM 重磅项目

vLLM-Omni学习

vllm的SamplingParams参数

VLLM推理流程解析

vLLM Disaggregated Prefilling源码学习

DeepSeek-基于vLLM部署

DeepSeek 本地部署指南（基于 vLLM）

vLLM多租户LoRA原理揭秘

LLM 推理引擎之争：Ollama or vLLM ?

vLLM优化模式下Mask生成

vLLM: 加速AI推理的利器

vLLM 硬核四连发！

vLLM 核心技术 PagedAttention 原理详解

使用vLLM加速大语言模型推理

大模型本地部署，vLLM 睡眠模式来了

使用 Higress AI 网关代理 vLLM 推理服务

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐