首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI工程落地

    vLLM源码学习

    vLLM v1 vLLM从v0.6.0开始,为了解决功能碎片化、模块之间耦合严重、技术债等问题,并行开发了v1。v1不仅解决了上述问题,还提升了推理性能,让CPU调度开销更小。 :MyLlava") 平台插件可以支持一个新的硬件,使用方式如下: 分布式并行 单机多卡 单机多卡使用python的多进程实现,vllm/vllm/v1/executor/multiproc_executor.py at main · vllm-project/vllm,3D并行(张量并行、流水线并行、专家并行)的每一个分片是一个进程。 /vllm/v1/executor/ray_distributed_executor.py at main · vllm-project/vllm。 :vllm-project/vllm-ascend: Community maintained hardware plugin for vLLM on Ascend 昇腾vllm插件文档:Quickstart

    1.8K12编辑于 2025-05-28
  • vllm+vllm-ascend本地部署QwQ-32B

    2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基础镜像 基础镜像地址:https://quay.io/repository/ascend/vllm-ascend? git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm cd vllm VLLM_TARGET_DEVICE= # Install vLLM Ascend git clone --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git cd vllm-ascend pip install -e . 其余具体参数含义请参考vllm官方文档

    1.9K10编辑于 2025-04-21
  • 来自专栏机器学习

    vLLM 框架教程

    1. vLLM 简介vLLM(Very Large Language Model)是一个高效的推理引擎,专为大语言模型(LLM)优化,旨在提升推理性能并降低显存占用。 vLLM 主要由 UC 伯克利开发,采用了一种称为 PagedAttention 的创新机制,使其在多 GPU 环境下也能高效地执行推理任务。为什么使用 vLLM? , "vLLM 的优势是什么?"] 性能优化6.1 增加批量推理vLLM 的批量处理机制可以大幅提高吞吐量。prompts = ["介绍 vLLM", "vLLM 的优势是什么?", "如何安装 vLLM?"] 推荐进一步学习: vLLM 官方文档:https://github.com/vllm-project/vllm Hugging Face LLM 介绍:https://huggingface.co/docs

    2.6K21编辑于 2025-04-01
  • 来自专栏机器学习与统计学

    vLLM 重要更新

    vLLM 作为目前最受欢迎的开源 LLM 推理和服务框架,近期发布了一系列重大更新。 核心架构 vLLM Router 是一款专为 vLLM 打造的高性能、轻量级负载均衡器,采用 Rust 构建以实现最小开销。 vLLM Router 架构示意图 智能负载均衡策略 vLLM Router 提供多种负载均衡算法: 策略 特点 一致性哈希 确保相同路由键的请求"粘性"路由到同一工作节点,最大化 KV 缓存复用 Power 这一成就离不开 vLLM 社区 1,969 位贡献者的努力。 本文由 AI 辅助编写,基于 vLLM 官方博客https://blog.vllm.ai/内容整理。

    91010编辑于 2025-12-25
  • 来自专栏机器学习与统计学

    vLLM 重磅项目

    vLLM Semantic Router 大家好,我是 Ai 学习的老章 vLLM 团队刚刚发布了一个重磅项目 —— vLLM Semantic Router v0.1 Iris,这是一个面向多模型协作 生态整合 vLLM Semantic Router 已经和主流 AI 基础设施深度整合: 推理框架: vLLM Production Stack - vLLM 生产部署参考栈 NVIDIA Dynamo 安装 pip install vllm-sr # 3. 初始化配置 vllm-sr init # 4. 编辑 config.yaml 配置后端模型 # 5. }' 常用命令: # 查看日志 vllm-sr logs router vllm-sr logs envoy vllm-sr logs router -f # 实时跟踪 # 检查状态 vllm-sr vLLM Semantic Router 给出了一个系统性的解决方案: 优点: 架构设计清晰,信号-决策分离,扩展性好 不依赖 GPU,部署门槛低 和 vLLM 生态深度整合 安全能力全面(越狱、PII

    41210编辑于 2026-01-13
  • 来自专栏AI工程落地

    vLLM-Omni学习

    vLLM-Omni是什么? vLLM 被设计用于支持基于文本的自回归生成任务的大型语言模型,为了解决多模态、文本生成和视频生成等任务,vLLM社区推出了全新的vLLM-Omni框架,扩展了它对全模态模型推理和服务的支持:全模态:文本 :https://docs.vllm.ai/projects/vllm-omni/en/latest/代码仓库:https://github.com/vllm-project/vllm-omni路演PPT 和vllm-omni(vllm-omni需要依赖vllm):uv pip install vllm==0.12.0 --torch-backend=auto uv pip install vllm-omni 基于上面三种观察,vLLM-Omni的架构设计如下:性能与加速:该框架通过多种优化技术实现高性能:高效的AR支持:利用继承自vLLM的高效KV缓存管理。

    49421编辑于 2026-02-09
  • 来自专栏自然语言处理

    vllm的SamplingParams参数

    vllm部署示例 from vllm import LLM, SamplingParams # Sample prompts. prompts = [ "Hello, my name is",

    2.1K10编辑于 2024-02-03
  • 来自专栏GiantPandaCV

    VLLM推理流程解析

    前言 本文在对VLLM进行解析时只关注单卡情况,忽略基于ray做分布式推理的所有代码。 0x1. 运行流程梳理 先从使用VLLM调用opt-125M模型进行推理的脚本看起: from vllm import LLM, SamplingParams # Sample prompts. prompts 完整文章清移步知乎,这个是最近有空时逐步走读了下vllm的流程,还不包含paged attention的实现具体解析,后续有空会把这paged attention这一节的 kernel 实现细节补一下

    2.2K32编辑于 2023-08-22
  • 来自专栏AI工程落地

    vLLM Disaggregated Prefilling源码学习

    vLLM相关的源码实现:https://github.com/vllm-project/vllm/tree/main/vllm/distributed/kv_transfer三个核心概念1.LookupBuffer /vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py#L74通俗理解,是对NCCL通信库 实现案例:P2pNcclConnector以P2pNcclConnector为例,理解上述三个概念:P2pNcclConnector类:https://github.com/vllm-project/vllm /vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_engine.py#L74实现真正的单向FIFO传输提供 https://github.com/vllm-project/vllm/blob/main/vllm/distributed/kv_transfer/kv_connector/v1/p2p/tensor_memory_pool.pytensor_memory_pool.py

    17510编辑于 2026-03-28
  • 来自专栏运维小路

    DeepSeek-基于vLLM部署

    1.vLLM介绍 vLLM相比ollama复杂,ollama启动以后,读取模型文件就可以提供服务,但是vllm则只是一个框架,本身不具有启动服务的能力,它需要依赖python来启动服务。 虽然vLLM比较复杂,但是他具有组成集群跑更大模型的能力,所以我这里先用单机版来让搭建对这个vLLM有一个的理解,后期再深入。 conda create --name vllm python=3.12.9 4.切换进入vLLM虚拟Python环境 (base) [root@MiWiFi-RD03-srv ~]# conda activate vllm (vllm) [root@MiWiFi-RD03-srv ~]# 5.下载vLLM 强烈建议采用原生自带高版本的内核,由于我这个机器是复用上次Linux+GPU的机器,所以我又重新编译了gcc (vllm) [root@MiWiFi-RD03-srv ~]# pip install vllm -i https://mirrors.huaweicloud.com/repository/pypi

    2.4K01编辑于 2025-03-03
  • 来自专栏Crossin的编程教室

    DeepSeek 本地部署指南(基于 vLLM

    安装 vLLM vLLM 是一个高效的大型语言模型推理库,支持快速部署。 vLLM 简介:vLLM GitHub[1] 官方文档:vLLM 文档[2] 推荐使用虚拟环境:为避免包冲突,建议在虚拟环境中安装 vLLM。 启动 vLLM 推理服务 模型下载完成后,可以使用 vLLM 启动推理服务。 调用 vLLM 推理服务 服务启动后,可以通过代码调用 vLLM 提供的 API 进行推理。 参考资料 [1] vLLM GitHub: https://github.com/vllm-project/vllm [2] vLLM 文档: https://docs.vllm.ai/en/latest

    80810编辑于 2026-03-11
  • 来自专栏AI工程落地

    vLLM多租户LoRA原理揭秘

    vllm lora的使用 加载基座大模型 首先需要加载模型Llama 3 8b,并向vLLM表明我们将使用LoRA,同时还需要设置max_lora_rank。 from vllm import LLM, SamplingParams from vllm.lora.request import LoRARequest from huggingface_hub import vllm lora的网络层 以Llama 3 8B的微调模型kaitchup/Meta-Llama-3-8B-oasst-Adapter为例: 网络层 算子名 attention self_attn.q_proj self_attn.k_proj self_attn.v_proj self_attn.o_proj mlp mlp.down_proj mlp.gate_proj mlp.up_proj 从vllm vllm lora实现原理 思想来源 实现思想来自于论文Punica: Multi-Tenant LoRA Serving,该论文主要解决多租户LoRA服务问题,Punica设计原则: 1.GPU很昂贵

    1.4K21编辑于 2025-08-07
  • 来自专栏架构驿站

    LLM 推理引擎之争:Ollama or vLLM ?

    —02 — 什么是 vLLM 以及如何认识 ? vLLM 是一款开源推理框架,专注于大语言模型的高效推理与服务,旨在为开发者提供高性能、可扩展的 LLMs 部署解决方案。 import requests def query_vllm(api_url, model_name, prompt): """ Send a prompt to a vLLM API 高并发支持:vLLM 能够处理数百个并发请求,推理速度保持稳定,适合高负载生产环境。 低延迟:通过内存优化和分布式计算,vLLM 的推理延迟显著降低,平均响应时间可控制在 100ms 以内。 —03 — vLLM vs Ollama ,该如何选择 ? 2、对于对推理性能和系统可扩展性有较高要求的场景: 建议选择 vLLM。尤其适用于需要处理高并发请求和大规模推理任务的应用,vLLM 在性能优化方面表现出色。

    1.8K11编辑于 2025-04-24
  • 来自专栏AI工程落地

    vLLM优化模式下Mask生成

    Mask是注意力计算中的一个控制开关,用于在Softmax归一化之前,有选择地屏蔽掉(遮盖住)某些位置的信息,使其不参与当前步骤的注意力计算。

    22410编辑于 2026-02-09
  • 来自专栏云上修行

    vLLM: 加速AI推理的利器

    为了集成到您的系统中,vLLM提供了一个简单的接口,让机器学习工程师通过Python接口进行开发,您可以在不使用复杂包或依赖的情况下将其集成到您的系统中。vLLM的秘密武器是什么? 为了理解vLLM如何实现降低延迟和优化系统总体性能的目标,我们应该了解vLLM的瓶颈以及如何解决这个问题。 vLLM的OpenAI兼容服务器如果你希望快速的使用vLLM启动一个OpenAI兼容的服务器,可以如下执行:命令行安装:pip3 install vllm==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn 如果提供了函数,vLLM会将其添加到服务器使用@app.middleware('http')。如果提供了类,则vLLM会使用app.add_middleware()添加它。 仅用于vLLM的profile_run。

    3.3K10编辑于 2024-07-22
  • 来自专栏机器学习与统计学

    vLLM 硬核四连发!

    大家好,我是 Ai 学习的老章 关于 vLLM,我之前写过不少: 吃瓜,大模型推理引擎,vLLM和SGLang 杠起来了 大模型本地部署,vLLM 睡眠模式来了 vLLM 最新版来了,Docker Model Runner 集成vLLM 全模态大模型部署,vLLM-Omni 来了,100%开源 vLLM 重磅项目 今天再来聊聊 vLLM 在 2026 年 3 月密集发布的四个重大更新——Semantic Router 四、Model Runner V2:vLLM 核心引擎的彻底重构 如果前面三个更新是"在 vLLM 之上做加法",那 Model Runner V2(MRV2)就是对 vLLM 核心引擎的彻底重写。 ://vllm.ai/blog/nemotron-3-super P-EAGLE:https://vllm.ai/blog/p-eagle Model Runner V2:https://vllm.ai /blog/mrv2 vLLM 官网:https://vllm.ai Semantic Router GitHub:https://github.com/vllm-project/semantic-router

    14210编辑于 2026-04-13
  • 来自专栏Se7en的架构笔记

    vLLM 核心技术 PagedAttention 原理详解

    本文是 vLLM 系列文章的第二篇,介绍 vLLM 核心技术 PagedAttention 的设计理念与实现机制。 vLLM PagedAttention 论文精读视频可以在这里观看:https://www.bilibili.com/video/BV1GWjjzfE1b 往期文章: vLLM 快速部署指南 1 引言: vLLM 团队将 vLLM 的推理吞吐量与 HuggingFace Transformers(HF) 和 HuggingFace Text Generation Inference(TGI) 进行了对比 这些共享前缀同样可以被 vLLM 缓存并复用。 /2023/06/20/vllm.html

    2.6K10编辑于 2025-06-09
  • 来自专栏AI技术探索和应用

    使用vLLM加速大语言模型推理

    ://github.com/vllm-project/vllm 文档:https://vllm.readthedocs.io/en/latest/models/supported_models.html 安装 pip install vllm 检查模型是否被 vLLM 支持,返回成功则是支持的。 from vllm import LLM llm = LLM(model=... 代码地址:https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.api_server 客户端请求,更多示例:https://github.com/vllm-project/vllm/blob/main/examples/api_client.py curl http://localhost 代码地址:https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.openai.api_server

    24K21编辑于 2024-03-13
  • 来自专栏机器学习与统计学

    大模型本地部署,vLLM 睡眠模式来了

    按需重载模型 → 每次切换需要30-100+秒(速度慢,资源浪费) vLLM睡眠模式 vLLM睡眠模式提供了第三种方案: 模型在几秒内进入休眠,快速唤醒——在保持按需加载效率的同时,实现持久化服务的速度 服务器: # 终端1:启动 Phi-3-vision export VLLM_SERVER_DEV_MODE=1 vllm serve microsoft/Phi-3-vision-128k-instruct --enable-sleep-mode --port 8001 # 终端2:启动 Qwen3-0.6B export VLLM_SERVER_DEV_MODE=1 vllm serve Qwen/Qwen3 不使用睡眠模式: 每次切换需要完整的vLLM重启和重载。 https://blog.vllm.ai/2025/10/26/sleep-mode.html vLLM官方博客 吃瓜,大模型推理引擎,vLLM和SGLang 杠起来了 Xinference 大模型推理框架

    86610编辑于 2025-11-20
  • 来自专栏Se7en的架构笔记

    使用 Higress AI 网关代理 vLLM 推理服务

    在众多的大模型推理引擎中,vLLM 凭借其卓越的性能和高效的资源利用率,已成为目前最热门的 LLM 推理引擎之一。 虽然 vLLM 本身性能卓越,但要构建一个真正面向生产环境的 vLLM 推理服务仍存在一定挑战。 可以参考该教程部署 GPU 集群:一键部署 GPU Kind 集群,体验 vLLM 极速推理。 这两个模型都将使用 vLLM 作为推理引擎,每个模型分配一块 GPU 资源。 在 llmaz 中,我们需要创建两种类型的资源: OpenModel - 定义模型的来源和基本信息。 推理服务 首先,为两个 vLLM 推理服务分别创建对应的 AI Service Provider。

    1.1K21编辑于 2025-06-12
领券