首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏泛互云原生

    TACO云原生最佳实践

    过程中通过不同训练模型,不同Batch-Size,验证TACO在训练速度上的优化效果。 其中TACO运行环境采用腾讯云taco-train的官方镜像ccr.ccs.tencentyun.com/qcloud/taco-train:ttf115-cu112-cvm-0.4.1因TACO插件式集成特性 ,从TACO镜像中移除HARP加速库,即可得到原生Horovod运行环境镜像cat <<EOF > DockerfileFROM ccr.ccs.tencentyun.com/qcloud/taco-train Job采用官方taco-train镜像,部署TACO环境任务,大页内存按照单机如下数量进行配置。 和Horovod-bench里执行计算/usr/local/openmpi/bin/mpirun -np 2 -H taco-bench-worker-0:1,taco-bench-worker-1:1

    1.7K30编辑于 2022-12-02
  • 来自专栏腾讯云服务器团队的专栏

    TACO-LLM发布!助力大模型极致加速

    本篇文章将介绍TACO-LLM的优化原理 如果您希望了解更多产品合作信息 >> 欢迎点击链接联系我们 << TACO-LLM 应用场景 TACO-LLM适用于生成式语言模型的推理加速业务,可满足多种业务场景下推理提效的需求 除了适配多种业务场景,TACO-LLM也兼容Hugging Face当前全部主流语言模型,无需模型转换,仅需指定模型名称及可自动加载并即刻体验TACO-LLM带来的极致性能优化。 为了评估TACO-LLM的性能表现,我们使用TACO-LLM与业界性能十分优秀的两个大模型推理框架vLLM和TGI进行了性能对比测试。 TACO-LLM与业界框架对比-输出token延时 图7. TACO-LLM与业界框架对比-吞吐 测试数据显示: 1)token解码延时,TACO-LLM比vLLM低52.7%,比TGI低10.3%; 2)总吞吐,TACO-LLM比vLLM高42.8%,比TGI

    2.6K30编辑于 2023-11-17
  • 来自专栏机器人网

    TACO——开创机器人视觉的新纪元

    欧洲联合研究项目TACO(带物体检测的三维自适应相机)开发出一种全新的三维摄像系统,能帮助机器人实现更多的功能。 这个由欧洲联合研究项目TACO负责的全新的自适应摄像系统,使用了由弗劳恩霍夫IPMS提供的5个同步操作的光学扫描仪。

    97450发布于 2018-04-12
  • 来自专栏腾讯云服务器团队的专栏

    推理效能最高提升至242%——腾讯云计算加速套件 TACO Kit

    为了应对上述软件研发的挑战,腾讯发布了 TACO Kit(Tencent Accelerated Computing Optimizer),该云服务目前包含 TACO Train 及 TACO Infer TACO Kit 为我们的用户提供了一个简练、易用、自释的接口,同时更实现了若干场景下用户的无感接入。在底层,TACO Kit 结合腾讯云服务器实现了大量精细的优化,确保用户工作负载运行在最佳状态。 TACO Infer 强大的可扩展性设计也使得硬件厂商依照硬件特性开发的加速库,例如 ZenDNN、TensorRT 等,得以和 TACO 无缝集成,再辅以 TACO Infer 自研的代码生成技术,无论用户使用何种硬件加速实例 TACO Infer 优化方式—— 无感接入,轻量部署 从易用性角度出发,TACO Infer 无需对深度学习框架(Tensorflow、Pytorch等)及软件本身做任何改动,用户可以安装社区的任何版本 具体来说,TACO Infer 支持三种优化模式。

    1.5K10编辑于 2022-08-25
  • 来自专栏腾讯云原生团队

    GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!

    目前业内有很多分布式训练的加速技术,例如多级通信、多流通信、梯度融合、压缩通信等,TACO-Training 也引入了类似的加速技术,同时 TACO-Training 不同于业界其他方案的创新点在于自定义用户态协议栈 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎,为用户提供开箱即用的 AI 训练套件。 NCCL 2.8.4编译产生,如果有其他的版本需求,请联系腾讯云售后支持 kubectl create -f taco.yaml 创建成功后 开始测试 下载 benchmark 脚本并拷贝到 taco /mpirun -np 32 -H taco-bench-worker-0:8,taco-bench-worker-1:8,taco-bench-worker-2:8,taco-bench-worker TACO-training 训练集群,流程非常简单方便。

    1.8K20发布于 2021-11-26
  • 来自专栏腾讯云服务器团队的专栏

    腾讯云 TACO Infer 助力自动语音识别推理业务 QPS 三倍提升

    什么是 TACO Infer TACO Infer 是一款轻量易用、无缝集成已有深度学习框架的 AI 推理加速软件,帮助客户简洁、无侵入业务代码地一键式提升推理性能,无缝适配多种服务框架。 同时,在模型优化过程中,TACO-Infer 会对相关性能参数进行自动搜索调优。最后,在性能评估阶段,TACO-Infer 会实测模型,自动选择最佳优化路径,保证获得最佳的模型优化性能。 TACO Infer 助力数美自动语音识别 QPS 3倍提升 在实际业务中,TACO Infer 也助力了多个客户推理业务效能提升,在提高推理性能同时,节省算力成本。 我们希望通过 TACO Train、TACO Infer、qGPU 共享技术等软件附加值产品,助力客户提升算力效率,降低业务成本,形成可持续发展的长期合作模式。 相信随着 TACO Infer 的不断发展,在保持易用性的基础上,使用 TACO Infer 的性能收益将会越来越高,欢迎加入 TACO Infer 交流群,更多新特性敬请期待。

    1.3K70编辑于 2023-02-22
  • 腾讯云TACO-LLM加速模块助力荣耀AI推理吞吐提升2倍

    部署TencentOS Server AI底座与TACO-LLM加速 腾讯云为荣耀提供基于TencentOS Server AI底座的解决方案,集成TACO-LLM加速模块。 实现性能指标显著优化 在荣耀的实际应用中,TACO-LLM模块使DeepSeek推理速度在A平台提升70%,在B平台提升20%。 TACO-LLM与TACO-Train框架协同,覆盖推理与训练场景,为AI模型提供可持续的算力支持与能效管理。

    16810编辑于 2026-05-01
  • 腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增

    部署TACO-LLM加速模块优化推理流程 腾讯云为荣耀提供了基于 TencentOS Server AI 底座的 TACO-LLM 大语言模型推理加速引擎。 实现推理效率与系统稳定性的量化提升 在荣耀的实际业务场景中(主要使用 DeepSeek 1.5@78% 和 DeepSeek 1.2@70% 模型),TACO-LLM模块带来显著性能改善: DeepSeek-R1 “TACO-LLM加速模块提升了推理效率和系统稳定性。” —— 腾讯云技术团队 腾讯云AI底座的技术确定性价值 腾讯云通过TencentOS Server AI底座的安全加固与性能优化,结合TACO-LLM加速引擎的针对性技术方案,为荣耀提供了高性能、高稳定的

    15210编辑于 2026-05-30
  • 腾讯云高性能计算:星脉网络与TACO套件倍增AI训练效能

    集群算力线性度达83% 自动驾驶客户实现训练周期压缩 某知名车企采用HCC集群进行Swin-L Transformer模型训练,解决方案包含: A100/V100高性能计算集群搭配100G RoCEv2网络 TACO 软件栈协同优化实现全链路加速 TACO Kit加速套件通过三层优化提升AI计算效率: 计算图优化:Const Fold、LICM等编译优化技术 通信策略优化:2D AllReduce多级通信,梯度融合提升 GPU,提供多元算力选择 软件同构:TCCL通信库在多租户场景下网络吞吐较NCCL提升100% 云原生集成:qGPU技术实现厘米级算力隔离,容器部署密度提升1-3倍,年TCO节约50%+ 基于星脉网络与TACO

    17410编辑于 2026-05-30
  • 来自专栏腾讯云服务器团队的专栏

    GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!

    TACO-Training 在云服务器和云容器环境下都可以部署,在 GPU 云服务器上的TACO-Training 训练加速部署方案已经在官网文档上线,具体可参见 GPU 云服务器上部署 AI 加速引擎 TACO-Training。 介绍 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎,为用户提供开箱即用的 AI 训练套件。 2.8.4编译产生,如果有其他的版本需求,请联系腾讯云售后支持 kubectl create -f taco.yaml 创建成功后, 开始测试 下载 benchmark 脚本并拷贝到 taco 的 /mpirun -np 32 -H taco-bench-worker-0:8,taco-bench-worker-1:8,taco-bench-worker-2:8,taco-bench-worker

    1.9K20发布于 2021-11-26
  • 来自专栏腾讯云服务器团队的专栏

    腾讯云TACO推出混合序列并行USP,大幅提升LLM和DiT训练性能

    A800多机序列并行对比(单位:TFLOPS) 腾讯云:引领AI革命 腾讯云TACO的USP并行方法对开源社区做出了贡献。 搭载USP技术的TACO加速套件将于近期登陆腾讯云高性能应用服务HAI。如果您想探索TACO加速套件的更多应用可能,欢迎点击原文留下您的联系方式。未来已来,智能无限。 让我们共同期待TACO加速带来更多惊喜和可能。 [1]Jacobs, Sam Ade, et al.

    1.7K10编辑于 2024-07-12
  • 来自专栏腾讯云服务器团队的专栏

    腾讯云上线 TACO 加速版,推理速度狂飙80%

    腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境! TACO-LLM:专业级推理加速引擎 腾讯云TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力 通过三大核心能力重构效能标准: 高易用,无缝迁移:TACO-LLM 设计实现了简单易用的接口,完全兼容业界开源 LLM 推理框架 vLLM。 创建完成后,环境会自动拉起TACO加速版DeepSeek模型服务,可直接使用兼容openai格式的api进行调用测试。 DeepSeek-R1 671B TACO加速满血版环境快马加鞭上线中,敬请期待!

    99810编辑于 2025-03-17
  • TACO-LLM推理加速方案:提升AI生成业务吞吐与资源利用率

    针对推理场景,其TACO-LLM推理加速方案通过显存优化与计算优化提升效率。显存优化采用可复用定长缓存与AWQ量化技术,将单机支持参数规模提升38%,最高支持55B参数模型。 量化性能提升:显著提高吞吐并突破资源限制 TACO-LLM方案在真实业务模型中验证了显著的性能增益: 业务生文bt模型测试:在2并发请求下,TACO-LLM处理请求数达到1408个,对比原方案(752个 在5并发与10并发场景下,原方案出现OOM(内存溢出)无法运行,而TACO-LLM分别处理了2305个和2163个请求,极大提高了业务吞吐能力。 业务生文cy模型测试:在2并发请求下,TACO-LLM处理请求数为1923个,对比原方案(1317个)提升46.0%(来源:测试数据)。 同样,在5/10并发时,原方案OOM,TACO-LLM稳定处理2757个和3129个请求。

    14010编辑于 2026-05-31
  • 高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版

    一、环境说明TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM默认集成在了 TencentOS Server AI中,相比其他开源框架,TACO-LLM具有更好的稳定性、安全性以及更高的性能,通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化, 创建实例选择“社区应用”-“DeepSeek-R1 32B TACO 加速版”环境进行创建,实例选择“旗舰型”2.

    40510编辑于 2025-03-10
  • 腾讯云TACO-LLM为荣耀大模型推理提速:吞吐提升2倍,首Token延迟降低12.5倍

    部署TACO-LLM推理加速引擎优化算力调度 基于腾讯云TencentOS Server AI底座,腾讯云为荣耀部署了TACO-LLM大语言模型推理加速引擎。 量化推理效能与多平台运行表现 在荣耀实际业务场景中,TACO-LLM针对DeepSeek-R1满血版及专用模型进行了深度优化,具体量化指标如下: DeepSeek-R1满血版场景(对比荣耀原始线上业务) —— Pedro,北京(评论区用户) 基于TencentOS Server的高性能AI基础设施 腾讯云通过TencentOS Server AI底座结合TACO-LLM加速模块,为荣耀提供了从操作系统底层到模型推理层的全栈优化

    14010编辑于 2026-05-30
  • 来自专栏梦魇小栈

    (译)NPM vs Yarn 备忘手册

    备忘手册 - 你需要知道的 npm install === yarn # 默认安装行为 npm install taco --save === yarn add taco # 将 taco 安装并保存到 package.json 中 npm uninstall taco --save === yarn remove taco --save # 在 npm 中,可以使用 npm config set save npm install taco --save-dev === yarn add taco --dev npm update --save === yarn upgrade # update(更新) vs npm install taco@latest --save === yarn add taco npm install taco --global === yarn global add taco # 确定为什么安装了 taco 检查为什么会安装 taco,详细列出依赖它的其他包(感谢 Olivier Combe).

    73620发布于 2018-10-31
  • 荣耀基于腾讯云TencentOS Server AI底座实现AI推理性能与稳定性提升

    部署TACO-LLM加速模块与TencentOS Server AI底座 腾讯云为荣耀提供针对性解决方案,基于TencentOS Server AI底座部署TACO-LLM加速模块,从技术与架构层面优化推理效率与系统稳定性 : TACO-LLM加速模块采用「投机采样」技术,通过“大胆预测+快速修正”替代逐字计算推理,提升推理速度并优化GPU算力利用;针对交互类高频调用场景定向优化,在高性能GPU平台压缩推理耗时。 ,训练框架集成TACO-Train; 算力管理:通过qGPU实现算力切分与分切; 智算节能:以AI增强操作系统可用性与智能化体验(含内核性能优化、安全加固)。 实现推理速度与稳定性量化提升 应用后荣耀AI推理性能获显著改善,关键指标如下(数据来源:相关产品TencentOS Server AI、TACO-LLM加速模块): 意图识别场景响应速度:TACO-LLM 选择腾讯云的核心优势 腾讯云方案直击荣耀痛点:通过TACO-LLM加速模块的投机采样与高频场景优化,结合TencentOS Server AI的底层OS支撑(算力监控、qGPU管理、智算节能等),在不增加服务器资源前提下

    17410编辑于 2026-05-02
  • 来自专栏全栈程序员必看

    Yarn 安装与使用教程[通俗易懂]

    NPM Yarn 说明 npm init yarn init 初始化某个项目 npm install/link yarn install/link 默认安装依赖 npm install taco –save yarn add taco 安装某个依赖并默认保存到package npm uninstall taco –save yarn remove taco 移除某个依赖 npm install taco –save -dev yarn add taco -dev 安装某个开发时的依赖 npm update taco –save yarn upgrade taco 更新某个依赖项目 npm install taco –global yarn global add taco 安装某个全局依赖项目 npm publish/login/logout yarn publish/login/logout

    2.7K40编辑于 2022-07-25
  • 来自专栏云计算D1net

    边缘计算推动了全球大型墨西哥风味快餐餐厅塔可贝尔的数字化业务

    全球大型墨西哥风味快餐餐厅Taco Bell(塔可贝尔)的技术副总裁表示,联网设备、云服务器加速了其快餐业务的运营。 Taco Bell正在积极利用边缘计算来支持客户下单的多种数字化方式,这家快餐连锁店的技术负责人表示。 作为百胜餐饮集团的一部分,Taco Bell正在其当地餐厅中利用中央云服务和联网设备及软件来处理客户请求和账户数据。 我们的目标是通过在生成数据的地方(例如在本地的Taco Bell)处理数据,并以闪电般的速度应用数据,从而提高应用程序的性能。 Taco Bell花了大约五年的时间来投入开发边缘计算能力,Stadtmueller说。每个位置都会有重复的设备,以便作为停电时的备份。

    60330编辑于 2022-12-08
  • CentOS停服替代与DeepSeek私有化部署:TencentOS Server与TACO-LLM技术实践

    推理加速: 集成 TACO-LLM 推理框架,与vLLM 100%兼容,支持DeepSeek全系列模型(1.5B至671B)。 推理性能: 使用 TACO-LLM 框架,DeepSeek-R1 70B模型吞吐性能提升 80%(对比vLLM,8并发下由65.43 token/s提升至323.73 token/s);DeepSeek-R1

    17210编辑于 2026-05-30
领券