搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏前行的CVer
LLM评测
Open LLM Leaderboard（英文） Open LLM Leaderboard中包含有下列Benchmark：所有能力通用&数学&code——MT-Bench，由80个高质量的多轮对话问题组成的基准是多个数据集的结合，划分了LLM的语言、知识、推理、数学、Code、Agent几类能力。
2.1K10编辑于 2024-08-05
知识学习 | 2026 年 LLM 评测体系 & 主流开源模型启示
一、 LLM 评测体系：当前的 LLM 评测已从简单的学科考试转向复杂的工程与推理挑战。六大核心评测维度维度代表基准考察内容现状综合知识 MMLU 学科选择题顶级模型已达 86-90%，差距缩小深度推理 GPQA 博士级理科问题 GPT-5.4 领先 (93%)，超越人类专家建议企业应自建私有评测集防止模型“背题”；在设计 Agent 流程时，应将大任务拆解并设置人工检查点。
42210编辑于 2026-06-02
DeepEval：LLM 应用评测不再玄学，让大模型评测像写单元测试一样简单
在大模型应用开发中，如何科学、自动化地评测 LLM（大语言模型）的输出质量，一直是让开发者头疼的问题。人工评测虽然靠谱，但效率太低，根本无法支撑快速迭代。 RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架有没有一种方式，能像写单元测试一样，把 LLM 的评测流程自动化、标准化？DeepEval 就是为此而生的。 DeepEval 是 Confident AI 团队开源的 LLM 评测框架。它内置了多种主流的 LLM 评测指标，覆盖了大部分实际场景。比如：你想知道模型输出和标准答案有多接近？用 Correctness（正确性）。想判断答案和用户问题的相关性？小结总的来说，DeepEval 让 LLM 评测变得像写单元测试一样简单自然。
20610编辑于 2026-06-22
来自专栏大前端修炼手册
如何给有状态的LLM系统写一套量化评测
先把"对照组"设计对所有评测的出发点是：你要让变量只剩一个。这样你得到两条链路：链路说明 Full（实验组）请求 → 记忆 → 路由 → 人格 → LLM，完整增强链路 Raw（对照组）请求 + Bypass header → LLM，只保留基座模型那不是评测，那是两个完全不同系统在打架。必须是同一个 LLM 基座，只切增强层的开关。 LLM 的 rubric，惩罚项应与正项同量级甚至更高。如果这篇文章对你有帮助，欢迎分享给正在做 Agent / RAG / Chatbot 评测的朋友。评测基础设施是最容易被忽视、但回报最高的投入。
17410编辑于 2026-04-21
不要上线后才补 LLM 评测：用 promptfoo 先定义失败边界
很多团队把 LLM eval 当成“上线以后再慢慢补”的事情。这个顺序通常会带来一个问题：等系统已经接入真实用户、真实工具和真实预算以后，再去讨论“什么算失败”，成本会高很多。 Doramagic 对 promptfoo 的项目说明书把它概括为一个 LLM eval 和 testing toolkit。它不是简单跑几个 prompt 看输出，而是围绕配置、provider 调用、assertion grading、结果聚合和 CI 集成形成一个评测闭环。断言评分和结果报告：支持字符串匹配、schema 检查、LLM-as-judge、多模态评分等不同层级的判断。这意味着它更像一个 AI 发布前的测试闸门，而不是一个临时 benchmark 脚本。一个判断标准当你准备上线一个 LLM 功能时，不要只问：模型这次答得好不好。更应该问：哪些输入必须失败？哪些工具绝对不能调用？哪些回答必须引用来源？哪些指标下降就必须回滚？
11410编辑于 2026-06-22
来自专栏OpenMMLab
开源模型离GPT-4有多远，OpenCompass LLM评测8月榜单新鲜出炉
基于社区用户的反馈，我们新增了一批重磅功能，让我们一起快速了解一下：扩展开源数据集支持情况，新增 LLM 评测集 Xiezhi, SQuAD2.0, ANLI, CMMLU 提供长文本评测能力，支持 L-Eval, LongBench 等长文本评测集开放多模态评测能力，支持 MMBench, SEED-Bench, MME, ScienceQA 等十余个多模态评测集提升代码评测能力，支持 HumanEval-X 图片来源：OpenCompass 大模型性能对比功能社区开源模型评测结果速览大模型评测是一项复杂的系统性工程，如何构建合理的评测集与公平的评测方式，期待产业界和学术界持续共同探索。 OpenCompass 基于学术社区的 50+ 余个主流中英文评测集上开展评测分析，并发布 8 月中英文综合榜单（相关评测结果受评测集，评测方法等限制，仅反映在 OpenCompass 现有能力维度体系下的模型性能虽然目前学界已经存在许多关于激发 LLM 推理能力的研究，但我们更期待能有更多的研究从训练维度展开，最终产生一种简洁而通用的范式，根本地提升模型的推理能力。
1.3K31编辑于 2023-09-11
来自专栏搜狗测试
软件品质评测系统-评测体系
2 ● 评测体系的内容 ● 评测体系可大可小，根据评测的内容而有所不同，一个完整的评测体系应包含：评测对象评测属性评测场景评测指标在进行评测体系的设计之前，首先应明确评测对象是什么，可以大到一个系统有了评测对象后，根据产品的需求或者应解决的问题，就可以确认哪些评测属性，比如准确度，覆盖度，再比如多样性，健壮性等。评测属性再向下，确认好评测属性的应用场景及指标项，综合形成评测矩阵。将以上结合，就是一个完整的评测体系。 ? 3 ● 评测体系的设计方法 ● 评测对象相对来说比较明确，接下来就是被测对象的特质进行评测属性的选择，以及确认好评测属性后进行评测矩阵的划分。评测场景的选择确认好了评测属性以后，接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。评测矩阵当评测属性，评测场景及评测指标一一敲定后，我们可以根据矩阵思想，将属性，场景及指标建立成一个二维矩阵，后续可以按照迭代的版本维护起来，全面的展示该评测对象需要重点评测的全部内容。
3.5K20发布于 2020-07-14
来自专栏AI工程落地
TensorRT LLM vs OpenPPL LLM
支持模型和功能对比PPL LLM只支持baichuan、chatglm、llama三个模型，Tensor-LLM支持几乎所有大模型。 TensorRT-LLM使用起来更方便模型量化TensorRT-LLM是离线量化，支持更多的量化方法，smooth quant、weight only、AWQ等PPL LLM是实时量化（i8i8），支持整个网络一起量化模型DeployTensorRT-LLM量化结束，不需要deploy中间模型，直接进入编译器。部分模型可以支持onnx可视化PPL LLM不需要deploy以及编译，直接用onnx调算子。 /docs/llama_guide.md at master · openppl-public/ppl.llm.serving (github.com)TensorRT LLM原模型-->量化-->编译两个框架都是tensor并行框架依赖Tensor-LLM需要依赖tensorrt，但主要是一些单算子（卷积、激活函数、gemm等），融合算子都是Tensor-LLM自带的。PPL LLM没有依赖
1.2K30编辑于 2023-11-21
【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用
1、LLM代理的模块化架构 CapaBench采用模块化设计，构建了如下所示的代理框架，旨在全面评估LLM代理在多种环境下的表现。反思模块：通过分析任务失败原因，帮助代理在多回合任务中反思并优化其行为这些模块是了当前LLM Agent架构内解决复杂任务的核心基础，也是LLM Agent能够高效应对各种挑战的关键能力。上述评测集已在AGI-Eval社区平台上线，可跳转链接（https://agi-eval.cn/evaluation/CapaBench）查看。欢迎关注我们官方账号，获取更多专业前沿的资讯和评测内容~ 4、实验评估在我们的实验中，我们设定Llama3-8B-Instruct为所有四个核心模块（规划、推理、行动和反思）的默认实现。我们期待它在学术界和工业界的广泛应用，推动 LLM 代理技术迈向新的高度。
65010编辑于 2025-02-28
来自专栏搜狗测试
软件品质评测系统-评测结果展示
1 ● 为什么要进行数据展示 ● 在前几次的分享中，设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后，我们会拿到第一手的评测数据。在我们之前的实践过程中，拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录，并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现对于在评测设计时选定的评测指标，需要准确完整地展现在评测系统中。我们据此设计了一个评测的结果报告，每次评测完成后会通过该报告给出评测结论： ? 即我们最终展示给用户的评测结论以及各类图标数据，都应当与原始的评测结论、数据保持一致，同时评测结果的展示要与最终上线后预期的结果或趋势保持一致，这样的评测结论才是可信的、有指导意义的。
3.1K20发布于 2020-08-11
来自专栏LuckQI
icx项目评测
（注：在评测公链项目时，我把“使用区块链的必要性”调整为了“产品特色与创新”） ◆代币升值逻辑：16/40 这一点看的有点困惑，感觉icon项目代币升值逻辑的不确定性主要体现在两个方面：一是每年增发与否取决于一个名叫
1.7K20发布于 2018-07-19
来自专栏LuckQI
项目评测etherparty
●总得分：51.1/100分想做的目标很好，但是产品特色和目前的团队配置可能还需要进一步的补强，未来也有必要根据后续的推动情况，作进一步的动态评测。
1.7K20发布于 2018-07-19
来自专栏PHP学习网
PHP技能评测
公司出了一些自我评测的PHP题目，其中好多题目在面试的时候都会碰到，大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用?
1.6K30编辑于 2022-08-03
来自专栏数据结构与算法
2840 WIKIOI——评测
2840 WIKIOI——评测时间限制: 1 s 空间限制: 2000 KB 题目等级 : 白银 Silver 题目描述 Description Wikioi上有一题有N个测试点，时限为
1.6K80发布于 2018-04-13
来自专栏k8s技术圈
LLM On Kubernetes
从今年开始，人们对大型语言模型 (LLM) 及其在 GPU 基础设施上的部署的兴趣显着增加。这种不断增长的热情是由人工智能和机器学习的进步推动的，这需要 GPU 能够有效提供大量的计算能力。 Ollama 是一个开源的机器学习模型部署工具，它可以帮助您将模型部署到生产环境中，简化大型语言模型 (LLM) 的管理和交互。
87110编辑于 2024-07-20
来自专栏时空探索之旅
WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】
本文总结了2026 WWW上有关LLM Graph的相关论文，包含Research一个Track的论文（没有其它track），总计24篇，如有疏漏，欢迎补充。笔者将LLM和Graph结合的工作分为两大类，一类是LLM4Graph，即LLM做图任务。另外一类是利用Graph4LLM，即利用图这种格式来增强LLM的能力。 LLM4Graph1. Disentangled Graph LLM for Molecule Graph Editing under Distribution Shifts4. ，RAG 推荐阅读 ICLR 2026 | LLM×Graph论文总结【LLM4Graph与Graph4LLM】 ICLR 2026 | Rebuttal前图基础模型(GFM)&文本属性图(TAG)高分论文
53310编辑于 2026-03-10
triton+tensorrt-llm后端部署LLM服务
/trtllm_checkpoint_fp16 \ --dtype float16 ❝[TensorRT-LLM] TensorRT-LLM version: 0.17.0.post1 [TensorRT-LLM][INFO] Refreshed the MPI local session [TensorRT-LLM][INFO] MPI size: 1, MPI local size : 1, rank: 0 [TensorRT-LLM][INFO] Rank 0 is using GPU 0 [TensorRT-LLM][WARNING] Fix optionalParams : ] TRTGptModel maxNumSequences: 2048 [TensorRT-LLM][INFO] TRTGptModel maxBatchSize: 2048 [TensorRT-LLM : 0 [TensorRT-LLM][INFO] TRTGptModel maxNumTokens: 8192 [TensorRT-LLM][INFO] TRTGptModel maxInputLen:
65910编辑于 2026-03-25
来自专栏NewBeeNLP
LLM in Reranking——利用LLM进行重排
现有的涉及LLM的重排方法大致可以分为三类：用重排任务微调LLM 使用prompt让LLM进行重排以及利用LLM做训练数据的增强本文中针对前两种方法介绍一些研究。 Method 使用TF-IDF相似度得到初步的候选文档集，再使用LLM进行重排。 LLM对召回的文档先进行打分，保留top K_1个文档，用超链接对这些文档进行扩展，再用LLM对扩展文档打分并挑选top K_2的文档，如此往复直到到达最大深度H。一方面，LLM的输入长度对于一个文档列表来说还是十分受限的，必须通过滑动窗口或集成的方式才能实现文档输入。另外，还有参数过剩与时效性的问题会导致LLM重排器难以落地。
3.7K30编辑于 2023-10-25
来自专栏个性化推荐评测
TTS系统评测方法介绍--WSRD AI评测实验室
AI评测实验室针对TTS前端、后端的存在的问题，选取TTS评测指标，制定各指标评测方法，形成了一套系统的TTS评测方案。二、评测指标介绍针对上文提到的前后端可能存在的问题，选择如下指标来评测TTS。 [lf3hxj32az.png] 三、评测方法介绍本章详细介绍评测时重点关注的发音准确性评测和MOS评测。评测方法数字部分的评测方法与符号类似，为加快标注速度直接对前端归一化输出做判断，而不是对测试语料进行标注后再与前端输出结果做比较，形式如下： [lqd2s3xxui.jpg] 3.2 MOS评测 MOS 语料建设前端的评测通过发音准确、韵律准确等来评测，MOS评测应该专注于整体自然度，因此准备测试语料的时候尽量避开了多音字、符号、数字语料，从各领域和TTS实际应用场景摘选常规文本作为测试语料。
19.1K115发布于 2018-07-02
来自专栏搬砖笔记
Linux评测Bench脚本
中文脚本 wget -N --no-check-certificate https://raw.githubusercontent.com/FunctionClub/ZBench/master/ZBench-CN.sh && bash ZBench-CN.sh 英文脚本： wget -N --no-check-certificate https://raw.githubusercontent.com/FunctionClub/ZBench/master/ZBench.sh && bash ZBench.s
2.7K10编辑于 2021-12-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

LLM评测

知识学习 | 2026 年 LLM 评测体系 & 主流开源模型启示

DeepEval：LLM 应用评测不再玄学，让大模型评测像写单元测试一样简单

如何给有状态的LLM系统写一套量化评测

不要上线后才补 LLM 评测：用 promptfoo 先定义失败边界

开源模型离GPT-4有多远，OpenCompass LLM评测8月榜单新鲜出炉

软件品质评测系统-评测体系

TensorRT LLM vs OpenPPL LLM

【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用

软件品质评测系统-评测结果展示

icx项目评测

项目评测etherparty

PHP技能评测

2840 WIKIOI——评测

LLM On Kubernetes

WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】

triton+tensorrt-llm后端部署LLM服务

LLM in Reranking——利用LLM进行重排

TTS系统评测方法介绍--WSRD AI评测实验室

Linux评测Bench脚本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐