首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏音视频技术

    【今晚7点】:视频质量评估体系

    点击上方“LiveVideoStack”关注我们 在实际中,受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估? 如何解决评估者的差异导致的结果偏差?如何对主观评估进行有效的管理和调度?如何解释主观评估和客观算法之间的一致性? 针对上述问题,今晚7点LiveVideoStack特别邀请到了百度 资深测试工程师 王伟老师为大家带来以视频质量评估体系为主题的内容分享。 演讲内容及讲师信息: 主题:视频质量评估体系 视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。 2012年加入百度,从事过质量改进和效率提升的相关工作,也从事过产品分析的相关工作,目前主要从事视频评测相关方向的研究和实践,百度视频质量评测技术负责人,主导并建设百度首个体系化的视频质量评测服务平台,

    50110编辑于 2023-02-23
  • 来自专栏网优小兵玩Python

    《NB-IOT网络指标评估体系

    优质的网络应做到覆盖合理、干扰抑制、容量优化和业务感知优良,因此NB网络性能评估与优化主要指标需从覆盖、干扰、容量、完整、接入、保持六个维度同时开展。 因此基于相关算法梳理上述六大类网络性能指标与用户感知指标的关系,同时参考了LTE网络指标体系,并结合物联网自身特有指标,对38项细分指标进行了分类分级别,从中选取与用户感知相关性最高的指标作为主要指标( 同时,针对每个指标的重要程度,设计了指标权重,实现网络质量的量化评估,从而针对网络短板进行网络优化,提升用户感知。 ? 指标评估体系中,相应数据源为扫频测试的相关指标,采用栅格化汇总方式统计指标。

    1.9K10发布于 2019-09-08
  • OCR转Markdown评估体系存在根本缺陷

    评估将PDF或文档图像转换为Markdown的OCR系统远比表面看起来复杂。与纯文本OCR不同,OCR转Markdown要求模型同时恢复内容、布局、阅读顺序和表示形式的选择。 本文概述了为何OCR转Markdown的评估天生就是规定不足的,审视了常见的评估技术及其失败模式,指出了在两个广泛使用的基准测试中观察到的具体问题,并解释了为何尽管不完美,但目前使用LLM作为评估器是最实用的方法 为何OCR转Markdown难以评估核心问题在于,OCR转Markdown并不存在单一的正确答案。多个输出可能同样有效:多列布局可以用不同的阅读顺序进行线性化。 常见评估技术及其局限性1. 基于字符串的指标 (编辑距离、精确匹配)大多数OCR转Markdown基准测试依赖于规范化字符串比较或编辑距离。局限性Markdown被视为扁平字符序列,忽略了其结构。 这些子集实际上评估的是选择性抑制能力,而不是OCR质量。此外:当公式不是完全归一化的LaTeX时,侧重数学的子集就会失败。由于表示形式的差异,正确的预测也会受到惩罚。

    16410编辑于 2026-03-12
  • 来自专栏音视频技术

    【公开课预告】:视频质量评估体系

    点击上方“LiveVideoStack”关注我们 在实际中,受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估? 如何解决评估者的差异导致的结果偏差?如何对主观评估进行有效的管理和调度?如何解释主观评估和客观算法之间的一致性? 针对上述问题,2月16日晚7点LiveVideoStack特别邀请到了百度 资深测试工程师 王伟老师为大家带来以视频质量评估体系为主题的内容分享。 演讲内容及讲师信息: 主题:视频质量评估体系 视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。 2012年加入百度,从事过质量改进和效率提升的相关工作,也从事过产品分析的相关工作,目前主要从事视频评测相关方向的研究和实践,百度视频质量评测技术负责人,主导并建设百度首个体系化的视频质量评测服务平台,

    66920编辑于 2023-02-23
  • 来自专栏DeepHub IMBA

    从零开始构建AI Agent评估体系:12种LangSmith评估方法详解

    评估技术体系架构 基于标准答案的评估方法 这类方法包括环境配置、精确匹配评估、非结构化问答评估、结构化数据比较以及动态标准答案等技术。 程序性评估(过程分析) 此类别涵盖轨迹评估、工具选择精度分析、组件级 RAG 评估、基于 RAGAS 的 RAG 评估以及实时反馈机制。 精确匹配评估是最基础但至关重要的评估方法之一。 评估技术体系总结 通过探索使用 LangSmith 进行 AI Agent 评估的十二种不同技术,我们构建了一个全面的评估框架。 迭代改进流程使用评估结果指导开发优先级,A/B 测试不同方法,根据生产反馈更新评估标准。 分阶段实施路线图 基础评估阶段使用精确匹配或非结构化问答设置基本评估,创建初始数据集,建立评估管道。

    2.6K13编辑于 2025-08-20
  • 来自专栏绿盟科技研究通讯

    绿盟安全风险评估算法体系

    在我们看来,想要预防,必须先要有安全风险的评估体系,基于整个网络系统提供的各类基础数据,构建风险评估体系,从这个风险评估体系中,我们可以知道整个系统中,哪个部分是由于自身的脆弱性而容易导致被攻破;哪个部分是由于对外暴露而容易被攻击 因此,基于此,我们必须有一整套安全风险评估体系,对整个系统有一个从定性到定量的风险呈现。 本文就是基于国标对安全风险评估的定义,绿盟科技提出如何从定性到定量实现单资产风险评估算法,并在此基础之上,如何构建安全风险分层量化体系,实现不同层级安全域风险的聚合及计算。 2风险量化评估体系 按照木桶权重算法,逐级计算出安全域风险值(包括安全域的脆弱性值及威胁值)和总风险值(包括总脆弱性值及威胁值),体现资产域整体安全风险的最薄弱环节,体系如上图所示: 基于木桶权重算法 ,使得体系的安全风险评估结果更能接近于真实的网络安全现状。

    3.4K30发布于 2019-12-11
  • 来自专栏欧阳大哥的轮子

    移动客户端的证书、策略、信任评估体系

    安全体系一直都是公司需要完成基础设施的支撑。安全包括了数据安全、通信安全、操作安全、代码安全等功能。有的组织则提供了一套标准的安全规范和技术标准比如PKI。 ---- 第一章、通信安全 第一节、通信安全介绍 第二节、加密解密算法介绍 第三节、公私钥体系 第二章、证书 第一节、证书的应用场景 第二节、证书的结构 第三节、证书认证机构(CA) 第三节 android中的实现 第三章、策略 第一节、策略的概念 第二节、策略的种类 第三节、策略在iOS中的实现 第四节、策略在android中的实现 第四章、信任 第一节、信任的概念 第二节、信任的评估

    1K20发布于 2018-08-22
  • 来自专栏NLP/KG

    向量召回:深入评估离线体系,探索优质召回方法

    评估指标的体系上,随着经验的积累,也在不断进行演化,基于时间线,我们将评估体系的演化分为三个版本,下面对三个版本逐次展开介绍。 1.2 第一版第一版的评估体系的建设中,我们主要考虑解决模型离线迭代过程中的指标评估问题和构建完全量索引后的指标评估问题。 ;对全量索引上召回的数据是未标注过的,如果对每次召回结果进行人工标注评估,成本过高,因此,如何进行自动化的评估就成了我们在第一版的评估体系中重点思考的问题。 图片图片1.3 第二版从第二版的评估体系开始,我们的应用场景切换到了搜索的通用搜索场景,因此,在评估体系上也会有一些变化。第一版的问题我们在第一版的指标体系使用过程中,发现了一些问题:1. 目前第三个版本的指标体系我们还在持续的优化中,我们也希望随着优化和迭代,我们的第三版评估体系帮我们更全面、更高效的评估模型效果。

    1.7K20编辑于 2023-10-17
  • 来自专栏深圳架构师同盟

    基于Human3.0评估体系的个人评估-修行中的架构师角色

    今天分享下基于Human3.0评估体系,参考我个人最近10年历史文章输出对我个人进行评估的一个完整输出。 参考提示语: 当前项目markdown目录下,是我个人输出的markdown格式的博客文章。 当前项目下 Human3个人评估.md 是一个评估模板。我现在需要你基于这个评估模板,参考我输出的历史文章,对我个人进行全面评估。然后输出一个完整的Markdown格式的评估报告给我。 他批评现有模型往往局限于单一领域,而HUMAN 3.0则将心智、身体、精神、职业四个维度整合为相互支撑的整体系统。 HUMAN 3.0 个人发展评估报告 评估对象: 何明璐 (人月聊IT)评估时间: 2025年1月16日评估方法: 基于 HUMAN 3.0 模型,通过分析 2014-2025 年间的 400+ 篇博客文章进行全面评估评估评估完成时间: 2025-01-16评估有效期: 建议6个月后重新评估(2025-07-16)下次评估重点: 商业化进展+社群建设+身体象限多样化 本报告由AI HUMAN 3.0发展评估系统生成,基于对

    85811编辑于 2026-01-19
  • 零信任架构落地后:如何科学构建实施效果评估体系

    评估零信任实施效果的关键指标要评估零信任的实施效果,首先需要明确一些关键指标。用户访问安全性是最基本的要求,包括用户身份验证的有效性以及权限管理的准确性。 完善用户访问安全性的评估方法为了评估用户访问安全性,首先需制定详细的评估标准,确保覆盖所有关键环节。可以通过建立身份验证机制,依据用户角色授予不同权限。 提高数据保护效果的评估与反馈机制在零信任环境下,数据保护效果的评估需要建立系统性的反馈机制。首先,应明确数据保护的关键点,如数据加密、访问控制和身份验证等,并为每个环节制定具体的评估标准。 其次,可以通过数据泄露事件的分析、用户活动审计和风险评估报告等多种方式,收集反馈信息。这些信息不仅能帮助发现潜在的安全隐患,还能为后续的改进措施提供依据。 通过定期检查和评估,企业能够及时发现潜在的安全漏洞和风险点。这一过程不仅关注技术层面的安全设置,还包括用户行为的分析,以确保访问权限与实际需求相符。

    34610编辑于 2025-09-15
  • 来自专栏PPV课数据科学社区

    【必看】最完善的公司数据分析评估指标体系

    一个健全的评估体系将会告诉你,企业现在走向何方,是否高效灵活地朝着既定方向前进---这些在今天的竞争环境中,是企业做到与众不同的关键。 如果在整个企业实施适当的评估体系,创造良好绩效的各种要素就可以得到有效的监控。这样,像业务流程管理(BPM)和六西格玛这样的举措,实施起来就可以事半功倍。 建立评估体系,企业要做一些艰苦的工作,比如评估方法的确定、筛选、汇总、报告,但这是一劳永逸的工作,而不是每次实施新举措都要从头开始重复一遍。

    1.1K40发布于 2018-04-19
  • 来自专栏大模型应用

    大模型应用:中文大模型本土化效果评估方案:体系化方法、评估指标.81

    一、评估核心原则 评估中文大模型的本土化效果,核心是围绕“中文理解、文化适配、本土场景落地、合规性对齐”四大核心维度,建立分层级、可量化、贴合本土实际的评估体系,既包含通用NLP的基础能力验证 二、分层评估体系 按“基础语言能力→文化深度适配→本土场景落地→合规与价值观对齐”由浅入深分层,每个层级对应评估维度、量化指标、实操方法、评估语料,语料均为中文原生语料,指标可直接计算,方法可快速落地 核心要求:人工评估需制定 《中文大模型文化适配评估手册》,明确每个场景的打分标准,确保评估者判断一致。3. 评估逻辑:按场景构建标准化任务库→模型执行任务→评估任务完成效果,每个场景的评估指标贴合场景实际需求,不能按通用指标一刀切。 实际过程中,自动化评估能提效,人工评估能补深度,两者结合才靠谱,而且评估不是一锤子买卖,要和模型优化形成闭环,根据评估结果补语料、做微调,再反复复评。

    32821编辑于 2026-04-19
  • 来自专栏素质云笔记

    笔记︱风控分类模型种类(决策、排序)比较与模型评估体系(ROCginiKSlift)

    可以作为初始模型的金模型(用以评估在给定数据条件下,逻辑回归可达到的最精确程度) 2、线性(逻辑回归)+非线性关系,可用于行为评分的预测模型(行为评分对模型可解释性不强),可用于申请评分的金模型 3、使用场景 —————————————————————————————————————————— 二、分类模型评估体系 上述将分类模型做了归纳,不同的分类模型所采用的评估体系不同。 决策类:准确率/误分率、利润/成本 排序类:ROC指标(一致性)、Gini指数、KS统计量、提升度 1、决策类评估——混淆矩阵指标 混淆矩阵,如图:其中这些指标名称在不同行业有不同的名称解释 ? 2、排序类指标评估 ROC指标(一致性)、Gini指数(洛伦兹曲线)、KS统计量、提升度四类指标。 ? (1)ROC曲线 对角线模型,最差,风控喜欢的指标。 它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少(分类模型评估——混淆矩阵、ROC、Lift等)。

    3.8K10发布于 2019-05-26
  • App下载量VS安装量:openinstall如何构建多维度评估体系?

    在移动互联网时代,App推广效果评估始终面临一个核心悖论:当用户在应用商店点击下载按钮的瞬间,数据追踪陷入 "黑盒" 状态。 在App效果评估体系中,"下载量" 指标的统计口径始终存在争议。 二、核心指标对比:下载量与安装量(激活量)在移动App推广中,评估渠道效果、优化运营策略都需要根据指标溯源和预估。 三、openinstall如何构建多维度评估体系在H5渠道推广方面,openinstall能够根据业务需要,用简单灵活的方式创建管理成千上万的推广渠道链接,并分别统计不同链接带来的落地页访问量、点击量、 注册量统计进阶版:openinstall全链路追踪工具+ 后台埋点分析旗舰版:全链路追踪工具 + 大数据分析平台总结App下载量当前只能作为参考变量,运营层面上应构建以激活量为核心、全链路数据驱动的评估体系

    75810编辑于 2025-03-24
  • 来自专栏App渠道推广

    渠道分析促增长,App如何靠渠道来源追踪构建评估体系

    ……如果不从技术上做效果评估,很多线上线下的数据我们只能靠猜测,或者只能相信一些片面且带有误差的统计源,即便你拥有了页面的访问量、手机号码登记、现场人员签到等信息,也无法打通用户后续的转化行为,渠道来源与转化结果之间始终隔着楚河汉界 openinstall传参安装技术打造的渠道统计功能,就可以用于分析用户(包括访客)的来源,通过访问量、安装量、注册量、购买量等基础指标评估渠道质量。 (5)优化推广策略有了渠道流量和渠道质量的分析方法后,在渠道分析策略方面,我们就可以根据渠道的现状、属性等信息进行排兵布阵,简单来说,可以从流量的规模和质量等方面入手评估,通过指标筛选等能力得到以下四个分类 案例:不同渠道来源的新用户综合评估首先确定好转化目标,当用户完成某个正面的操作活动时(注册、购买、订阅等),都可以被视为达成一次转化目标,提高转化率是提高企业ROI的最快方法之一,意味着企业运营逐渐高效 比如针对用户留存的情况,我们在渠道报表中选择好日期,然后对各个获客渠道进行降序排列,就能够轻易评估出各个渠道的留存率高低,从而制定更合理的计划,客观且综合的评估渠道价值。

    55410编辑于 2024-09-13
  • 来自专栏AI SPPECH

    58_大模型评估与评测:构建科学的多维度评测体系

    本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 第四章:多维度评估指标体系 4.1 基础能力指标 基础能力指标评估模型的语言理解、生成和推理等核心能力: 1. 7.2 医疗健康领域评估 医疗健康领域对大模型的要求极高,评估体系需要特别严格: 1. 本文系统地探讨了大模型评估的理论框架、方法体系、实践案例和未来趋势,为读者提供了一套完整的大模型评估指南。

    1.5K11编辑于 2025-11-13
  • 来自专栏数据猿

    大数据打造六维车险评估体系,律商风险再出发

    2023年,面对新能源汽车、智能驾驶的风口,律商风险又适时升级风险评估产品,成为新能源车、ADAS智能辅助驾驶大普及时代车险评估技术的领头羊。 六大维度评估车险,覆盖99%车险公司 作为基于大数据技术的车险专家,律商风险采集六类数据,从六大维度描述风险暴露,形成一个评估车险的综合体系。 除了从车、从人、用车、环境四个维度之外,面对新能源汽车、ADAS智能驾驶辅助系统的普及,律商风险又引入相关评估维度,完善车险评估体系。 在新能源汽车领域,律商风险主要关注三电系统——电池、电机和电控。 为配合行业对于风险减量的需求,律商风险又推出一系列关于新能源车特定参数、特定指标的风险管理体系。 在人工智能兴起之后,律商风险又主动拥抱机器学习、计算机视觉等新技术,不断完善六大维度的车险评估体系

    47110编辑于 2023-11-20
  • 三步构建AI评估体系:从解决“幻觉”到实现高效监控

    1、什么是AI评估? 2、怎么构建评估?那么,如何为自己的AI应用构建评估体系来解决幻觉等问题呢?其实并不需要特别高深的技术,核心是遵循一个从理解问题到自动化监控的流程。 3、关于“评估”争论当前网络上对“评估”的反对声音,主要源于两种普遍的误解:一是对评估范畴的狭隘化理解,二是曾被不成熟的评估方法所伤害。首先,最常见的误解是将“评估”简单等同于“单元测试”。 评估是衡量AI沟通质量的一整套方法论体系,而单元测试只是其中用于验证确定性功能的一种工具。 所以,当我们进行AI评估时,目标是改进我们的AI产品,而非拥有完美的评估技巧,评估只是手段,而不是目的。如果发现一个明显的问题能立即修复,那就直接去修复它就行了。

    29500编辑于 2025-10-08
  • 智能体系统与AUC评估:从二元决策到连续评分

    如果我们的新模型是智能体且以决策为中心,但我们的评估标准是基于概率的,我们就需要将两者联系起来的方法。 本文的目标是提出为智能体系统获取AUC的方法,以便我们能够就新方案与以往和现有解决方案相比的性能提升展开具体讨论。 为了使用AUC评估智能体解决方案,我们必须创建一个连续评分,用以捕捉智能体认为某个病例为阳性的确信程度。我们需要什么为了计算智能体系统的AUC,我们需要一个反映其内在风险评估、置信度或排序的连续评分。 总结智能体系统正逐渐成为AI(包括医疗用例)的核心,但它们输出硬性决策的倾向与我们传统评估风险和检测模型的方式相冲突。 这使新的智能体解决方案能够基于已建立的基线进行评估,并允许我们使用临床医生、统计学家和评审人员已经熟悉的相同语言和方法来评估它们。有了AUC,我们才能真正评估智能体系统是否增加了价值。

    26610编辑于 2026-01-01
  • 来自专栏数据派THU

    独家 | 一文读懂推荐系统知识体系-下(评估、实战、学习资料)

    本文主要阐述: 推荐系统的评估(Evaluation) 推荐系统的冷启动问题(Cold Start) 推荐系统实战(Actual Combat) 推荐系统案例(Case Study) 推荐系统的评估(Evaluation) 如何判断推荐系统的优劣?这是推荐系统评测需要解决的首要问题。 Facebook团队从物品平均评分、前1/10/100物品的评分精度、所有测试物品的平均精度等来评估推荐系统。

    4.4K70发布于 2018-03-22
领券