首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习之旅

    量化评估推荐系统效果

    推荐系统最有效的方法就是A/B test进行模型之间的对比,但是由于现实原因的局限,存在现实实时的困难性,所以,梳理了一些可以补充替代的指标如下,但是离线评估也存在相应的问题: 数据集的稀疏性限制了适用范围 评价结果的客观性,由于用户的主观性,不管离线评测的结果如何,都不能得出用户是否喜欢某推荐系统的结论,只是一个近似的评估。 深度评估指标的缺失。 冷启动 Exploration 和 Exploitation问题 离线模型之间的评估 召回集测试 recall 命中skn个数/用户真实点击skn个数 precision 命中skn个数/所有预测出来的 离线模型与在线模型之间的评估 很多时候,我们需要确定离线模型的效果足够的健壮才能允许上线进行线上测试,那如何进行离线模型与线上模型的评估对比就是一个比较复杂的问题。 其他评估方向 覆盖率 推荐覆盖率越高, 系统给用户推荐的商品种类就越多 ,推荐多样新颖的可能性就越大。

    2K30发布于 2018-08-27
  • 在Elasticsearch中评估标量量化

    然而,在此之前,我们希望系统地评估其质量影响。多语言E5-small是我们在Elasticsearch中提供的一种高质量的多语言段落嵌入模型。 这次实验的目的是估计使用此模型在广泛的检索任务中执行标量量化kNN搜索的效果,如此处所描述。更具体地说,我们的目标是评估从全精度索引切换到量化索引时的性能降级(如果有的话)。 方法概述对于评估,我们依赖BEIR,对于我们考虑的每个数据集,我们都使用默认的超参数(m: 16,ef_construction: 100)构建了一个全精度索引和一个int8量化索引。 接下来,我们考虑使用未量化版本的多语言E5-small(参见模型卡片这里)重复相同的评估过程,表2显示了相应的结果。 在Arguana上使用相同的设置,可以将分数从0.379增加到0.382,从而将相对性能下降从1.3%限制到只有0.52%结论我们评估的结果表明,标量量化可以用来减少Elasticsearch中向量嵌入的内存占用

    83431编辑于 2024-05-07
  • 来自专栏绿盟科技研究通讯

    数据脱敏的风险量化评估方案

    为了得到风险小且信息损失量小的发布数据集,需在发布脱敏数据集之前应对其进行评估,若评估后的脱敏数据集质量达到用户对数据价值要求同时攻击者很难窃取敏感信息,那么就可以发布。 本文讨论的风险评估算法也是基于匿名化处理数据的风险评估,也适用于其他脱敏算法。 二、K匿名相关知识简介 根据发布数据集的内容不同,数据集存在的风险也不同;如何去量化评估数据集存在的风险,就应该先对数据的敏感级别进行一个合理的划分。 隐私的度量与量化表示 数据隐私的保护效果是通过攻击者披露隐私的多寡来侧面反映的。现有的隐私度量都可以统一用“披露风险”(Disclosure Risk)来描述。 本文的隐私风险评估方案是基于k匿名后的数据进行评估;于此同时,k匿名技术也是一种比较科学的脱敏方式,因此也适用于其他脱敏处理的结果集。

    3.3K30发布于 2021-09-06
  • 来自专栏绿盟科技研究通讯

    AISecOps:量化评估告警筛选方案的性能

    如果不能对告警筛选方法的性能和价值进行量化评估,多数企业可能都难以认可如此高昂的成本。 在设计性能评估指标之前需要先明确的是,告警筛选是一个与具体场景有关的、需要大量外部知识的、非常复杂的过程。 图5 某告警筛选方法的Top10精确率评估 至于具体的N值,应当根据实际情况确定。 即使不考虑对告警筛选方法的评估,内部红蓝对抗也是暴露企业安全风险、提高整体安全建设水平的不二法门。 后记 以上三种指标都是目前针对告警评估方法的有效评估指标。此外,一些常规运营指标(如MTTD),甚至用户问卷等方法也都可以加入对告警筛选方法的性能评估中。 但显然地,要全面评估一个告警筛选方法的性能,仅靠一个或几个单纯的性能指标显然是不够的。至于实际采用哪些指标来进行评估,应当根据企业自身智能安全运营的整体目标而定,而不应作为一项孤立的工作来开展。

    86120编辑于 2022-11-14
  • 来自专栏人力资源数据分析

    培训量化评估四级分析(视频分享)

    培训量化评估四级分析 http://mpvideo.qpic.cn/0bf2duaaeaaa5aajigrpf5qvahodaioqaaqa.f10002.mp4?

    56440编辑于 2022-02-10
  • 来自专栏架构师之路

    互联网产品到底如何量化评估满意度?

    痛点:互联网服务/产品,难以量化评估用户的满意度。 互联网现在流行的是净推荐值NPS。 1. 什么是NPS?

    1.8K50发布于 2018-03-02
  • 来自专栏知了一笑

    数据分析:复杂业务场景下,量化评估流程

    一、量化思维 在编程体系中有很多复杂的业务是很难理解的,但是又需要做一个量化分析,给业务人员或者运营,或者用户一个参考标准,例如常见指数,芝麻分数,店铺等级,这类业务评定标准非常复杂,因为影响结果的因素很多 实际上复杂业务场景的量化过程是复杂且漫长的,需要对多个维度的数据做收集,有时候不但需要做周期性量化,例如几家大厂的信用分,也可能存在实时分析的场景,金融业务中的欺诈风控等,也有两种场景综合的实时推荐体系 ,都会用到量化流程。 1、综合评估 对用户、店铺、产品等多种场景做综合评估,把一个复杂的事物通过多个维度抽象分析,生成简单容易理解的评估结果,例如店铺等级、产品评分、用户综合指数等,进而对各个使用场景产生参考的依据。 三、实现思路 1、维度规则表 维护一份维度的评估规则表,classify_sign理解为同一业务场景下的划分标识,weight则标识该维度在评估中的比重。

    96030发布于 2020-12-11
  • 来自专栏科学计算

    每天一点量化知识---策略风险评估指标

    其中pend是策略最终总资产,pstart是策略初始总资产,n是回测的交易日数量,那250是什么东西呢?表示一年中可交易的天数,因为我们的指标是年化收益,一年不能用365表示,要用25。

    1.9K20发布于 2020-06-30
  • 来自专栏AI科技评论

    ACL 2021 | 面向可量化的对话连贯性评估

    本文是对发表于自然语言处理领域顶级会议ACL 2021的论文“Towards Quantifiable Dialogue Coherence Evaluation(面向可量化的对话连贯性评估)”的解读 针对对话系统的连贯性评估问题,该论文提出了一个新型的两阶段指标训练框架QuantiDCE,旨在让自动评估指标学习到各种不同连贯性程度的对话回复之间的区别,掌握量化的能力,从而更为精准地输出连贯性分数。 指标打分 1 实验方法 为了解决上述局限,本文提出了一个新型指标训练框架QuantiDCE,旨在让自动指标具有量化的能力。 另外,因为用于微调的数据量很少,模型很容易会出现过拟合的现象,导致之前在预训练阶段学习到的量化知识都被遗忘掉。 通过两阶段的递进式训练,逐步让指标模型掌握量化的能力,从而能够输出与人工打分更为一致的连贯性分数。

    1.5K60发布于 2021-07-03
  • 来自专栏系统信任增长范式

    信任是否可以被量化?系统如何“评估”一个主体

    因此,在系统推荐、长期评估成为主流的今天,一个问题无法再被回避:**信任,是否可以被量化?如果可以,系统究竟在“算”什么? **二、一个常见误解:量化≠打分很多人一听到“量化信任”,第一反应是:评分体系信用分排名机制但这恰恰是对系统判断的最大误解。 **三、系统并不评估“态度”,只记录“行为轨迹”在人类社会中,我们习惯用语言判断可信度:你是不是足够真诚你说得有没有道理你态度是否诚恳但系统无法理解这些抽象判断。 四、系统真正评估的,是“变化趋势”这是一个非常关键、但经常被忽略的事实:**系统评估的不是“绝对值”,而是“变化速度与方向”。 ”所以,当我们说“信任是否可以被量化”,真正被量化的,并不是人格或动机,而是:行为的一致性时间维度上的稳定性错误后的修复方式波动是否可解释系统在做的,是一种轨迹评估,而非人格裁决。

    17610编辑于 2026-01-09
  • 来自专栏大数据文摘

    学界 | 量化评估、算法拓展:强化学习研究的10大原则

    评估推动进步 ? 量化评估才能推动进步。评估奖励的选择决定了进步的方向,要确保评估指标与目标密切相关,避免主观评价(例如人类学科)。还有一点,双Q学习优于单Q学习,因为后者能减少偏见。 关键是要设计一系列具有挑战性的任务,即应该对不同的新任务进行评估。避免过度使用当前的任务。 相信Agent的经验 ? 不要依赖人类的专业知识,不要依赖于工程特征。

    62930发布于 2018-12-26
  • 僵尸API清理的ROI评估:腾讯云API安全助您量化安全投资回报

    然而,清理工作常因ROI难以量化而搁置。本文将解析如何科学评估僵尸API清理的ROI,并介绍腾讯云API安全工具如何降低成本、提升效益。 ROI评估需平衡成本与收益:成本涉及人力、工具采购及时间投入;收益包括风险降低、效率提升及合规达标。 二、ROI评估框架:成本与收益量化 成本项: 直接成本:清理团队的人力投入(如安全工程师工时)、工具订阅费用。 间接成本:业务中断风险、培训成本。 可量化风险规避(如减少50%事件) 三、腾讯云API安全:ROI优化的关键工具 腾讯云API安全以“零改造、即开即用”为核心,精准应对僵尸API清理痛点: 资产全自动发现:通过流量分析动态识别API资产 结语 僵尸API清理的ROI评估绝非“纸上谈兵”,而是企业安全战略的核心环节。腾讯云API安全以自动化、智能化能力,将抽象风险转化为可量化的投资回报,助力用户以最小成本实现最大安全效能。

    14410编辑于 2026-01-08
  • 《构建鸿蒙Next AI轻量化模型评估指标体系:解锁智能新境界》

    在鸿蒙Next的生态中,建立适合人工智能轻量化模型的评估指标体系至关重要,它是衡量模型性能、指导模型优化的关键。以下是构建该评估指标体系的要点。 - 存储占用:轻量化模型的存储大小,较小的存储占用可节省设备空间,便于模型更新和部署。稳定性指标- 崩溃率:统计模型在一定时间和运行次数内出现崩溃的频率,低崩溃率是模型质量的重要保证。 - 容错能力:评估模型在遇到异常输入、网络故障、硬件故障等情况时的恢复能力和错误处理能力。 在建立评估指标体系时,还需根据具体的应用场景和需求,确定各指标的权重。例如,智能驾驶场景中,准确性和响应时间权重较高;而在智能手表的健康监测应用中,资源占用和稳定性可能更为重要。 同时,可通过实际测试、模拟用户场景等方式收集数据,对模型进行全面评估,并利用评估结果指导模型的优化和改进,从而不断提升鸿蒙Next人工智能轻量化模型的性能和质量,为用户带来更优质的智能体验。

    38210编辑于 2025-01-21
  • 来自专栏机器之心

    大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

    )这项工作中评估了不同模型、量化不同张量类型、使用不同量化方法、在不同任务上的性能,本篇工作已被ICML'24接收。 Quantized Large Language Models 》(Qllm-Eval)这项工作中评估了不同模型、量化不同张量类型、使用不同量化方法、在不同任务上的性能。 另外还评估了最先进的 (SOTA) 量化方法,以验证其适用性。 图注:在LAMBADA数据集上对LLaMA2模型,使用AWQ和SmoothQuant方法的评估结果 这些评估结果说明,当使用极低的位宽时,如W2或W4A4,若想使用SOTA量化方法将模型性能恢复到类似于 5、总结与未来指引 本文全面评估了PTQ量化技术在模型层面、任务层面、量化张量类型层面、量化方法层面对大语言模型性能的影响。

    99620编辑于 2024-06-27
  • 来自专栏有文化的技术人

    RAG 评估实战指南:用 RAGAS + LangFuse 构建可量化的检索增强生成系统

    本文将介绍如何使用 RAGAS 框架进行自动化评估,并通过 LangFuse 实现评估过程的可观测性。❞ 一、为什么需要 RAG 评估? 仅凭人工抽检,既不可扩展,也难以量化。我们需要一套「自动化、可量化、可追溯」的评估体系。 来评估 LLM」。 优化建议: 「使用小模型评估」:评估不一定需要最强的模型,gpt-4o-mini 通常足够 「按需选择指标」:不需要每次都跑全部指标 「采样评估」:大规模数据集可以随机采样 「缓存机制」:相同输入可以复用评估结果 有了自动化评估体系,我们才能: 量化每次改动的效果 快速定位问题环节 建立效果基线和目标 「确保每次发布都经过质量验证」 让生产问题快速转化为测试用例 「参考资料」: RAGAS 官方文档:https:

    30010编辑于 2026-04-09
  • 来自专栏敏捷分析

    教你更科学地花钱:因果推断在增长业务ROI量化评估上的应用

    ,每笔投入的 ROI 量化评判标准统一,自然就可比较。 本身易转化 ②其它属性特征导致用户更容易参与活动,而未参与活动的用户本身就是不活跃且不宜转化的 ③用户因为节假日的影响,自然频率上升 ④活动期间多种策略同时影响用户,不只活动一种策略 为了解决这个效果评估的问题 增益效应评估 套入上述公式,即可计算得出 ATT 或 ATE。 三 倾向性加权得分在活动效果量化增益上的应用 以下以参与某活动为例,讲解倾向性加权得分方法在活动 ROI 量化增益上的应用。 以上量化指标符合规则,则说明加权匹配成功。 3)量化增益值及显著性校验 s_treat = 1.62 说明参与活动用户较未参与活动用户30日人天增益为1.62,且结果显著,量化评估结果可用。 至此,我们便完整地完成了活动效果量化 ROI 的增益计算。 另外,因为也考虑了模型的工程化,此方法可以快速延伸到拉活、某功能改版上线等的后续增益评估上。 点击下方“阅读原文”关注作者知乎专栏

    1.5K21编辑于 2022-09-08
  • 来自专栏人力资源数据分析

    一文读懂 - 如何量化培训评估效果,计算培训投资回报率

    培训真正有价值的指标就是培训后的培训评估量化指标,这也是现在很多做培训的小伙伴很苦恼的问题,如何来做培训评估量化分析,所我们今天就和大家来聊一聊培训评估量化 柯氏四级评估 如果你是做培训的 所以我们会更加关注在真实的环境中学员的行为是都达到了我们的要求,所以我们会对行为进行标准化的量化考核标准,通过数据的量化打分,来量化行为。 ? ? 比如大家看到的下面两个评估表,是对学员在实际的客户拜访和销售中的行为的量化评估,我们先把行为做一个标准化,根据行为的层级进行量化打分,最后汇总成一个行为的标准分析来判断该员工是否达到了标准。 ? ? ,所以我们需要给这个课程做个场景的聚焦《如何提升业务和供应链部门跨部门沟通效率》 ,这个时候我们的课程就有针对的场景 目标量化,结果对标 在确定了场景后,我们接下来需要对培训效果的检验定一个可以量化的指标 所以我们再做培训的投资回报率的时候,一定是先做培训项目的设计,再评估之前做好数据的量化和对标。

    3K30发布于 2020-07-31
  • 来自专栏韩曙亮的移动开发专栏

    【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )

    文章目录 一、要解决的问题 二、量化预置 三、长度量化 四、快捷键及设置 1、快捷键及设置 2、量化开头 3、量化 MIDI 事件结尾 4、量化 MIDI 事件长度 五、对 MIDI 进行量化操作 本博客中的所有设置都是在 ; 三、长度量化 ---- 长度量化 参数设置 : 在下图 处设置长度量化 , 如果设置成 " 1/16 " , 那么使用鼠标拖动时 , 音符的长度只能是 16 分音符的整数倍 ; 上述的 量化预置 ; 2、量化开头 量化开头 : 默认按键 " Q " 是量化开头 ; 将所有音符的开始位置对齐到 " 量化预制 " 对应的格子中 ; 该设置是系统自带的 , 不建议修改 ; 3、量化 MIDI 事件结尾 量化 MIDI 事件结尾 : 首先选中左侧的 " 量化类别 / 量化 MIDI 事件结尾 " , 点击右侧的 " 输入快捷键 " 下方的输入框 ; 输入快捷键后 , 点击 " 指定 " " 快捷键 , 量化音符长度 , 此时音符都排列整齐了 , 音符开头和音符长度进行了量化 , 音符结尾自然也进行了量化 ;

    4.5K00编辑于 2023-03-28
  • 多智能体协同自主进化渗透系统:基于XBOW基准的量化评估与实践

    理想智能渗透需兼顾协同效率、经验复用与量化评估,现实却受限于线性流程、高运维成本与低效迭代。 量化应用效果与客户价值 聚焦系统稳定性、开发效率、运维成本三大ROI指标,关键数据如下: 漏洞利用成功率:通过知识增强与经验累积,成功率从50%降至39.4%后提升至58.2%(来源:NeuroSploit 攻击全链路耗时:自动化评估系统实现零成本无限次本地演练,对比人工评估效率显著优化(来源:材料“效率:攻击全链路耗时”)。 评估标准化:基于XBOW Validation Benchmarks数据集(含104个环境,分简单45、中等51、困难8)实现多维度评估(来源:材料“XBOW Validation Benchmarks 数据与生态支撑:依托XBOW Validation Benchmarks数据集(104环境、多难度分级)建立评估基线,提供CTF平台API/MCP接口支持大模型参赛(来源:材料“修正评估基准 (XBOW

    16810编辑于 2026-04-05
  • 来自专栏用户4793365的专栏

    软件开发工作量及费用量化评估方法在金融行业的应用

    随着功能点方法在各大行业,特别是金融行业的成功应用并成为国际标准,各种基于功能点方法的软件工作量及费用量化评估方法也逐渐兴起。 上世纪80年代,软件工程大师CaperJones在《Programming Productivity》一书中首次提出了用基准比对(benchmarking)方法进行软件评估的思想,为软件开发工作量量化评估体系提供了另一重要基石 近几十年来,随着基准比对方法及各种统计过程控制方法逐步应用于软件行业,采用量化方法评估软件开发的工作量及费用,进而对开发过程进行量化管理、持续改进,逐渐成为大型组织提升自身管理水平的必由之路。    目前,国标委正组织相关专家进行IT服务运维成本度量规范的研制工作,以进一步拓展量化评估方法在软件全生命周期的应用。    2013年以来,中国人民银行、国家开发银行、中国银行、交通银行、邮储银行、招商银行、平安银行、光大银行、中信银行、南京银行、徽商银行、河北农信、阳光保险、太平洋保险等诸多金融机构逐步引入行业标准,采用量化方法对软件项目进行量化评估或管理

    2K30发布于 2019-07-19
领券