首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习之旅

    量化评估推荐系统效果

    推荐系统最有效的方法就是A/B test进行模型之间的对比,但是由于现实原因的局限,存在现实实时的困难性,所以,梳理了一些可以补充替代的指标如下,但是离线评估也存在相应的问题: 数据集的稀疏性限制了适用范围 评价结果的客观性,由于用户的主观性,不管离线评测的结果如何,都不能得出用户是否喜欢某推荐系统的结论,只是一个近似的评估。 深度评估指标的缺失。 冷启动 Exploration 和 Exploitation问题 离线模型之间的评估 召回集测试 recall 命中skn个数/用户真实点击skn个数 precision 命中skn个数/所有预测出来的 离线模型与在线模型之间的评估 很多时候,我们需要确定离线模型的效果足够的健壮才能允许上线进行线上测试,那如何进行离线模型与线上模型的评估对比就是一个比较复杂的问题。 其他评估方向 覆盖率 推荐覆盖率越高, 系统给用户推荐的商品种类就越多 ,推荐多样新颖的可能性就越大。

    2K30发布于 2018-08-27
  • 《构建鸿蒙Next AI轻量化模型评估指标体系:解锁智能新境界》

    在鸿蒙Next的生态中,建立适合人工智能轻量化模型的评估指标体系至关重要,它是衡量模型性能、指导模型优化的关键。以下是构建该评估指标体系的要点。 - 存储占用:轻量化模型的存储大小,较小的存储占用可节省设备空间,便于模型更新和部署。稳定性指标- 崩溃率:统计模型在一定时间和运行次数内出现崩溃的频率,低崩溃率是模型质量的重要保证。 - 容错能力:评估模型在遇到异常输入、网络故障、硬件故障等情况时的恢复能力和错误处理能力。 在建立评估指标体系时,还需根据具体的应用场景和需求,确定各指标的权重。例如,智能驾驶场景中,准确性和响应时间权重较高;而在智能手表的健康监测应用中,资源占用和稳定性可能更为重要。 同时,可通过实际测试、模拟用户场景等方式收集数据,对模型进行全面评估,并利用评估结果指导模型的优化和改进,从而不断提升鸿蒙Next人工智能轻量化模型的性能和质量,为用户带来更优质的智能体验。

    38210编辑于 2025-01-21
  • 来自专栏洞明学问

    个人量化投资体系搭建(一)

    个人量化投资体系搭建(一) 简介 最近股市波动,不少 厮杀多年的投资人 老韭菜也关灯吃面。 作为一名技术人员利用量化交易来进行投资,才能让自己更理智的面对动荡不安的A股。 想建立一个成熟的投资体系,最重要的就是数据和策略。实现自己的策略后,不仅需要数据进行回测来看自己的策略在不同的交易周期是否正确,也可以让我们找到A股利好利空的方向。尽快的调整自己的投资策略。 建立数据体系 想要回看自己的策略是否成功,首先需要有一整套数据才行,最方便的就是从 Tushare 上获取,但是因为现在的积分制改革,或许有一天我们就不能自由的获取了,所以自己建一个数据库是最合适的方法

    2.1K22发布于 2020-09-23
  • 在Elasticsearch中评估标量量化

    然而,在此之前,我们希望系统地评估其质量影响。多语言E5-small是我们在Elasticsearch中提供的一种高质量的多语言段落嵌入模型。 这次实验的目的是估计使用此模型在广泛的检索任务中执行标量量化kNN搜索的效果,如此处所描述。更具体地说,我们的目标是评估从全精度索引切换到量化索引时的性能降级(如果有的话)。 方法概述对于评估,我们依赖BEIR,对于我们考虑的每个数据集,我们都使用默认的超参数(m: 16,ef_construction: 100)构建了一个全精度索引和一个int8量化索引。 接下来,我们考虑使用未量化版本的多语言E5-small(参见模型卡片这里)重复相同的评估过程,表2显示了相应的结果。 在Arguana上使用相同的设置,可以将分数从0.379增加到0.382,从而将相对性能下降从1.3%限制到只有0.52%结论我们评估的结果表明,标量量化可以用来减少Elasticsearch中向量嵌入的内存占用

    83431编辑于 2024-05-07
  • 来自专栏绿盟科技研究通讯

    数据脱敏的风险量化评估方案

    本文讨论的风险评估算法也是基于匿名化处理数据的风险评估,也适用于其他脱敏算法。 二、K匿名相关知识简介 根据发布数据集的内容不同,数据集存在的风险也不同;如何去量化评估数据集存在的风险,就应该先对数据的敏感级别进行一个合理的划分。 ,围绕数据产生、传输、存储、使用、共享、销毁外加数据管理的全生命周期,并结合数据安全相关的法律法规《国家安全法》《网络安全法》以及即将出台的《数据安全法》《个人信息保护法》,构建由内到外主动式纵深防御体系尤为重要 隐私的度量与量化表示 数据隐私的保护效果是通过攻击者披露隐私的多寡来侧面反映的。现有的隐私度量都可以统一用“披露风险”(Disclosure Risk)来描述。 本文的隐私风险评估方案是基于k匿名后的数据进行评估;于此同时,k匿名技术也是一种比较科学的脱敏方式,因此也适用于其他脱敏处理的结果集。

    3.3K30发布于 2021-09-06
  • 来自专栏绿盟科技研究通讯

    AISecOps:量化评估告警筛选方案的性能

    为了解决告警疲劳问题,各种简单或复杂的、智能或非智能的告警筛选方法应运而生,并已经在一个又一个企业SOC落地生根,成为AISecOps体系不可或缺的一部分。 如果不能对告警筛选方法的性能和价值进行量化评估,多数企业可能都难以认可如此高昂的成本。 在设计性能评估指标之前需要先明确的是,告警筛选是一个与具体场景有关的、需要大量外部知识的、非常复杂的过程。 例如,如果某个时刻的SOC体系对于A类型攻击能够正确检出,而对于B类型攻击检出能力不足,那么SOC反馈数据中的正例样本就会缺少B类型攻击相关告警。 后记 以上三种指标都是目前针对告警评估方法的有效评估指标。此外,一些常规运营指标(如MTTD),甚至用户问卷等方法也都可以加入对告警筛选方法的性能评估中。 但显然地,要全面评估一个告警筛选方法的性能,仅靠一个或几个单纯的性能指标显然是不够的。至于实际采用哪些指标来进行评估,应当根据企业自身智能安全运营的整体目标而定,而不应作为一项孤立的工作来开展。

    86120编辑于 2022-11-14
  • 来自专栏音视频技术

    【今晚7点】:视频质量评估体系

    点击上方“LiveVideoStack”关注我们 在实际中,受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估? 如何解决评估者的差异导致的结果偏差?如何对主观评估进行有效的管理和调度?如何解释主观评估和客观算法之间的一致性? 针对上述问题,今晚7点LiveVideoStack特别邀请到了百度 资深测试工程师 王伟老师为大家带来以视频质量评估体系为主题的内容分享。 演讲内容及讲师信息: 主题:视频质量评估体系 视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。 2012年加入百度,从事过质量改进和效率提升的相关工作,也从事过产品分析的相关工作,目前主要从事视频评测相关方向的研究和实践,百度视频质量评测技术负责人,主导并建设百度首个体系化的视频质量评测服务平台,

    47410编辑于 2023-02-23
  • 来自专栏网优小兵玩Python

    《NB-IOT网络指标评估体系

    优质的网络应做到覆盖合理、干扰抑制、容量优化和业务感知优良,因此NB网络性能评估与优化主要指标需从覆盖、干扰、容量、完整、接入、保持六个维度同时开展。 因此基于相关算法梳理上述六大类网络性能指标与用户感知指标的关系,同时参考了LTE网络指标体系,并结合物联网自身特有指标,对38项细分指标进行了分类分级别,从中选取与用户感知相关性最高的指标作为主要指标( 同时,针对每个指标的重要程度,设计了指标权重,实现网络质量的量化评估,从而针对网络短板进行网络优化,提升用户感知。 ? 指标评估体系中,相应数据源为扫频测试的相关指标,采用栅格化汇总方式统计指标。

    1.9K10发布于 2019-09-08
  • 程序员AI量化理财体系

    未来的量化理财体系,不再仅仅是程序员编写代码让AI执行策略,而是进入了一个“人机协同、共生进化”的新纪元。 二、数据维度的爆炸:从结构化到全感官感知过去的量化模型主要依赖价格、成交量、财务报表等结构化数据。而在未来,AI将赋予量化体系“全感官感知”能力。 在这个体系中,AI负责从海量非结构化数据中提取“另类因子”,而程序员负责评估这些因子的经济学意义,防止过拟合和虚假相关。 未来的AI量化体系将具备“动态防御”和“反脆弱”特性。 未来的量化理财体系,将是一场人类智慧与机器算力的宏大共舞。程序员将手中的键盘化为指挥棒,引导着由数据、算法和算力构成的庞大交响乐团,在变幻莫测的金融海洋中,奏出稳健而卓越的财富乐章。

    35410编辑于 2026-03-04
  • 来自专栏人力资源数据分析

    培训量化评估四级分析(视频分享)

    培训量化评估四级分析 http://mpvideo.qpic.cn/0bf2duaaeaaa5aajigrpf5qvahodaioqaaqa.f10002.mp4?

    56440编辑于 2022-02-10
  • OCR转Markdown评估体系存在根本缺陷

    评估将PDF或文档图像转换为Markdown的OCR系统远比表面看起来复杂。与纯文本OCR不同,OCR转Markdown要求模型同时恢复内容、布局、阅读顺序和表示形式的选择。 本文概述了为何OCR转Markdown的评估天生就是规定不足的,审视了常见的评估技术及其失败模式,指出了在两个广泛使用的基准测试中观察到的具体问题,并解释了为何尽管不完美,但目前使用LLM作为评估器是最实用的方法 为何OCR转Markdown难以评估核心问题在于,OCR转Markdown并不存在单一的正确答案。多个输出可能同样有效:多列布局可以用不同的阅读顺序进行线性化。 常见评估技术及其局限性1. 基于字符串的指标 (编辑距离、精确匹配)大多数OCR转Markdown基准测试依赖于规范化字符串比较或编辑距离。局限性Markdown被视为扁平字符序列,忽略了其结构。 这些子集实际上评估的是选择性抑制能力,而不是OCR质量。此外:当公式不是完全归一化的LaTeX时,侧重数学的子集就会失败。由于表示形式的差异,正确的预测也会受到惩罚。

    12910编辑于 2026-03-12
  • 来自专栏音视频技术

    【公开课预告】:视频质量评估体系

    点击上方“LiveVideoStack”关注我们 在实际中,受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估? 如何解决评估者的差异导致的结果偏差?如何对主观评估进行有效的管理和调度?如何解释主观评估和客观算法之间的一致性? 针对上述问题,2月16日晚7点LiveVideoStack特别邀请到了百度 资深测试工程师 王伟老师为大家带来以视频质量评估体系为主题的内容分享。 演讲内容及讲师信息: 主题:视频质量评估体系 视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。 2012年加入百度,从事过质量改进和效率提升的相关工作,也从事过产品分析的相关工作,目前主要从事视频评测相关方向的研究和实践,百度视频质量评测技术负责人,主导并建设百度首个体系化的视频质量评测服务平台,

    64320编辑于 2023-02-23
  • 来自专栏DeepHub IMBA

    从零开始构建AI Agent评估体系:12种LangSmith评估方法详解

    评估技术体系架构 基于标准答案的评估方法 这类方法包括环境配置、精确匹配评估、非结构化问答评估、结构化数据比较以及动态标准答案等技术。 程序性评估(过程分析) 此类别涵盖轨迹评估、工具选择精度分析、组件级 RAG 评估、基于 RAGAS 的 RAG 评估以及实时反馈机制。 成对比较对于 A/B 测试、模型选择和主观质量评估特别有用,因为"更好"可能难以量化。 该过程首先创建包含问题的数据集(不一定需要参考答案)。两个不同的 Agent(A 和 B)回答每个问题。 这种方法补充了其他评估技术,提供客观、可量化的指标,不依赖于主观判断。 该过程首先定义明确的、可测量的标准(如响应时间、JSON 有效性、关键词存在)。AI Agent 生成输出。 评估技术体系总结 通过探索使用 LangSmith 进行 AI Agent 评估的十二种不同技术,我们构建了一个全面的评估框架。

    2.3K12编辑于 2025-08-20
  • 来自专栏绿盟科技研究通讯

    绿盟安全风险评估算法体系

    在我们看来,想要预防,必须先要有安全风险的评估体系,基于整个网络系统提供的各类基础数据,构建风险评估体系,从这个风险评估体系中,我们可以知道整个系统中,哪个部分是由于自身的脆弱性而容易导致被攻破;哪个部分是由于对外暴露而容易被攻击 本文就是基于国标对安全风险评估的定义,绿盟科技提出如何从定性到定量实现单资产风险评估算法,并在此基础之上,如何构建安全风险分层量化体系,实现不同层级安全域风险的聚合及计算。 : ☆并没有给出风险值、威胁值、脆弱性值的具体算法,也即并没有给出从定性到定量的量化评估算法。 基于单资产风险评估算法,我们提出风险木桶权重聚合算法,实现安全风险分层量化体系评估计算: 1木桶权重算法 假设一个资产域有n个资产,每个资产具有属性值,按照大小,从高到低排列的属性值列表为:,系统总体属性的计算算法如下 2风险量化评估体系 按照木桶权重算法,逐级计算出安全域风险值(包括安全域的脆弱性值及威胁值)和总风险值(包括总脆弱性值及威胁值),体现资产域整体安全风险的最薄弱环节,体系如上图所示: 基于木桶权重算法

    3.3K30发布于 2019-12-11
  • 来自专栏架构师之路

    互联网产品到底如何量化评估满意度?

    痛点:互联网服务/产品,难以量化评估用户的满意度。 互联网现在流行的是净推荐值NPS。 1. 什么是NPS?

    1.8K50发布于 2018-03-02
  • 来自专栏知了一笑

    数据分析:复杂业务场景下,量化评估流程

    一、量化思维 在编程体系中有很多复杂的业务是很难理解的,但是又需要做一个量化分析,给业务人员或者运营,或者用户一个参考标准,例如常见指数,芝麻分数,店铺等级,这类业务评定标准非常复杂,因为影响结果的因素很多 实际上复杂业务场景的量化过程是复杂且漫长的,需要对多个维度的数据做收集,有时候不但需要做周期性量化,例如几家大厂的信用分,也可能存在实时分析的场景,金融业务中的欺诈风控等,也有两种场景综合的实时推荐体系 ,都会用到量化流程。 1、综合评估 对用户、店铺、产品等多种场景做综合评估,把一个复杂的事物通过多个维度抽象分析,生成简单容易理解的评估结果,例如店铺等级、产品评分、用户综合指数等,进而对各个使用场景产生参考的依据。 4、理财指数 这个场景很常见,在金融理财类的APP中,使用之前必须经过一个测评体系,来判断用户的风险承受能力:例如保守型、积极型等,当用户购买的产品属于高风险时,会提示和用户的风险承受能力不匹配,提示用户重新测评

    96030发布于 2020-12-11
  • 来自专栏科学计算

    每天一点量化知识---策略风险评估指标

    其中pend是策略最终总资产,pstart是策略初始总资产,n是回测的交易日数量,那250是什么东西呢?表示一年中可交易的天数,因为我们的指标是年化收益,一年不能用365表示,要用25。

    1.9K20发布于 2020-06-30
  • 来自专栏AI科技评论

    ACL 2021 | 面向可量化的对话连贯性评估

    本文是对发表于自然语言处理领域顶级会议ACL 2021的论文“Towards Quantifiable Dialogue Coherence Evaluation(面向可量化的对话连贯性评估)”的解读 针对对话系统的连贯性评估问题,该论文提出了一个新型的两阶段指标训练框架QuantiDCE,旨在让自动评估指标学习到各种不同连贯性程度的对话回复之间的区别,掌握量化的能力,从而更为精准地输出连贯性分数。 指标打分 1 实验方法 为了解决上述局限,本文提出了一个新型指标训练框架QuantiDCE,旨在让自动指标具有量化的能力。 另外,因为用于微调的数据量很少,模型很容易会出现过拟合的现象,导致之前在预训练阶段学习到的量化知识都被遗忘掉。 通过两阶段的递进式训练,逐步让指标模型掌握量化的能力,从而能够输出与人工打分更为一致的连贯性分数。

    1.5K60发布于 2021-07-03
  • 来自专栏NLP/KG

    向量召回:深入评估离线体系,探索优质召回方法

    评估指标的体系上,随着经验的积累,也在不断进行演化,基于时间线,我们将评估体系的演化分为三个版本,下面对三个版本逐次展开介绍。 1.2 第一版第一版的评估体系的建设中,我们主要考虑解决模型离线迭代过程中的指标评估问题和构建完全量索引后的指标评估问题。 ;对全量索引上召回的数据是未标注过的,如果对每次召回结果进行人工标注评估,成本过高,因此,如何进行自动化的评估就成了我们在第一版的评估体系中重点思考的问题。 图片图片1.3 第二版从第二版的评估体系开始,我们的应用场景切换到了搜索的通用搜索场景,因此,在评估体系上也会有一些变化。第一版的问题我们在第一版的指标体系使用过程中,发现了一些问题:1. 目前第三个版本的指标体系我们还在持续的优化中,我们也希望随着优化和迭代,我们的第三版评估体系帮我们更全面、更高效的评估模型效果。

    1.6K20编辑于 2023-10-17
  • 来自专栏欧阳大哥的轮子

    移动客户端的证书、策略、信任评估体系

    安全体系一直都是公司需要完成基础设施的支撑。安全包括了数据安全、通信安全、操作安全、代码安全等功能。有的组织则提供了一套标准的安全规范和技术标准比如PKI。 ---- 第一章、通信安全 第一节、通信安全介绍 第二节、加密解密算法介绍 第三节、公私钥体系 第二章、证书 第一节、证书的应用场景 第二节、证书的结构 第三节、证书认证机构(CA) 第三节 android中的实现 第三章、策略 第一节、策略的概念 第二节、策略的种类 第三节、策略在iOS中的实现 第四节、策略在android中的实现 第四章、信任 第一节、信任的概念 第二节、信任的评估

    98520发布于 2018-08-22
领券