首页
学习
活动
专区
圈层
工具
发布
首页标签模型测试

#模型测试

大模型测试落地实践深度解读

顾翔

2024年,国内超73%的头部科技企业已将大模型集成至核心业务系统——客服对话引擎、金融风控决策链、医疗报告生成平台……然而,Gartner最新调研显示,其中近...

900

PCMag 杀毒与安全软件测试体系研究及技术实践分析

芦笛

中国互联网络信息中心 | 工程师 (已认证)

摘要:网络安全威胁形态持续迭代,恶意软件、钓鱼攻击、勒索软件、系统漏洞利用等风险对终端设备与用户数据安全构成严重威胁,标准化、科学化的安全软件测试体系成为衡量防...

3710

Codex 实践系列 Vol.01:从跑通 CLI 开始,看懂 Codex 怎么工作

七牛开发者

作为 Codex 实践系列的开篇,这里小七先说下我们为什么要做这个系列,以及这个系列的规划。

21110

大模型备案审批周期偏长原因解析

aigc合规师虎虎

佛山迫无科技 | aigc合规师 (已认证)

大模型实行省级网信初审 + 国家网信终审的两级主审架构,多部委协同参与联合评审,分主管审批单位、协同评审单位两类:

12410

我用workbuddy建立一个大乐透彩票模型,实战中#WorkBuddy

用户12488963

帮开体彩店的朋友做购彩方案推荐,这是我做这个项目的初衷。朋友每天面对大量彩民,总被追问“今天买什么号”,他希望我能借助AI的力量,开发一套自动化推荐系统。正好手...

31810

关于测试HY3 preview时发现的几个问题

用户12475481

deepseek-v4-flash上限后一直都在使用这个模型,感觉日常推理使用,完全足够了,可以承担一个作为分析的辅助脑使用,刚好最近HY3做1折活动,本着能省...

16710

MiMo V2.5测试

Luo rr

最近在测 MiMo V2.5:原生全模态(jointly trained on text/image/video/audio),混合注意力机制(hybrid a...

18610

模型训练整体流程

小单

epochs:训练轮数,训练轮数越多,数据效果越好data:数据集配置文件,对应data中的yaml文件

6300

Sentieon | 300X WES临床级全外单机只要15分钟

INSVAST

在基因组学研究中,全外显子组测序(Whole Exome Sequencing, WES)已成为解码基因编码区域变异的常规工具,能够全面捕获人类基因组中约 2%...

13310

大模型测试:性能优化的5大实战策略

顾翔

引言 随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——...

34810

大模型测试团队如何成功转型?

顾翔

在传统软件测试时代,测试工程师的核心价值常被简化为‘用例执行者’或‘缺陷捕手’。而随着大语言模型(LLM)深度融入产品架构——从智能客服、代码补全到AI原生应用...

22810

大语言模型自动化鱼叉式钓鱼效能评估与防御机制研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

以大语言模型为代表的生成式人工智能具备文本生成、语义理解、个性化内容适配等能力,在网络安全领域呈现典型的双重用途属性。本文依托 101 名受试者的四组对照实验数...

19910
领券