模型测试 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签模型测试

#模型测试

2026 技术观察：MLOps 进入模型治理阶段，版本管理、漂移监测和灰度回滚成为 AI 生产新底座

用户12583401 2天前2026-07-08 09:55:43

过去，很多团队更关注模型能不能训练出来、指标是否足够高、能不能部署到线上。但当模型真正进入生产环境后，新的问题会持续出现。

13510

大语言模型幻觉驱动幻影域名抢注（Phantom Squatting）攻击机理与分层防御技术研究

芦笛

中国互联网络信息中心｜工程师 (已认证)

7天前2026-07-03 10:56:53

生成式大语言模型（LLM）普遍存在事实幻觉缺陷，模型会自主生成不存在、符合语义逻辑的域名地址。攻击者利用该稳定幻觉特征，提前注册此类虚构域名并部署仿冒站点实施钓...

12610

2026技术观察：AI 服务网关加速普及，多模型调用开始进入统一路由时代

用户12583401 12天前2026-06-28 13:25:41

2026 年，AI 应用不再只依赖单一模型。一个真实系统里，可能同时使用大语言模型、Embedding 模型、图像模型、语音模型和本地小模型。不同模型有不同价格...

12310

WorkBuddy 全模型使用指南：31 条管线的高效驾驭

nexlo 21天前2026-06-19 14:25:26

五渠道、三阵营、一张表。从如何选到如何配，本文是 WorkBuddy 模型体系的完整索引。

1.3K10

大模型测试常见误区，90%测试专家都踩过

顾翔 25天前2026-06-15 15:46:46

引言随着ChatGLM、Qwen、DeepSeek及Claude等大语言模型（LLM）加速落地，金融、政务、医疗、客服等关键领域正大规模引入AI能力。然而，当...

14110

大模型测试：技术深度解析

顾翔 25天前2026-06-15 15:41:40

2024年，大语言模型（LLM）正加速从API服务演进为嵌入式智能体、自主工作流与多模态决策中枢。与此同时，传统软件测试范式——基于明确输入/输出断言、覆盖路径...

20300

2026大模型测试：成本与效益的临界点

顾翔 25天前2026-06-15 15:40:53

2025年Q3，某头部金融AI平台在上线新一代风控大模型（128B参数、多模态推理）后72小时内触发3起生产级幻觉事件——非敏感信息泄露、监管合规条款误判、实时...

23300

为什么Analytics Agent 总答错？来自 Anthropic 的数据分析最佳实践

七牛开发者 30天前2026-06-10 17:05:32

在 Anthropic 内部，大约 95% 的业务分析请求已经由 Claude 自动完成，且整体准确率高达 95% 左右。

24110

11美金替代上万刀：小模型微调重写AI创业规则

加致 2026-06-092026-06-09 16:29:16

2026年的AI行业有个怪现象。所有巨头都在卷万亿参数大模型，OpenAI、Google、Anthropic 你追我赶，发布会一场比一场热闹，参数数字后面加的零...

24100

大模型测试落地实践深度解读

顾翔 2026-06-082026-06-08 12:41:37

2024年，国内超73%的头部科技企业已将大模型集成至核心业务系统——客服对话引擎、金融风控决策链、医疗报告生成平台……然而，Gartner最新调研显示，其中近...

21210

PCMag 杀毒与安全软件测试体系研究及技术实践分析

芦笛

中国互联网络信息中心｜工程师 (已认证)

2026-06-072026-06-07 19:06:06

摘要：网络安全威胁形态持续迭代，恶意软件、钓鱼攻击、勒索软件、系统漏洞利用等风险对终端设备与用户数据安全构成严重威胁，标准化、科学化的安全软件测试体系成为衡量防...

16110

Codex 实践系列 Vol.01：从跑通 CLI 开始，看懂 Codex 怎么工作

七牛开发者 2026-06-052026-06-05 17:28:00

作为 Codex 实践系列的开篇，这里小七先说下我们为什么要做这个系列，以及这个系列的规划。

66210

大模型备案审批周期偏长原因解析

aigc合规师虎虎

佛山迫无科技｜ aigc合规师 (已认证)

2026-06-042026-06-04 15:14:53

大模型实行省级网信初审 + 国家网信终审的两级主审架构，多部委协同参与联合评审，分主管审批单位、协同评审单位两类：

24110

#模型测试

2026 技术观察：MLOps 进入模型治理阶段，版本管理、漂移监测和灰度回滚成为 AI 生产新底座

大语言模型幻觉驱动幻影域名抢注（Phantom Squatting）攻击机理与分层防御技术研究

2026技术观察：AI 服务网关加速普及，多模型调用开始进入统一路由时代

WorkBuddy 全模型使用指南：31 条管线的高效驾驭

大模型测试常见误区，90%测试专家都踩过

大模型测试：技术深度解析

2026大模型测试：成本与效益的临界点

为什么Analytics Agent 总答错？来自 Anthropic 的数据分析最佳实践

11美金替代上万刀：小模型微调重写AI创业规则

大模型测试落地实践深度解读

PCMag 杀毒与安全软件测试体系研究及技术实践分析

Codex 实践系列 Vol.01：从跑通 CLI 开始，看懂 Codex 怎么工作

大模型备案审批周期偏长原因解析

热门专栏

PingCAP的专栏

AI科技大本营的专栏

素质云笔记

小鹏的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐