暂无搜索历史
让VLM(Vision-Language Model)用视觉工具辅助推理,听起来是个好主意——先高亮表格中的关键行列,再基于处理后的图像回答问题。但现实是,直接...
无人机电力巡检正在从"按预设航点飞行+离线分析"向"实时检测+自主决策"演进,但边缘端算力始终是瓶颈——RK3588的NPU只有6 TOPS,功耗低至个位数瓦特...
你的团队用AI编程工具每天部署代码,但渗透测试一年做一次——中间364天的安全空白谁来填?传统扫描器报一堆"可能存在"的漏洞,安全工程师还要逐条验证;请一次人工...
长视频理解一直面临一个核心矛盾:视频越长,冗余信息越多,模型越容易在海量帧中"迷路"。现有的Agent方法大多采用反应式检索——先搜索相关片段,再根据搜到的内容...
当AI模型能力越来越强,给它更多专业工具,诊断准确率就一定更高吗?TUM、牛津大学、帝国理工学院等八所机构的联合团队给出了一个反直觉的答案:GPT-5.4在接入...
一个广告排序模型的改进,传统流程需要2名工程师投入数周时间。当Meta同时面对8个模型的迭代需求时,16人的工程团队似乎是唯一选项。但如果告诉你,现在3名工程师...
无人机视觉-语言导航(Vision-Language Navigation, VLN)的目标是让无人机根据自然语言指令自主飞往目标。但现有方法普遍依赖两根"拐杖...
工业异常检测长期面临一个核心瓶颈:正常样本充足,异常样本稀缺。为每种缺陷类型收集大量标注数据既耗时又昂贵,而现有的异常图像合成方法往往依赖针对性训练,动辄数百小...
戴上智能眼镜,看到一家餐厅就能问"这家评分怎么样",AI 不仅看得懂还能帮你搜出来——这不是概念视频,而是一个已经跑通的开源项目。
反无人机检测正在成为低空安全领域的核心需求,但无人机目标尺寸小、背景复杂、尺度变化剧烈,传统检测器在这一场景下的精度和召回率往往难以兼顾。
无人机拍摄的高分辨率图像中,风电叶片只占画面的一小部分,缺陷更是仅占像素总量的0.1%~1%——传统检测器直接在全图上做推理,背景干扰大、小目标漏检多。
2026 年 3 月 9 日,Anthropic 发布了 Code Review for Claude Code——一个多 Agent 自动审查 PR 的系统。...
天然气管道泄漏检测是一个"慢不得"的高风险问题——延误几分钟,可能意味着爆炸、环境污染和巨额损失。近年来,联邦边缘AI驱动的自主无人机蜂群(Federated ...
微调大模型是让通用模型适配具体业务的关键步骤,但高显存占用和复杂的代码配置一直是两道门槛——一块 24GB 的消费级显卡往往连 7B 模型的全量微调都跑不动,而...
边缘设备上的密集预测任务(目标检测、实例分割、人体姿态估计)至今仍被 YOLO 等 CNN 架构主导,紧凑型 Vision Transformer(ViT)即使...
为什么你的 Agent 总是"失忆"?你给它讲过一遍用户偏好,下次对话它又问一遍;你纠正了它的错误,过几轮它还是犯同样的问题。
SAM 3 发布后迅速成为视觉语言模型的热门话题,但一个实际问题随之而来:它每次只处理一个文本提示,要检测 N 个类别就要跑 N 遍完整推理,80 类 COCO...
现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。
编码智能体(Coding Agent)能自动写代码、跑脚本、调 bug、迭代优化,但如果交给它一个视觉任务——比如数一张图里有多少只鸟、从视频里跟踪计数车辆、识...
语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址