近期,我院数据智能团队(DIG)在国际知名期刊IEEE Transactions on Pattern Analysis and Machine Intell...
YOLOv5 是一种常见的目标检测模型,在实际应用中,其训练过程通常涉及多个阶段,包括数据处理、模型训练与结果验证等环节。
过去几年,基础模型和生成式AI模型(特别是大语言模型)已成为AI研究的主要课题。即使在计算机视觉领域也是如此,该领域越来越关注将大语言模型与图像编码器结合的视觉...
今天,我读到一篇 Google DeepMind 发表的论文,标题很直接,叫《视频模型是零样本学习者和推理者》(Video models are zero-sh...
在企业数字化转型与政务智能化升级的进程中,表格作为核心数据载体,广泛存在于金融票据、政务表单、医疗报告、档案文献等各类场景中。传统 OCR 技术仅能实现文字提取...
在企业的日常运营中,海量的非结构化文档——合同、订单、票据、法律文书、企业证照等承载着核心业务信息。然而,这些文档格式各异、布局多变,传统基于固定模板或规则引擎...
过去,经典的计算机视觉算法会系统地将场景分割成单个元素,这是一种缓慢且计算量大的方法。监督式机器学习使这一过程更加高效。
Chibuzor后来与另外两名实习生一起承担了这一具有挑战性的任务,他负责开发一种计算机视觉算法。
近年来,算法偏差已成为跨AI学科研究的核心主题。2018年对人脸识别软件偏差的调查之后,该主题的关注度急剧上升——其中偏差被定义为不同人口统计群体中受试者的表现...
编者按: 本次采访是某机构科学部门发布的系列内容之一,旨在探讨某机构所投资公司产品与服务背后的科学原理。2019年,Alexa基金首次投资nflux.ai,并于...
培训创新:YOLO26 引入了MuSGD 优化器,它是SGD和Muon的混合体,灵感来自 Moonshot AI 在 LLM 训练中取得的Kimi K2突破。该...
Meta 宣布发布 DINOv3,这是一个前沿的自监督视觉基础模型,在广泛的计算机视觉任务中实现了前所未有的性能。该模型通过放弃依赖于内存密集型带标签数据集的策...
YOLO11 是一个多功能的深度学习框架,支持多种计算机视觉任务。该框架可以用于对象检测、实例分割、OBB(定向边界框)、姿态估计等。每项任务都有不同的目标和应...
掌握这个四种经典的卷积网络算子,在计算机视觉任务中非常有用,从图像分类、图像分类、目标检测、实例分割、姿态评估、语义分割等模型中都有它们的身影。
在暑期研究项目中,参与了一个名为“CLING-ERS”的项目,目标是开发国际空间站的自主航天器对接解决方案。负责开发计算机视觉算法。
银行卡识别技术,本质上是在计算机视觉与金融语义之间建立了一座高精度映射桥梁。通过将图像处理、深度学习序列识别与金融校验规则深度耦合,该技术不仅解决了复杂光照、形...