数据集是由文件元信息和特征所组成的集合,是存放文件元数据索引的容器。创建数据集后,智能检索 MetaInsight 可以自动解析在对象存储 COS 中文件的基础信息,对图片、视频、音频等媒体文件进行人工智能分析,提取标签、人物等信息并建立元数据索引。您也可以为存储在对象存储 COS 中的文件手动建立元数据索引。
通过对文件元信息不同字段的筛选分析,可以查询满足指定条件的文件,并按照指定字段和排序方式列出文件信息。
通过输入图片,用以图搜图的方式可快速在数据集中检索到与输入图片相似的前 N 张图片。
可以根据图片内容输入自然语言进行检索,例如“一片大海”、“一颗饱满的草莓”等图片内容。
您可以使用人脸搜索功能从数据集中搜索与指定图片中人脸最相似的前 N 张图片,适用于门禁闸机、签到考勤、学校宿舍管理等场景。
通过输入自然语言描述,例如“欧几里得定律”、“电池技术分类”等内容,快速检索到文档库中最高相似度的数十段文本段及其所属的文档。
数据存储于腾讯云对象存储 COS 中,数据跨多架构、多设备冗余存储,提供异地容灾和资源隔离,保证业界领先的数据持久性。
支持基础元数据检索、以文搜图、以图搜图、以文搜文档、以文搜视频等多种类型,实现多模态数据的统一检索,打破不同数据类型的检索壁垒。
提供多种索引模板,适配智能相册、企业知识库、媒资管理等多类业务场景,可降低配置复杂度并提升接入效率。
数据集是由文件元信息和特征所组成的集合,是存放文件元数据索引的容器。创建数据集后,智能检索 MetaInsight 可以自动解析在对象存储 COS 中文件的基础信息,并对图片进行智能分析,提取特征建立元数据索引。例如在电商场景中,您创建一个电商图库数据集,通过绑定存储桶与数据集接口将某个存储桶与数据集进行绑定,或通过创建元数据索引接口,为后续产生的电商商品图片建立元数据索引,然后使用图片检索功能,用户可以通过自然语言或相似商品图对电商图库中的图片进行检索。具体操作请参见 数据集管理控制台指南。
说明:
在创建数据集时,可以为数据集设置检索模板(Template),检索模板定义了数据集创建元数据索引时需要执行的算子操作,不同的算子将提取不同类型的元数据,详情请参见 检索模板与算子。
创建数据集后,您可以为存储在对象存储 COS 中的文件建立元数据索引。通过丰富的元数据索引,智能检索可以为您提供强大的数据聚合查询、分析和管理能力。提供了两种建立元数据索引的方式:
方式一:绑定 COS 存储桶与数据集,自动建立元数据索引,绑定存储桶后,智能检索会先扫描桶内存量数据,当存量数据索引完成后,会继续扫描桶内新增的文件并建立索引,详情请参见 数据集管理控制台指南。
方式二:通过接口手动建立元数据索引,详情请参见 创建元数据索引。
元数据索引建立完成后,您可以在控制台或通过 API 接口进行基础文件信息查询、以图搜图、以文搜图、人脸搜索等操作,详情请参见 简单查询、图像检索、人脸搜索、文档检索。
通过智能检索 MetaInsight ,您可以从上亿的海量文件中查找符合特定条件的文件或统计出符合特定条件的文件数量。例如查询包含某个关键词的文件,统计某个目录下的文件大小,查询包含某个人物的图片等,您也可以结合您具体的业务情况,通过组合简单查询条件以及聚合操作,做更多场景的数据检索。
在大数据场景中,采集到的海量图片数据可通过智能检索进行数据预分类,过滤筛选出指定场景的数据后再进行标注训练,可大大提升数据训练效率。
使用人脸搜索功能,在图库中搜索与指定人脸最相似的前 N 张图片,结果按相似度降序排列。在智能相册中可将已经识别的人脸与通讯录进行关联,完成关联后,可在看照片时直接点击照片上的人脸进行打电话、发短信等操作。
通过输入商品图片,可以在商品库中准确地找到图片中商品的同款或者相似款,并快速返回对应的商品信息。
使用文档检索时,学生或研究人员可以针对庞大的学术文献库、课程资料库进行深度语义提问,如“比较机器学习与深度学习在图像识别领域的优缺点”,快速定位到核心论述,加速学习与研究进程。
使用文档检索时,律师在处理新案件时,可快速检索历史案卷、法律条文和判例库,通过“找出与本案情况类似且胜诉的知识产权纠纷案例”这样的指令,快速完成案例研判,提升专业服务的效率与质量。