
这份文档是Foundry平台非结构化数据全生命周期管理、处理与分析的核心能力手册。媒体集(Media Set)是Foundry专门为大规模非结构化数据设计的核心载体,和你之前学习的「结构化数据集」「流」共同构成了Foundry全类型数据的管理体系,彻底解决了PDF、图片、音视频、医疗影像、地理空间文件等非结构化数据的接入、存储、加工、治理与业务应用的全流程需求。
以下是文档内容的逐模块深度拆解,同时100%对应你提供的所有操作截图,实现原理与实操的完全打通,同时联动你之前学习的Foundry核心组件知识,形成完整的知识体系。
媒体集是具有相同格式/模式的媒体文件的集合,是Foundry专门面向非结构化数据设计的管理与处理载体。 和你之前学习的结构化数据集对比,你可以快速建立认知:
特性 | 结构化数据集 | 媒体集 |
|---|---|---|
核心定位 | 管理结构化表格数据、半结构化数据 | 专门管理非结构化媒体文件(文档、图片、音视频、专业格式文件) |
底层设计 | 对底层文件系统中表格文件的逻辑包装 | 针对非结构化文件优化的存储架构,配套专用计算引擎、算子与缓存策略 |
核心能力 | 表格数据的加工、计算、分析 | 非结构化文件的全生命周期管理、格式专属变换、内容提取、业务化应用 |
平台集成 | 全平台组件原生支持 | 完整继承数据集的所有企业级能力(权限、分支、版本、沿袭、健康检查),额外配套非结构化数据专属能力 |
文档中给出了3个典型的企业级工作流示例,也是媒体集最常用的场景:

文档中明确了媒体集原生支持的4大类文件格式,同时标注了使用限制,这是实操中最基础的规则:
媒体类型 | 支持的文件格式 | 关键限制 |
|---|---|---|
音频 | WAV、MP3、NIST SPHERE、FLAC | 无额外特殊限制 |
文档 | 不支持带密码、数字签名、加密、需要专有功能查看的PDF文件 | |
图像 | PNG、JPEG/JPG、JP2K、BMP、TIFF/TIF、NITF、DICOM | 覆盖通用图片、地理空间影像、医疗影像三大类专业格式 |
视频 | MP4、MOV、TS | 无额外特殊限制 |
文档中详细定义了媒体集的全量导入方式,从最简单的本地上传到企业级的外部系统对接,每一步都和你的截图完全对应:
文档中明确的创建路径:在项目中点击顶部+ New按钮 → 在搜索框输入media → 选择Media set选项,即可启动媒体集创建流程。

创建媒体集时,必须指定该媒体集的专属文件类型,文档中给出了3个核心选项,和截图5完全对应:
Audio:音频类文件Documents:分页文档类文件(最常用的就是PDF)Images:静态图片类文件【关键规则】创建时指定的媒体类型,决定了该媒体集仅能上传对应格式的文件,不匹配的文件无法上传,避免了不同格式文件混杂导致的处理错误。

创建完成后,会进入空媒体集页面(截图4),文档中明确了两种本地上传方式:
choose from your computer,从本地文件夹选择文件上传。上传成功后,会进入媒体集预览页面(截图1),可以看到所有文件的缩略图、分页预览,左侧面板会显示媒体集的元数据(更新时间、创建人、存储位置、媒体项数量等),和你截图1的界面完全一致。
除了本地上传,文档中还定义了3种面向企业级场景的大规模导入方式:
文档中明确了媒体项的删除流程,和你的截图完全对应:
Delete按钮(截图7红框标注);Delete确认删除,防止误操作;文档中重点强调了媒体集的保留策略能力,这是企业级场景中控制存储成本、满足数据合规要求的核心功能:
媒体集完整复用了你之前学习的数据集的所有管控能力,包括:
这是媒体集的核心价值所在——它不是一个单纯的文件存储柜,而是可以和Foundry的流水线开发能力深度打通,实现非结构化数据的自动化加工、内容提取、结构化转换,和你之前学习的Pipeline Builder、Code Repositories完全兼容。
文档中定义了两种加工方式,分别对应低代码用户和技术开发者:
Pipeline Builder中内置了媒体集专属的开箱即用变换算子,无需编写代码,即可完成非结构化数据的加工,完全对应你截图6的操作界面。
Raw text:原生文本提取,针对可复制的PDF文档,直接提取内置文本,速度快、消耗低;OCR:光学字符识别,针对扫描件、图片格式的PDF/图片,通过图像识别提取文本,适配不可复制的文档,对应文档中标注的高消耗变换。
针对复杂定制化场景,媒体集支持在Code Repositories中通过Python代码实现自定义加工,文档中给出了标准的代码示例,同时联动你之前学习的Code Repositories知识:
# 导入Foundry变换与媒体集专属库
from transforms.api import transform
from transforms.mediasets import MediaSetInput, MediaSetOutput
# 用transform装饰器定义输入输出媒体集
@transform(
images=MediaSetInput('/examples/images'), # 输入媒体集的平台路径
output_images=MediaSetOutput('/examples/output_images') # 输出媒体集的平台路径
)
def translate_images(images, output_images):
# 在这里写自定义加工逻辑:比如图片裁剪、格式转换、AI推理等
...from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput
@transform(
metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"), # 输出结构化元数据集
mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}") # 输入媒体集的唯一资源ID
)
def compute(ctx, mediaset_in, metadata_out):
# 生成媒体集所有文件的媒体引用
media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)
# 定义媒体引用的列类型,让平台支持内联预览
column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}
# 将媒体引用+元数据写入结构化数据集
metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)这是Foundry媒体集最核心的差异化设计,也是非结构化数据能和结构化数据、Ontology、业务应用无缝打通的关键,文档中用了大量篇幅讲解,必须重点理解。
媒体引用是媒体集中文件的「逻辑指针/快捷方式」,它只记录文件的唯一标识,不复制媒体文件本身。 你可以把它理解为Windows的快捷方式、Mac的替身——不用把原文件复制到各个地方,只需要一个快捷方式,就能在所有应用里打开、使用原文件,彻底解决了非结构化文件复制冗余、和结构化数据关联难的行业痛点。
这是Foundry针对大规模非结构化数据访问的优化能力,文档中定义为「预配置的变换,可按需在媒体文件上执行」,是平台实现低延迟访问、节省计算存储成本的核心设计。
访问模式是提前配置好的媒体处理规则,比如「生成PDF缩略图」「生成音频波形图」「卫星影像瓦片化」,平台会根据访问策略,按需执行这些变换,而不是提前把所有结果都生成好。
文档中定义了3种缓存策略,适配不同的访问场景:
文档中给出了Foundry平台自身的应用案例,你在使用时已经在无感使用这个能力:
文档中明确了媒体集的所有操作都会消耗Foundry计算秒,并给出了详细的用量统计标准,这是企业级使用时必须关注的成本控制要点。
消耗等级 | 每GB计算秒 | 典型操作 |
|---|---|---|
低消耗 | 2-40 | 下载/流式传输、图片旋转/调整大小、PDF页面渲染、视频帧时间戳获取 |
中消耗 | 75 | 图片裁剪/灰度化、PDF拆分、音频转码、视频帧提取、PDF原生文本提取 |
高消耗 | 275 | OCR文本提取、音频转录、视频全帧提取、视频转码、HLS流式传输 |
【关键提醒】文档特别标注:如果是企业合同用户,在大规模使用前务必联系Palantir代表,确认成本核算规则。
文档中明确了两个硬限制,是实操中最容易踩坑的点,必须提前注意:
MediaSet:MediaItemPathInvalid错误,上传失败。结合你之前学习的所有Foundry组件,文档中定义的媒体集能力,最终会形成一个完整的企业级非结构化数据业务闭环,也是你实操的标准流程:
Get media references生成媒体引用,再通过Text extraction提取PDF中的文本内容;原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。