palantir深度解析（四）

原创

小龙0-0

发布于 2026-04-09 10:56:38

2430

文章被收录于专栏：palantirpalantir

Palantir Foundry 媒体集（非结构化数据）

这份文档是Foundry平台非结构化数据全生命周期管理、处理与分析的核心能力手册。媒体集（Media Set）是Foundry专门为大规模非结构化数据设计的核心载体，和你之前学习的「结构化数据集」「流」共同构成了Foundry全类型数据的管理体系，彻底解决了PDF、图片、音视频、医疗影像、地理空间文件等非结构化数据的接入、存储、加工、治理与业务应用的全流程需求。

以下是文档内容的逐模块深度拆解，同时100%对应你提供的所有操作截图，实现原理与实操的完全打通，同时联动你之前学习的Foundry核心组件知识，形成完整的知识体系。

一、媒体集的核心定位与基础定义

1. 核心本质

媒体集是具有相同格式/模式的媒体文件的集合，是Foundry专门面向非结构化数据设计的管理与处理载体。和你之前学习的结构化数据集对比，你可以快速建立认知：

特性	结构化数据集	媒体集
核心定位	管理结构化表格数据、半结构化数据	专门管理非结构化媒体文件（文档、图片、音视频、专业格式文件）
底层设计	对底层文件系统中表格文件的逻辑包装	针对非结构化文件优化的存储架构，配套专用计算引擎、算子与缓存策略
核心能力	表格数据的加工、计算、分析	非结构化文件的全生命周期管理、格式专属变换、内容提取、业务化应用
平台集成	全平台组件原生支持	完整继承数据集的所有企业级能力（权限、分支、版本、沿袭、健康检查），额外配套非结构化数据专属能力

2. 官方明确的核心适用场景

文档中给出了3个典型的企业级工作流示例，也是媒体集最常用的场景：

文档内容分析：通过Pipeline Builder从PDF中提取文本，支撑合同审核、年报分析、合规文档检索等内容分析场景（完全对应你截图6中的PDF文本提取操作、截图7-9中的年报PDF管理）；
地理空间分析：处理栅格切片文件（TIFF、NITF），在地图应用中做卫星影像、地理空间数据的可视化与分析；
医疗影像处理：通过Pipeline Builder处理DICOM格式的医学影像文件，支撑医疗场景的影像分析、AI模型推理。

二、支持的媒体文件类型

文档中明确了媒体集原生支持的4大类文件格式，同时标注了使用限制，这是实操中最基础的规则：

媒体类型	支持的文件格式	关键限制
音频	WAV、MP3、NIST SPHERE、FLAC	无额外特殊限制
文档	PDF	不支持带密码、数字签名、加密、需要专有功能查看的PDF文件
图像	PNG、JPEG/JPG、JP2K、BMP、TIFF/TIF、NITF、DICOM	覆盖通用图片、地理空间影像、医疗影像三大类专业格式
视频	MP4、MOV、TS	无额外特殊限制

三、媒体集的创建与数据导入

文档中详细定义了媒体集的全量导入方式，从最简单的本地上传到企业级的外部系统对接，每一步都和你的截图完全对应：

1. 第一步：创建媒体集

文档中明确的创建路径：在项目中点击顶部+ New按钮 → 在搜索框输入media → 选择Media set选项，即可启动媒体集创建流程。

2. 第二步：选择媒体类型

创建媒体集时，必须指定该媒体集的专属文件类型，文档中给出了3个核心选项，和截图5完全对应：

Audio：音频类文件
Documents：分页文档类文件（最常用的就是PDF）
Images：静态图片类文件

【关键规则】创建时指定的媒体类型，决定了该媒体集仅能上传对应格式的文件，不匹配的文件无法上传，避免了不同格式文件混杂导致的处理错误。

3. 第三步：上传媒体文件

创建完成后，会进入空媒体集页面（截图4），文档中明确了两种本地上传方式：

直接将本地媒体文件拖放到页面的上传框中；
点击choose from your computer，从本地文件夹选择文件上传。

上传成功后，会进入媒体集预览页面（截图1），可以看到所有文件的缩略图、分页预览，左侧面板会显示媒体集的元数据（更新时间、创建人、存储位置、媒体项数量等），和你截图1的界面完全一致。

4. 企业级批量导入方式

除了本地上传，文档中还定义了3种面向企业级场景的大规模导入方式：

数据连接同步：通过你之前学习的「数据连接」应用，对接外部文件系统、业务系统，配置同步任务，将外部媒体文件批量同步到媒体集中，无需手动上传；
虚拟存储（进阶）：对于支持的源类型，媒体集可以配置为「直接从外部源系统读取」，无需将文件复制到Foundry的底层存储中，既节省了存储成本，又避免了数据冗余，适合超大规模文件库的场景；
其他方式：支持通过API发布、外部变换（对接REST API源）、Pipeline Builder直接导入的方式，实现自动化、代码化的文件接入。

四、媒体集的核心管理能力

1. 媒体项的删除操作（对应截图7、8、9）

文档中明确了媒体项的删除流程，和你的截图完全对应：

点击需要删除的媒体文件，进入预览页面；
右侧面板点击Delete按钮（截图7红框标注）；
在弹出的确认窗口中，再次点击Delete确认删除，防止误操作；
删除成功后，页面会弹出绿色的成功提示（截图8），媒体集自动刷新，被删除的文件不再显示。

2. 保留策略（存储成本与合规管控核心）

文档中重点强调了媒体集的保留策略能力，这是企业级场景中控制存储成本、满足数据合规要求的核心功能：

核心作用：可以为媒体集配置基于时间的保留策略（比如保留14天、30天），超过保留窗口的媒体项会被永久删除，无法恢复；
【关键不可逆规则】文档中特别标注了两个极易踩坑的规则：
1. 当保留窗口从30天缩短到7天时，所有超过7天的媒体项会立即永久删除，无法恢复；
2. 当保留窗口从7天延长到30天时，之前已经过期删除的媒体项永远无法恢复，哪怕把保留期改成永久也不行。

3. 完整继承数据集的企业级能力

媒体集完整复用了你之前学习的数据集的所有管控能力，包括：

细粒度的权限管理：控制谁能查看、上传、编辑、删除媒体文件；
分支与版本控制：支持多人协作、变更提议、版本回溯；
数据沿袭：可追踪媒体文件从接入、加工到业务应用的全链路流转；
健康检查：监控媒体集的同步状态、文件完整性。

五、媒体集的核心加工能力：非结构化数据的变换处理

这是媒体集的核心价值所在——它不是一个单纯的文件存储柜，而是可以和Foundry的流水线开发能力深度打通，实现非结构化数据的自动化加工、内容提取、结构化转换，和你之前学习的Pipeline Builder、Code Repositories完全兼容。

文档中定义了两种加工方式，分别对应低代码用户和技术开发者：

1. 低代码加工：Pipeline Builder

Pipeline Builder中内置了媒体集专属的开箱即用变换算子，无需编写代码，即可完成非结构化数据的加工，完全对应你截图6的操作界面。

核心常用算子

Get media references：生成媒体集里所有文件的媒体引用（后面会详细讲解），是所有加工的第一步，对应你截图6中最顶部的算子；
Text extraction（文本提取）：专门针对PDF、图片的文本提取能力，对应你截图6中的算子，提供两种模式：
- Raw text：原生文本提取，针对可复制的PDF文档，直接提取内置文本，速度快、消耗低；
- OCR：光学字符识别，针对扫描件、图片格式的PDF/图片，通过图像识别提取文本，适配不可复制的文档，对应文档中标注的高消耗变换。
其他内置算子：图片旋转/裁剪/灰度化、PDF拆分、音频转码、视频帧提取、元数据解析等，覆盖绝大多数通用加工场景。

2. 代码化加工：Code Repositories

针对复杂定制化场景，媒体集支持在Code Repositories中通过Python代码实现自定义加工，文档中给出了标准的代码示例，同时联动你之前学习的Code Repositories知识：

基础加工代码示例

# 导入Foundry变换与媒体集专属库
from transforms.api import transform
from transforms.mediasets import MediaSetInput, MediaSetOutput

# 用transform装饰器定义输入输出媒体集
@transform(
    images=MediaSetInput('/examples/images'),  # 输入媒体集的平台路径
    output_images=MediaSetOutput('/examples/output_images')  # 输出媒体集的平台路径
)
def translate_images(images, output_images):
    # 在这里写自定义加工逻辑：比如图片裁剪、格式转换、AI推理等
    ...

媒体引用生成代码示例

from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput

@transform(
    metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"),  # 输出结构化元数据集
    mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}")       # 输入媒体集的唯一资源ID
)
def compute(ctx, mediaset_in, metadata_out):
    # 生成媒体集所有文件的媒体引用
    media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)

    # 定义媒体引用的列类型，让平台支持内联预览
    column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}

    # 将媒体引用+元数据写入结构化数据集
    metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)

六、核心设计：媒体引用（Media Reference）

这是Foundry媒体集最核心的差异化设计，也是非结构化数据能和结构化数据、Ontology、业务应用无缝打通的关键，文档中用了大量篇幅讲解，必须重点理解。

1. 核心定义

媒体引用是媒体集中文件的「逻辑指针/快捷方式」，它只记录文件的唯一标识，不复制媒体文件本身。你可以把它理解为Windows的快捷方式、Mac的替身——不用把原文件复制到各个地方，只需要一个快捷方式，就能在所有应用里打开、使用原文件，彻底解决了非结构化文件复制冗余、和结构化数据关联难的行业痛点。

2. 核心价值与适用场景

非结构化数据与结构化数据关联：可以在结构化数据集中，用媒体引用列绑定对应的媒体文件，实现「结构化元数据+非结构化原文件」的统一管理。比如：
- 一行数据对应一份PDF年报，列包括：年报年份、公司名称、营收金额、PDF媒体引用、提取的文本内容；
- 一行数据对应一张医疗影像，列包括：患者ID、检查时间、诊断结果、DICOM影像媒体引用。
Ontology化与业务应用：可以将媒体引用设置为Ontology对象的属性，在Workshop、Object Explorer等业务应用中，直接实现媒体文件的快速预览、交互，无需跳转其他页面，是搭建非结构化数据业务应用的核心基础。
AI模型推理：可以将媒体引用作为批量推理管道的输入，直接把媒体文件喂给AI模型，无需额外的文件读取、路径配置。

七、进阶能力：访问模式（Access Pattern）

这是Foundry针对大规模非结构化数据访问的优化能力，文档中定义为「预配置的变换，可按需在媒体文件上执行」，是平台实现低延迟访问、节省计算存储成本的核心设计。

1. 核心定义

访问模式是提前配置好的媒体处理规则，比如「生成PDF缩略图」「生成音频波形图」「卫星影像瓦片化」，平台会根据访问策略，按需执行这些变换，而不是提前把所有结果都生成好。

2. 缓存策略（核心优化点）

文档中定义了3种缓存策略，适配不同的访问场景：

每次请求时重新计算：适合极少访问、数据频繁更新的场景；
首次请求后无限期保留：适合高频访问、数据不更新的场景，一次计算永久复用，大幅降低重复消耗；
缓存固定时长：适合定期更新、中等频率访问的场景，平衡性能与存储成本。

3. 平台内置的典型应用

文档中给出了Foundry平台自身的应用案例，你在使用时已经在无感使用这个能力：

Workshop中PDF的缩略图与预览；
预览应用中音频的波形图生成；
地图应用中卫星影像的瓦片化渲染。

八、计算成本与用量统计

文档中明确了媒体集的所有操作都会消耗Foundry计算秒，并给出了详细的用量统计标准，这是企业级使用时必须关注的成本控制要点。

核心用量规则

所有媒体变换、预览、下载、流式传输，都会按处理的文件大小，消耗对应的计算秒；
不同操作的消耗差异极大，文档中给出了核心分级：

消耗等级	每GB计算秒	典型操作
低消耗	2-40	下载/流式传输、图片旋转/调整大小、PDF页面渲染、视频帧时间戳获取
中消耗	75	图片裁剪/灰度化、PDF拆分、音频转码、视频帧提取、PDF原生文本提取
高消耗	275	OCR文本提取、音频转录、视频全帧提取、视频转码、HLS流式传输

【关键提醒】文档特别标注：如果是企业合同用户，在大规模使用前务必联系Palantir代表，确认成本核算规则。

九、使用限制（实操避坑重点）

文档中明确了两个硬限制，是实操中最容易踩坑的点，必须提前注意：

文件数量限制：事务性媒体集，每个事务最多支持10000个文件；非事务性媒体集无文件数量限制；
路径长度限制：媒体集中文件的路径长度不能超过256个字符，超过会直接报MediaSet:MediaItemPathInvalid错误，上传失败。

十、完整业务闭环：媒体集全流程工作流

结合你之前学习的所有Foundry组件，文档中定义的媒体集能力，最终会形成一个完整的企业级非结构化数据业务闭环，也是你实操的标准流程：

数据接入：创建PDF类型的媒体集，通过本地上传/数据连接，导入企业年度报告PDF文件；
自动化加工：在Pipeline Builder中，通过Get media references生成媒体引用，再通过Text extraction提取PDF中的文本内容；
结构化关联：生成结构化数据集，包含年报年份、公司名称、营收指标、PDF媒体引用、提取的全文本等字段，实现非结构化文件与结构化业务数据的绑定；
语义建模：将结构化数据集映射到Ontology，创建「年度报告」对象类型，用媒体引用属性绑定PDF文件，实现非结构化数据的本体化；
业务应用：在Workshop中搭建年报分析应用，展示报告列表、业务指标、提取的文本内容，同时支持PDF原文的在线预览、检索；
合规管控：配置保留策略，自动清理超过归档期限的报告文件，控制存储成本，满足合规要求。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

agent

data

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

agent

data

登录后参与评论

0 条评论

热度