首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >palantir深度解析(四)

palantir深度解析(四)

原创
作者头像
小龙0-0
发布2026-04-09 10:56:38
发布2026-04-09 10:56:38
1110
举报

Palantir Foundry 媒体集(非结构化数据)

这份文档是Foundry平台非结构化数据全生命周期管理、处理与分析的核心能力手册。媒体集(Media Set)是Foundry专门为大规模非结构化数据设计的核心载体,和你之前学习的「结构化数据集」「流」共同构成了Foundry全类型数据的管理体系,彻底解决了PDF、图片、音视频、医疗影像、地理空间文件等非结构化数据的接入、存储、加工、治理与业务应用的全流程需求。

以下是文档内容的逐模块深度拆解,同时100%对应你提供的所有操作截图,实现原理与实操的完全打通,同时联动你之前学习的Foundry核心组件知识,形成完整的知识体系。


一、媒体集的核心定位与基础定义

1. 核心本质

媒体集是具有相同格式/模式的媒体文件的集合,是Foundry专门面向非结构化数据设计的管理与处理载体。 和你之前学习的结构化数据集对比,你可以快速建立认知:

特性

结构化数据集

媒体集

核心定位

管理结构化表格数据、半结构化数据

专门管理非结构化媒体文件(文档、图片、音视频、专业格式文件)

底层设计

对底层文件系统中表格文件的逻辑包装

针对非结构化文件优化的存储架构,配套专用计算引擎、算子与缓存策略

核心能力

表格数据的加工、计算、分析

非结构化文件的全生命周期管理、格式专属变换、内容提取、业务化应用

平台集成

全平台组件原生支持

完整继承数据集的所有企业级能力(权限、分支、版本、沿袭、健康检查),额外配套非结构化数据专属能力

2. 官方明确的核心适用场景

文档中给出了3个典型的企业级工作流示例,也是媒体集最常用的场景:

  1. 文档内容分析:通过Pipeline Builder从PDF中提取文本,支撑合同审核、年报分析、合规文档检索等内容分析场景(完全对应你截图6中的PDF文本提取操作、截图7-9中的年报PDF管理);
  2. 地理空间分析:处理栅格切片文件(TIFF、NITF),在地图应用中做卫星影像、地理空间数据的可视化与分析;
  3. 医疗影像处理:通过Pipeline Builder处理DICOM格式的医学影像文件,支撑医疗场景的影像分析、AI模型推理。


二、支持的媒体文件类型

文档中明确了媒体集原生支持的4大类文件格式,同时标注了使用限制,这是实操中最基础的规则:

媒体类型

支持的文件格式

关键限制

音频

WAV、MP3、NIST SPHERE、FLAC

无额外特殊限制

文档

PDF

不支持带密码、数字签名、加密、需要专有功能查看的PDF文件

图像

PNG、JPEG/JPG、JP2K、BMP、TIFF/TIF、NITF、DICOM

覆盖通用图片、地理空间影像、医疗影像三大类专业格式

视频

MP4、MOV、TS

无额外特殊限制


三、媒体集的创建与数据导入

文档中详细定义了媒体集的全量导入方式,从最简单的本地上传到企业级的外部系统对接,每一步都和你的截图完全对应:

1. 第一步:创建媒体集

文档中明确的创建路径:在项目中点击顶部+ New按钮 → 在搜索框输入media → 选择Media set选项,即可启动媒体集创建流程。

2. 第二步:选择媒体类型

创建媒体集时,必须指定该媒体集的专属文件类型,文档中给出了3个核心选项,和截图5完全对应:

  • Audio:音频类文件
  • Documents:分页文档类文件(最常用的就是PDF)
  • Images:静态图片类文件

【关键规则】创建时指定的媒体类型,决定了该媒体集仅能上传对应格式的文件,不匹配的文件无法上传,避免了不同格式文件混杂导致的处理错误。

3. 第三步:上传媒体文件

创建完成后,会进入空媒体集页面(截图4),文档中明确了两种本地上传方式:

  1. 直接将本地媒体文件拖放到页面的上传框中;
  2. 点击choose from your computer,从本地文件夹选择文件上传。

上传成功后,会进入媒体集预览页面(截图1),可以看到所有文件的缩略图、分页预览,左侧面板会显示媒体集的元数据(更新时间、创建人、存储位置、媒体项数量等),和你截图1的界面完全一致。

4. 企业级批量导入方式

除了本地上传,文档中还定义了3种面向企业级场景的大规模导入方式:

  1. 数据连接同步:通过你之前学习的「数据连接」应用,对接外部文件系统、业务系统,配置同步任务,将外部媒体文件批量同步到媒体集中,无需手动上传;
  2. 虚拟存储(进阶):对于支持的源类型,媒体集可以配置为「直接从外部源系统读取」,无需将文件复制到Foundry的底层存储中,既节省了存储成本,又避免了数据冗余,适合超大规模文件库的场景;
  3. 其他方式:支持通过API发布、外部变换(对接REST API源)、Pipeline Builder直接导入的方式,实现自动化、代码化的文件接入。

四、媒体集的核心管理能力

1. 媒体项的删除操作(对应截图7、8、9)

文档中明确了媒体项的删除流程,和你的截图完全对应:

  1. 点击需要删除的媒体文件,进入预览页面;
  2. 右侧面板点击Delete按钮(截图7红框标注);
  3. 在弹出的确认窗口中,再次点击Delete确认删除,防止误操作;
  4. 删除成功后,页面会弹出绿色的成功提示(截图8),媒体集自动刷新,被删除的文件不再显示。

2. 保留策略(存储成本与合规管控核心)

文档中重点强调了媒体集的保留策略能力,这是企业级场景中控制存储成本、满足数据合规要求的核心功能:

  • 核心作用:可以为媒体集配置基于时间的保留策略(比如保留14天、30天),超过保留窗口的媒体项会被永久删除,无法恢复;
  • 【关键不可逆规则】文档中特别标注了两个极易踩坑的规则:
    1. 当保留窗口从30天缩短到7天时,所有超过7天的媒体项会立即永久删除,无法恢复
    2. 当保留窗口从7天延长到30天时,之前已经过期删除的媒体项永远无法恢复,哪怕把保留期改成永久也不行。

3. 完整继承数据集的企业级能力

媒体集完整复用了你之前学习的数据集的所有管控能力,包括:

  • 细粒度的权限管理:控制谁能查看、上传、编辑、删除媒体文件;
  • 分支与版本控制:支持多人协作、变更提议、版本回溯;
  • 数据沿袭:可追踪媒体文件从接入、加工到业务应用的全链路流转;
  • 健康检查:监控媒体集的同步状态、文件完整性。

五、媒体集的核心加工能力:非结构化数据的变换处理

这是媒体集的核心价值所在——它不是一个单纯的文件存储柜,而是可以和Foundry的流水线开发能力深度打通,实现非结构化数据的自动化加工、内容提取、结构化转换,和你之前学习的Pipeline Builder、Code Repositories完全兼容。

文档中定义了两种加工方式,分别对应低代码用户和技术开发者:

1. 低代码加工:Pipeline Builder

Pipeline Builder中内置了媒体集专属的开箱即用变换算子,无需编写代码,即可完成非结构化数据的加工,完全对应你截图6的操作界面。

核心常用算子
  1. Get media references:生成媒体集里所有文件的媒体引用(后面会详细讲解),是所有加工的第一步,对应你截图6中最顶部的算子;
  2. Text extraction(文本提取):专门针对PDF、图片的文本提取能力,对应你截图6中的算子,提供两种模式:
    • Raw text:原生文本提取,针对可复制的PDF文档,直接提取内置文本,速度快、消耗低;
    • OCR:光学字符识别,针对扫描件、图片格式的PDF/图片,通过图像识别提取文本,适配不可复制的文档,对应文档中标注的高消耗变换。
  3. 其他内置算子:图片旋转/裁剪/灰度化、PDF拆分、音频转码、视频帧提取、元数据解析等,覆盖绝大多数通用加工场景。

2. 代码化加工:Code Repositories

针对复杂定制化场景,媒体集支持在Code Repositories中通过Python代码实现自定义加工,文档中给出了标准的代码示例,同时联动你之前学习的Code Repositories知识:

基础加工代码示例
代码语言:javascript
复制
# 导入Foundry变换与媒体集专属库
from transforms.api import transform
from transforms.mediasets import MediaSetInput, MediaSetOutput

# 用transform装饰器定义输入输出媒体集
@transform(
    images=MediaSetInput('/examples/images'),  # 输入媒体集的平台路径
    output_images=MediaSetOutput('/examples/output_images')  # 输出媒体集的平台路径
)
def translate_images(images, output_images):
    # 在这里写自定义加工逻辑:比如图片裁剪、格式转换、AI推理等
    ...
媒体引用生成代码示例
代码语言:javascript
复制
from pyspark.sql import functions as F
from transforms.api import transform, Input, Output
from transforms.mediasets import MediaSetInput

@transform(
    metadata_out=Output("{YOUR_OUTPUT_METADATA_DATASET}"),  # 输出结构化元数据集
    mediaset_in=MediaSetInput("{YOUR_MEDIA_SET_RID}")       # 输入媒体集的唯一资源ID
)
def compute(ctx, mediaset_in, metadata_out):
    # 生成媒体集所有文件的媒体引用
    media_references = mediaset_in.list_media_items_by_path_with_media_reference(ctx)

    # 定义媒体引用的列类型,让平台支持内联预览
    column_typeclasses = {'mediaReference': [{'kind': 'reference', 'name': 'media_reference'}]}

    # 将媒体引用+元数据写入结构化数据集
    metadata_out.write_dataframe(media_references, column_typeclasses=column_typeclasses)

六、核心设计:媒体引用(Media Reference)

这是Foundry媒体集最核心的差异化设计,也是非结构化数据能和结构化数据、Ontology、业务应用无缝打通的关键,文档中用了大量篇幅讲解,必须重点理解。

1. 核心定义

媒体引用是媒体集中文件的「逻辑指针/快捷方式」,它只记录文件的唯一标识,不复制媒体文件本身。 你可以把它理解为Windows的快捷方式、Mac的替身——不用把原文件复制到各个地方,只需要一个快捷方式,就能在所有应用里打开、使用原文件,彻底解决了非结构化文件复制冗余、和结构化数据关联难的行业痛点。

2. 核心价值与适用场景

  1. 非结构化数据与结构化数据关联:可以在结构化数据集中,用媒体引用列绑定对应的媒体文件,实现「结构化元数据+非结构化原文件」的统一管理。比如:
    • 一行数据对应一份PDF年报,列包括:年报年份、公司名称、营收金额、PDF媒体引用、提取的文本内容;
    • 一行数据对应一张医疗影像,列包括:患者ID、检查时间、诊断结果、DICOM影像媒体引用。
  2. Ontology化与业务应用:可以将媒体引用设置为Ontology对象的属性,在Workshop、Object Explorer等业务应用中,直接实现媒体文件的快速预览、交互,无需跳转其他页面,是搭建非结构化数据业务应用的核心基础。
  3. AI模型推理:可以将媒体引用作为批量推理管道的输入,直接把媒体文件喂给AI模型,无需额外的文件读取、路径配置。

七、进阶能力:访问模式(Access Pattern)

这是Foundry针对大规模非结构化数据访问的优化能力,文档中定义为「预配置的变换,可按需在媒体文件上执行」,是平台实现低延迟访问、节省计算存储成本的核心设计。

1. 核心定义

访问模式是提前配置好的媒体处理规则,比如「生成PDF缩略图」「生成音频波形图」「卫星影像瓦片化」,平台会根据访问策略,按需执行这些变换,而不是提前把所有结果都生成好。

2. 缓存策略(核心优化点)

文档中定义了3种缓存策略,适配不同的访问场景:

  1. 每次请求时重新计算:适合极少访问、数据频繁更新的场景;
  2. 首次请求后无限期保留:适合高频访问、数据不更新的场景,一次计算永久复用,大幅降低重复消耗;
  3. 缓存固定时长:适合定期更新、中等频率访问的场景,平衡性能与存储成本。

3. 平台内置的典型应用

文档中给出了Foundry平台自身的应用案例,你在使用时已经在无感使用这个能力:

  • Workshop中PDF的缩略图与预览;
  • 预览应用中音频的波形图生成;
  • 地图应用中卫星影像的瓦片化渲染。

八、计算成本与用量统计

文档中明确了媒体集的所有操作都会消耗Foundry计算秒,并给出了详细的用量统计标准,这是企业级使用时必须关注的成本控制要点。

核心用量规则

  • 所有媒体变换、预览、下载、流式传输,都会按处理的文件大小,消耗对应的计算秒;
  • 不同操作的消耗差异极大,文档中给出了核心分级:

消耗等级

每GB计算秒

典型操作

低消耗

2-40

下载/流式传输、图片旋转/调整大小、PDF页面渲染、视频帧时间戳获取

中消耗

75

图片裁剪/灰度化、PDF拆分、音频转码、视频帧提取、PDF原生文本提取

高消耗

275

OCR文本提取、音频转录、视频全帧提取、视频转码、HLS流式传输

【关键提醒】文档特别标注:如果是企业合同用户,在大规模使用前务必联系Palantir代表,确认成本核算规则。


九、使用限制(实操避坑重点)

文档中明确了两个硬限制,是实操中最容易踩坑的点,必须提前注意:

  1. 文件数量限制:事务性媒体集,每个事务最多支持10000个文件;非事务性媒体集无文件数量限制;
  2. 路径长度限制:媒体集中文件的路径长度不能超过256个字符,超过会直接报MediaSet:MediaItemPathInvalid错误,上传失败。

十、完整业务闭环:媒体集全流程工作流

结合你之前学习的所有Foundry组件,文档中定义的媒体集能力,最终会形成一个完整的企业级非结构化数据业务闭环,也是你实操的标准流程:

  1. 数据接入:创建PDF类型的媒体集,通过本地上传/数据连接,导入企业年度报告PDF文件;
  2. 自动化加工:在Pipeline Builder中,通过Get media references生成媒体引用,再通过Text extraction提取PDF中的文本内容;
  3. 结构化关联:生成结构化数据集,包含年报年份、公司名称、营收指标、PDF媒体引用、提取的全文本等字段,实现非结构化文件与结构化业务数据的绑定;
  4. 语义建模:将结构化数据集映射到Ontology,创建「年度报告」对象类型,用媒体引用属性绑定PDF文件,实现非结构化数据的本体化;
  5. 业务应用:在Workshop中搭建年报分析应用,展示报告列表、业务指标、提取的文本内容,同时支持PDF原文的在线预览、检索;
  6. 合规管控:配置保留策略,自动清理超过归档期限的报告文件,控制存储成本,满足合规要求。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Palantir Foundry 媒体集(非结构化数据)
    • 一、媒体集的核心定位与基础定义
      • 1. 核心本质
      • 2. 官方明确的核心适用场景
    • 二、支持的媒体文件类型
    • 三、媒体集的创建与数据导入
      • 1. 第一步:创建媒体集
      • 2. 第二步:选择媒体类型
      • 3. 第三步:上传媒体文件
      • 4. 企业级批量导入方式
    • 四、媒体集的核心管理能力
      • 1. 媒体项的删除操作(对应截图7、8、9)
      • 2. 保留策略(存储成本与合规管控核心)
      • 3. 完整继承数据集的企业级能力
    • 五、媒体集的核心加工能力:非结构化数据的变换处理
      • 1. 低代码加工:Pipeline Builder
      • 2. 代码化加工:Code Repositories
    • 六、核心设计:媒体引用(Media Reference)
      • 1. 核心定义
      • 2. 核心价值与适用场景
    • 七、进阶能力:访问模式(Access Pattern)
      • 1. 核心定义
      • 2. 缓存策略(核心优化点)
      • 3. 平台内置的典型应用
    • 八、计算成本与用量统计
      • 核心用量规则
    • 九、使用限制(实操避坑重点)
    • 十、完整业务闭环:媒体集全流程工作流
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档