首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从FAST-ESP中的html元数据中提取日期

从FAST-ESP中的html元数据中提取日期
EN

Stack Overflow用户
提问于 2010-04-22 03:55:49
回答 1查看 375关注 0票数 0

在文档处理过程中,我希望从html元数据中提取所有日期,然后确定将用于填充日期字段(dtgeneric1)的最新日期。

代码语言:javascript
复制
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data

使用spy stage进行的检查显示,我们的管道已经添加了meta_*属性,但是不同来源的文档的元数据名称会有所不同。

代码语言:javascript
复制
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes

理想情况下,我们希望将所有meta_*属性传递给Python阶段,并使用它来确定哪些是日期,哪些是最大的日期,但似乎没有办法指定“所有元属性”作为输入。

有没有人做过类似的事情,并能就最好的方法提供任何建议。

谢谢

尼尔

EN

回答 1

Stack Overflow用户

发布于 2010-05-09 16:42:03

我假设一个自定义阶段接受所有需要的日期属性作为输入,处理所有属性之间的比较(以查找最新的日期),并输出最新的字段。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2686132

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档