在文档处理过程中,我希望从html元数据中提取所有日期,然后确定将用于填充日期字段(dtgeneric1)的最新日期。
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data使用spy stage进行的检查显示,我们的管道已经添加了meta_*属性,但是不同来源的文档的元数据名称会有所不同。
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes理想情况下,我们希望将所有meta_*属性传递给Python阶段,并使用它来确定哪些是日期,哪些是最大的日期,但似乎没有办法指定“所有元属性”作为输入。
有没有人做过类似的事情,并能就最好的方法提供任何建议。
谢谢
尼尔
发布于 2010-05-09 16:42:03
我假设一个自定义阶段接受所有需要的日期属性作为输入,处理所有属性之间的比较(以查找最新的日期),并输出最新的字段。
https://stackoverflow.com/questions/2686132
复制相似问题