文章/答案/技术大牛

发布

社区首页 >问答首页 >solr-cell搜索适用于某些pdf，而不适用于其他pdf。

问solr-cell搜索适用于某些pdf，而不适用于其他pdf。
EN

Stack Overflow用户

提问于 2011-05-10 07:28:49

回答 2查看 217关注 0票数 2

我已经找了两天了，还没有找到答案。

我已经在运行tomcat6的Ubuntu服务器上从repos安装了solr，并添加了solr-cell jar和tika库。

我可以运行对某些pdf文件有效的curl命令，并对它们进行索引，但对其他文件无效。起初，我认为一些文件已损坏，但事实似乎并非如此。在我看来，那些不起作用的和不起作用的没有什么大的区别。

我得到的错误是一个500错误- see example here

我发出的curl请求是：

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"

这确实适用于某些PDF，但不适用于其他PDF。

我相信我已经安装了solr 1.4.0。

任何帮助都将不胜感激-谢谢

--编辑--我正在使用Ubuntu 10.04.1，如果有帮助的话。

solr

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-05-16 08:43:51

好的，solr的夜间快照使用的是PDFBox 1.3.1，而当前的稳定版使用的是0.7。*这是一个相当大的修改版本。

我可以使用solr的这个快照版本来索引所有的pdf。在我看来，这个问题将在下一个稳定版本中修复。

票数 0

Stack Overflow用户

发布于 2011-05-10 08:52:24

NullPointerException可能是一个bug。向PDFBox和/或Tika报告。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5943613

复制

相似问题

问solr-cell搜索适用于某些pdf，而不适用于其他pdf。
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问solr-cell搜索适用于某些pdf，而不适用于其他pdf。EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问solr-cell搜索适用于某些pdf，而不适用于其他pdf。
EN