我用Solr索引期刊文章。使用开箱即用的配置,它将文档的文本编入索引,但我希望使用Grobid来提取作者、标题、附属机构等。
我加了
<str name="tika.config">/path/to/tika-config.xml</str>
到requestHandler的solrconfig.xml中的/update/提取
tika-config看起来如下:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>当我试图导入一个文档时,我得到了一个ClassNotFound异常,但是无法确定在哪里设置类路径来修复它。
https://stackoverflow.com/questions/37028585
复制相似问题