首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在已经标记的文件中使用StanfordNLP工具(POSTagger和Parser)?

如何在已经标记的文件中使用StanfordNLP工具(POSTagger和Parser)?
EN

Stack Overflow用户
提问于 2020-08-31 14:47:20
回答 1查看 170关注 0票数 0

我有一个标记化的文件,我希望使用StanfordNLP来用POS和依赖项解析标记对其进行注释。我使用的Python脚本具有以下配置:

代码语言:javascript
复制
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)

doc = nlp(text)

然而,我收到以下信息:

缺少

  • :{“令牌”}为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。

是否可以使用Python脚本跳过标记化步骤?

提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-08-31 22:30:17

您需要包含tokenize处理器,并将属性tokenize_pretokenized设置为True。这将假设文本在空格上被标记,句子被换行符分割。您还可以通过一个字符串列表,每个列表表示一个句子,条目是标记。

在此解释如下:

https://stanfordnlp.github.io/stanza/tokenize.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63673038

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档