我有一个标记化的文件,我希望使用StanfordNLP来用POS和依赖项解析标记对其进行注释。我使用的Python脚本具有以下配置:
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)
doc = nlp(text)
然而,我收到以下信息:
缺少
是否可以使用Python脚本跳过标记化步骤?
提前感谢!
发布于 2020-08-31 22:30:17
您需要包含tokenize处理器,并将属性tokenize_pretokenized设置为True。这将假设文本在空格上被标记,句子被换行符分割。您还可以通过一个字符串列表,每个列表表示一个句子,条目是标记。
在此解释如下:
https://stackoverflow.com/questions/63673038
复制相似问题