PyTextRank PyTextRank是原始TextRank算法的python实现,具有一些增强功能,例如使用词形结构而不是词干,结合词性标注和命名实体解析,从文章中提取关键短语并基于它们提取摘要句子 除了文章的摘要,PyTextRank还从文章中提取了有意义的关键短语。PyTextRank分四个阶段工作,每个阶段将输出提供给下一个: 在第一阶段,对文档中的每个句子执行词性标注和词形还原。 从数据中推导的另一个结论是Gensim的Textrank优于普通的PyTextRank,因为它在纯TextRank中使用BM25函数代替了Cosine IDF函数。 未来的方向是将Gensim的TextRank实现与Paco Nathan的PyTextRank进行比较。
这类抽取型算法工程上已经有很多开源的解决办法了, 例如Github上的项目sumy, pytextrank, textteaser等.
这类抽取型算法工程上已经有很多开源的解决办法了, 例如Github上的项目sumy, pytextrank, textteaser等.