首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在句子中的一个词周围提取上下文

在句子中的一个词周围提取上下文
EN

Stack Overflow用户
提问于 2016-08-13 08:37:00
回答 2查看 2.4K关注 0票数 1

假设我有一个很长的文本,我想提取一个特定单词的一定长度的上下文。例如,在下面的文本中,我想提取围绕战士这个词的8个单词。

.

.

..。死了。他是一个非常勇敢的战士,为自由而战.

.

.

在这种情况下,结果将是

他是一个非常勇敢的战士,为自由而战。

请注意我是如何删除“死”这个词的,因为我更希望从一个完整句子的开头开始,以及我是如何提取超过8个单词的,因为fight for freedom比仅仅争取更有意义。

是否有任何算法,或进行的研究,在这个领域,我可以遵循?我该如何着手处理这个问题。

EN

回答 2

Stack Overflow用户

发布于 2016-08-13 08:59:38

  1. 您可以使用RegEx获得包含您正在寻找的单词的整个句子。
  2. 然后利用信息抽取算法找出更方便的8个词。

我发现一些Python实现了这两者

关于regexp,请看这里

对于提取算法,请看这里

希望这能帮到你

票数 0
EN

Stack Overflow用户

发布于 2019-06-20 11:14:44

让我们将您的问题分成几个部分,并将其与任何编程语言保持独立:

  1. 如果你想要战斗这个词而不是战斗,你应该对你的数据进行预处理。请看一看柠檬化和词干技术,这将给你的词根。
  2. 另外,另一个文本预处理步骤是消除文本中的停止词。诸如,将,如果,但等字将被移除。
  3. 现在,要提取n个单词,可以定义一个窗口大小,从句子文本中提取n个单词。所以,你所要做的就是,写一个函数,把你想要提取单词的目标文本和单词取出来。在整个文本上迭代这个循环。

希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38930871

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档