Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。 授权协议:Apache 开发语言:Java 操作系统:跨平台 Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。 Boilerpipe 的包结构: boilerpipe,根目录 document,文档包,定义了 boilerpipe 所处理文档数据类型,主要包括 TextDocument 和 TextBlock
经过我的一番调研,目前发现有这么几种算法或者服务对页面的智能化解析做的比较好: Diffbot,国外的一家专门来做智能化解析服务的公司,https://www.diffbot.com Boilerpipe ,Java 语言编写的一个页面解析算法,https://github.com/kohlschutter/boilerpipe Embedly,提供页面解析服务的公司,https://embed.ly/extract 其结果对比如下: Service/Software Precision Recall F1-Score Diffbot 0.968 0.978 0.971 Boilerpipe 0.893 0.924 另外接下来比较厉害的就是 Boilerpipe 和 Readability,Goose 的表现则非常差,F1 跟其他的算法差了一大截。下面是几个算法的 F1 分数对比情况: ?
4、除了 goose 外,还有其他的正文提取库可以尝试,比如 python-boilerpipe、python-readability 等。
技术:自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习: “机器学习系统根据数据作出自动化决策。
除了 goose 外,还有其他的正文提取库可以尝试,比如 python-boilerpipe、python-readability 等。
技术: 自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习:“机 器学习系统根据数据作出自动化决策。
技术: 自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习 :“机器学习系统根据数据作出自动化决策。
Lucene、ElasticSearch、Datameer、Bigsheets、TinkerpopNLP自然语言处- 理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe
Lucene、ElasticSearch、Datameer、Bigsheets、TinkerpopNLP自然语言处理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe
Lucene、ElasticSearch、Datameer、Bigsheets、TinkerpopNLP自然语言处理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe
利用页面布局信息辅助提取 主流提取工具: Newspaper3k 2.0:改进的文章提取库 readability-lxml:Mozilla Readability算法的Python实现 goose3:高性能内容提取库 boilerpipe