文章/答案/技术大牛

发布

社区首页 >问答首页 >从维基百科XML转储获取静态HTML文件

问从维基百科XML转储获取静态HTML文件
EN

Stack Overflow用户

提问于 2012-05-23 12:12:28

回答 1查看 5.7K关注 0票数 11

我希望能够从我从WikiMedia dump page下载的大量(即使经过压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获得相对最新的静态HTML文件。似乎有相当多的工具可用，尽管关于它们的文档非常少，所以我不知道它们中的大多数是做什么的，或者它们是否是最新的转储。(我非常擅长构建可以在相对较小的HTML页面/文件中爬行的web爬虫，尽管我在SQL和XML方面做得很糟糕，而且我预计至少在未来一年内都不会很好地使用这两种语言。)我希望能够在脱机时爬行从转储获得的HTML文件，而不是求助于在线爬行维基百科。

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具？

xml-parsing

screen-scraping

web-crawler

mediawiki

wikipedia

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-05-23 15:21:16

首先是import the data。然后用DumpHTML创建HTML文件。虽然在理论上很简单，但由于涉及的数据量和DumpHTML被忽略了一点，这个过程在实践中可能会很复杂，所以请不要犹豫，使用ask for help。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10713330

复制

相似问题

问从维基百科XML转储获取静态HTML文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从维基百科XML转储获取静态HTML文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从维基百科XML转储获取静态HTML文件
EN