我希望能够从我从WikiMedia dump page下载的大量(即使经过压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获得相对最新的静态HTML文件。似乎有相当多的工具可用,尽管关于它们的文档非常少,所以我不知道它们中的大多数是做什么的,或者它们是否是最新的转储。(我非常擅长构建可以在相对较小的HTML页面/文件中爬行的web爬虫,尽管我在SQL和XML方面做得很糟糕,而且我预计至少在未来一年内都不会很好地使用这两种语言。)我希望能够在脱机时爬行从转储获得的HTML文件,而不是求助于在线爬行维基百科。
有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?
发布于 2012-05-23 15:21:16
首先是import the data。然后用DumpHTML创建HTML文件。虽然在理论上很简单,但由于涉及的数据量和DumpHTML被忽略了一点,这个过程在实践中可能会很复杂,所以请不要犹豫,使用ask for help。
https://stackoverflow.com/questions/10713330
复制相似问题