这个想法很简单:
想象一下一个简单的白色页面,它的表单只有一个input标签(就像google主页)。当我在此表单中插入博客文章的链接时,javascript-crawler将搜索博客文章网页中的第一个图像(通过ajax ),将其显示在白色页面中,并将其保存在我的服务器上。
这个爬虫就像Digg和Facebook-wall一样工作。
我必须为这个爬虫使用什么函数?
发布于 2010-09-29 01:50:07
由于cross cross domain restrictions的存在,纯javascript爬虫并不常见,在实际应用中也不可行。您可能需要设置一个服务器端脚本,该脚本将接收在表单中输入的地址,获取远程资源的内容,并解析html以获得图像。
https://stackoverflow.com/questions/3815568
复制相似问题