Github地址:https://github.com/lixi5338619/lxparse 图片 图片 图片 图片 备注: 使用lxparse解析库解析时,如有解析异常可手动指定解析规则。
lxparse:一个适用于解析列表页链接和提取详请页内容的Python库。 Github地址:https://github.com/lixi5338619/lxparse ---- 项目背景 现有2000个政企网站信源,要短时间实现动态监测。 lxparse中的列表页解析借助了readability的主体抽取方法,详情页解析引用了gen的一些正则匹配方法。 ---- 实现逻辑 列表页 1、提取列表页主体。 ---- 使用方法 安装: pip install lxparse 调用: from lxparse import LxParse lx = LxParse() list_html = "" lx.parse_list ---- 备注 使用lxparse解析库解析时,如有解析异常可手动指定解析规则。 测试用例不多,毕竟目前无法100%解析成功,如有问题可以提issues一起优化。