很多时候网页中采用正则或者xpath提取数据内容的方式是很好的,但是对于不确定网页内容结构,可以采用xpath提取更大范围的div,然后去除一切标签来提取数据。

自定义过滤什么标签

遍历 html 中的子标签,修改替换

清除特定的 html 标签

HTTPX 基础教程-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客