网页爬虫如何能够保存下网页里面内容的格式

[复制链接]
查看11 | 回复2 | 2021-1-27 07:06:31 | 显示全部楼层 |阅读模式
求教,在写一个抓取内容的爬虫,用的jsoap取网页的内容,有一个问题,jsoap取出来的text数据,是不带任何格式信息的,例如一个排版好的网页,里面的正文部分用了很多的CSS标签或者
这些来进行格式排版,如何能做到取到的内容带有排版信息?
不要求带颜色这些,只要能做到像在网页里面拷贝,在notepad里面粘贴能够保存段落格式那样就行了。
分 -->
回复

使用道具 举报

千问 | 2021-1-27 07:06:31 | 显示全部楼层
爬虫没那么强大
回复

使用道具 举报

千问 | 2021-1-27 07:06:31 | 显示全部楼层
把网页引入的css文件也下载下来,正文部分不应该有太多css样式吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行