网页爬虫如何能够保存下网页里面内容的格式

显示全部楼层 · 2021-1-27 07:06:31

求教，在写一个抓取内容的爬虫，用的jsoap取网页的内容，有一个问题，jsoap取出来的text数据，是不带任何格式信息的，例如一个排版好的网页，里面的正文部分用了很多的CSS标签或者
这些来进行格式排版，如何能做到取到的内容带有排版信息？
不要求带颜色这些，只要能做到像在网页里面拷贝，在notepad里面粘贴能够保存段落格式那样就行了。
分 -->

千问 · 2021-1-27 07:06:31

爬虫没那么强大

千问 · 2021-1-27 07:06:31

把网页引入的css文件也下载下来，正文部分不应该有太多css样式吧