用Jdom或者Jtidy生成dom树有什么区别?怎么做?

[复制链接]
查看11 | 回复1 | 2011-4-29 09:16:52 | 显示全部楼层 |阅读模式
初用java,我想把html代码中的部分信息抽取出来,最后按照我自己的格式保存为txt文件,想通过建立dom树的方式抽取,这样可行吗?怎么做?我的理解:通过Jdom是把xml建树抽取保存为xml,通过Jtidy是把html建树抽取保存为xml,但是其中有个“样式表”,这是什么?我只想抽出相应数据存在变量中,用什么方法?谢谢
回复

使用道具 举报

千问 | 2011-4-29 09:16:52 | 显示全部楼层
Jtidy用来把HTML格式化、整理成规范的XHTML,它不知道有没有解析整理完的HTML的能力,如果有的话,使用Jtidy就可以完成你得需求,直接解析HTML就可以了。如果没有,那就需要这两个东西配合来用,先用Jtidy把HTML整理成xml,然后用JDom去解析这个xml,完成信息的抽取工作。
如果你要抽取的内容是比较固定的内容,而且改动比较少的话(比如只抽取id为testDIV的div的内容的话),大可不必那么费劲,用正则表达式和字符截取的办法自己写就行了,把整个HTML做为一个string拿去处理,很容易摆平。查找特定HTML标签的正则表达式百度一搜一大把,拿来匹配一下,就能把该标签内容全部截出来。灰常容易。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行