用Jdom或者Jtidy生成dom树有什么区别？怎么做？

显示全部楼层 · 2011-4-29 09:16:52

初用java，我想把html代码中的部分信息抽取出来，最后按照我自己的格式保存为txt文件，想通过建立dom树的方式抽取，这样可行吗？怎么做？我的理解：通过Jdom是把xml建树抽取保存为xml，通过Jtidy是把html建树抽取保存为xml，但是其中有个“样式表”，这是什么？我只想抽出相应数据存在变量中，用什么方法？谢谢

千问 · 2011-4-29 09:16:52

Jtidy用来把HTML格式化、整理成规范的XHTML，它不知道有没有解析整理完的HTML的能力，如果有的话，使用Jtidy就可以完成你得需求，直接解析HTML就可以了。如果没有，那就需要这两个东西配合来用，先用Jtidy把HTML整理成xml，然后用JDom去解析这个xml，完成信息的抽取工作。
如果你要抽取的内容是比较固定的内容，而且改动比较少的话(比如只抽取id为testDIV的div的内容的话)，大可不必那么费劲，用正则表达式和字符截取的办法自己写就行了，把整个HTML做为一个string拿去处理，很容易摆平。查找特定HTML标签的正则表达式百度一搜一大把，拿来匹配一下，就能把该标签内容全部截出来。灰常容易。