一个JAVA编程题 那位高手帮帮我 期末作业 纠结!!!!

[复制链接]
查看11 | 回复4 | 2011-3-12 19:55:42 | 显示全部楼层 |阅读模式
基于正则表达式的HTML页面净化:
题目需求:互联网信息挖掘是指通过数据挖掘的方法从海量的互联网信息中发现有用的信息,比如购物搜索中的商品价格比较。但是互联网信息大多都有HTML标签描述,这些HTML标签、文字、图片共同构成了一个网页。在对互联网信息的文本挖掘中,人们只关心网页上的文字信息,希望只对这些文字信息进行挖掘;但这些HTML标签对文本挖掘带来了很大的影响,在进行挖掘是希望把这些标签去掉,只对剩下的纯文本进行挖掘,这一过程也叫做网页净化。
在众多的网页净化方法中,最简单的一种是利用正则表达式对网页中的HTML标签进行匹配,从而得到净化后的网页。正则表达式 是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串;在《编译原理》中也称为正规式。正则表达式使用的最多的地方是对输入信息进行校验,比如校验输入的电子邮件地址、电话号码、URL地址是否正确等,比如电子邮箱地址用如下的式子既可表示:
/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
HTML标签可以用以下的式子表示:
/^(.*)|\s+\/>)$/
在很多语言中都提供了正则表示匹配的函数,你的任务就是利用正则表对给定网页进行净化,获得净化后的纯文本信息。
性能及功能需求:
1.能同时对多个网页文档进行净化,在10个网页文档(每个400K以内)的处理时间应在1分钟之内得到结果。
2.程序应能显示处理进度。
3.程序应有良好的输出格式,便于后期处理。
4.对净化后的结果进行评估,确定净化率。
输入格式:
程序输入为n个网页文档(105,每个网站的网页数>4,20个网页的净化要求在1分钟内完成;
高级:在完成中级要求的基础上,将网页净化程序转换为函数或组件,提供给其他程序使用。函数或组件的输入为一个网页文档集,输出为净化后的文本文件,并尝试净化网页中的广告信息。

回复

使用道具 举报

千问 | 2011-3-12 19:55:42 | 显示全部楼层
我看你这题目,我都纠结了。,,真的,,,,
回复

使用道具 举报

千问 | 2011-3-12 19:55:42 | 显示全部楼层
神啊,你给咱多少钱?这个题目少了五百块没人帮你,哈哈 我说真的
回复

使用道具 举报

千问 | 2011-3-12 19:55:42 | 显示全部楼层
分数太少了,加点分吧。
回复

使用道具 举报

千问 | 2011-3-12 19:55:42 | 显示全部楼层
神啊,这种题50分都不会有人做的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行