做过搜索引擎的来看看,爬虫爬取的文本如何提取自己想要的信息啊

[复制链接]
查看11 | 回复5 | 2011-1-22 07:33:54 | 显示全部楼层 |阅读模式
比如一个网站的文本信息是XXXXXAAAAAAAAXXX怎么把AAA查出来,别说是正则表达式啊,那我晕了,需要说明的是爬虫程序已经完成了,就是不知道后续怎么办

回复

使用道具 举报

千问 | 2011-1-22 07:33:54 | 显示全部楼层
正常情况下,在网站的目录下放一个robots.txt的文件,里面可以声明禁止爬虫来爬,做为一个有品的爬虫程序,就不去爬了,当然没品的不在此列。对于恶意爬虫,可以封掉它的ip
回复

使用道具 举报

千问 | 2011-1-22 07:33:54 | 显示全部楼层
新年到了,送你一个饺子平安皮儿包着如意馅,用真情煮熟,吃一口快乐两口幸福三口顺利然后喝全家健康汤,回味是温馨,余香是祝福~~~
回复

使用道具 举报

千问 | 2011-1-22 07:33:54 | 显示全部楼层
有句话,很珍惜的话,要对你说,因为一年或许才能说一次,我想现在是该大声说出来的时候了,我要大叫……春节快乐:)
回复

使用道具 举报

千问 | 2011-1-22 07:33:54 | 显示全部楼层
新春快乐!吉祥如意!幸福康健!新的一年,心平气和,顺顺利利,和和美美,团团圆圆! 加分吧,嘻嘻
回复

使用道具 举报

千问 | 2011-1-22 07:33:54 | 显示全部楼层
我怕明天起得晚,所以现在就预定第一缕阳光给你,祝你新春快乐!预定第一阵晨风给你,祝你一帆风顺!预定第一声鸟鸣,祝你心想事成! 加分吧,嘻嘻
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行