用Python和Google AppEngine抓取页面的问题

[复制链接]
查看11 | 回复1 | 2009-7-17 12:02:24 | 显示全部楼层 |阅读模式
最近初学python,写了个Python页面传到自己申请的Google AppEngine上
class MainPage(webapp.RequestHandler):
def get(self):
conn = httplib.HTTPConnection("www.douban.com")
headers = {
'Host':'www.douban.com',
'Proxy-Connection': 'keep-alive',
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/530.5 (KHTML, like Gecko) Chrome/2.0.172.33 Safari/530.5', 'Accept':'application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5',
'Accept-Encoding':'gzip,deflate,bzip2,sdch',
'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
'Accept-Charset':'GBK,utf-8;q=0.7,*;q=0.3',
}
conn.request("GET","/",headers=headers)
response = conn.getresponse()
print response.read()
目的是如果调用我的Google App首页的http Get方法, 我的App就在后台去抓取豆瓣的首页,然后显示出来
现在问题是抓下来的页面里,所有的链接诸如:
www.douban.com/group
www.douban.com/contacts
全都变成了
xxxxx.appspot.com/group
xxxxx.appspot.com/contacts
(xxxx.appspot.com是我的google app的域名)
有谁知道这是怎么回事?

回复

使用道具 举报

千问 | 2009-7-17 12:02:24 | 显示全部楼层
因为豆瓣主页源代码里用的是相对路径吧。。...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行