急!Python小白前来向大佬求助~

[复制链接]
查看11 | 回复9 | 2021-1-27 06:35:01 | 显示全部楼层 |阅读模式
本人第一次接触Python,听说Python爬虫很NB,所以在网上找了些教程,于是自己尝试着抓取一个百度搜索的页面,结果出现了问题:图2为代码,想抓取图1的搜索页面,运行代码却出现了图3的结果,在浏览器打开显示不出来。

现向各位大佬求助





分 -->
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
有没有人,救救孩子


回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
在浏览器打开显示不出来??
你别在IDE里打开它,在windows文件夹下单独打开text.html!
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
引用2楼paullbm的回复:在浏览器打开显示不出来??
你别在IDE里打开它,在windows文件夹下单独打开text.html!

试过了,用浏览器打开之后,标题那里显示:百度验证,内容是图3的中文,并不是我想要抓取的图1的页面,而且网页源代码与抓取出来的结果不同


回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
1、你那个url怎么跟我的不一样,https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=iso-8859-1&oq=python&rsv_pq=948b6158000061a3&rsv_t=a8ddjTD78Izh45wanY0qrrhO1Zr3t3f%2BvXqpqSl%2Fxe8g9B0MWtyccGYxohc&rqlang=cn&rsv_enter=0&rsv_dl=tb&inputT=6166&rsv_sug3=7&rsv_sug1=2&rsv_sug7=100&bs=python
2、在requests.get里面加入timeout参数
3、实在不行就采用动态请求
4、我没玩过爬百度,思路跟爬其他网站应该是一样的
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
引用4楼lee2601的回复:1、你那个url怎么跟我的不一样,https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=iso-8859-1&oq=python&rsv_pq=948b6158000061a3&rsv_t=a8ddjTD78Izh45wanY0qrrhO1Zr3t3f%2BvXqpqSl%2Fxe8g9B0MWtyccGYxohc&rqlang=cn&rsv_enter=0&rsv_dl=tb&inputT=6166&rsv_sug3=7&rsv_sug1=2&rsv_sug7=100&bs=python
2、在requests.get里面加入timeout参数
3、实在不行就采用动态请求
4、我没玩过爬百度,思路跟爬其他网站应该是一样的

那个url原本也是像你那样一长串的,网上教程说删去一些没用的东西只保留一些关键的内容,结果也是一样的。为了验证是不是这个url的问题,我改回原来那个一长串的url,结果都是一样的,没什么差别,所以应该不会是这个url的问题。而且我这个问题的重点是,抓取出来的结果与网页源代码不同,这是怎么回事?网上的教程就是这样做的,这里我想问一下,需不需要对浏览器或者pycharm做一些什么特殊的设置之类的?
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
看样子应该是你的url有问题,没有抓取到真正的内容。
可以在浏览器中打开network查看一下实际的请求地址
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
引用6楼一笑程序猴的回复:看样子应该是你的url有问题,没有抓取到真正的内容。
可以在浏览器中打开network查看一下实际的请求地址

没理由的啊,我在这个Requesturl的response那里看到了网页源代码,但是却没有找到爬取出来的那个代码


回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
https://www.baidu.com/s?ie=utf-8&mod=1&isbd=1&isid=a01231bc0025a875&ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=python&oq=python&rsv_pq=a01231bc0025a875&rsv_t=f885kk6eQgH8J2LI6Ksff42iPWBcc3eVvcQOC4S7UUfxPk4sTderPCQcEVk&rqlang=cn&rsv_enter=0&rsv_dl=tb&bs=python&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=0&_cr1=23949
用这个地址试试
回复

使用道具 举报

千问 | 2021-1-27 06:35:01 | 显示全部楼层
引用8楼一笑程序猴的回复:https://www.baidu.com/s?ie=utf-8&mod=1&isbd=1&isid=a01231bc0025a875&ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=python&oq=python&rsv_pq=a01231bc0025a875&rsv_t=f885kk6eQgH8J2LI6Ksff42iPWBcc3eVvcQOC4S7UUfxPk4sTderPCQcEVk&rqlang=cn&rsv_enter=0&rsv_dl=tb&bs=python&rsv_sid=undefined&_ss=1&clist=&hsug=&f4s=1&csor=0&_cr1=23949
用这个地址试试

还是不行啊,跟原来的结果一样
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行