获取Google搜索结果的Py脚本

2016-05-14 22:28 • 代码审计 • 阅读 4844

百度在搜索上跟google还是有很大差距的，尤其是google支持很多搜索语法，非常强大。所以这里这里写了个简单的获取google搜索结果的脚本。但是google做了防爬取限制，使用一般的正则匹配是不行的，这里用的是google的ajax的接口，但是使用起来还是有些问题，没有完全解决。

获取google搜索结果的Python代码
#! /usr/bin/env python
#coding=utf-8
import urllib2,urllib
import msvcrt
import simplejson
import sys

def CatchURL(key,num):#抓取链接
url = ('https://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=%s&rsz=8&start=%s') % (key,num)
try:
request = urllib2.Request(url)
response = urllib2.urlopen(request)
results = simplejson.load(response)
URLinfo = results['responseData']['results']
except Exception,e:
print e
else:
for info in URLinfo:
result.append(info['url'])

def RemoveRepeat(List):#列表去重
New_List = []
for i in List:
if i not in New_List:
New_List.append(i)
return New_List

def save(List):
f = open("result","w")
for i in List:
f.write(i+"\n")
f.close()

if __name__ == '__main__':
searchstr = raw_input()
pagenum = input()
result = []
for i in range(1,pagenum+1):
CatchURL(searchstr,i)
result = RemoveRepeat(result)
save(result)
print "DONE!"

运行程序，第一行输入搜索的内容，第二行输入搜索的页数，然后会在程序同目录下生成result文件，里面是获取并且去重后的url，但是程序运行的时候可能会出现如下的情况.

那是因为google检测到非正常的请求，导致无法获取搜索结果，暂时未能解决。

原创文章，作者：老D，如若转载，请注明出处：https://laod.cn/2046.html

0 96

Google 将在 I/O 大会上推出安卓 VR

上一篇 2016-05-14 21:06

谷歌为iOS发布虚拟键盘Gboard (输入法) 自带搜索功能

下一篇 2016-05-15 23:04

Nginx 配置 Google Fonts、Ajax 和 Gravatar 反向代理教程

废话不多说，直接很暴力的贴上配置文件，不懂的自己琢磨吧。因为都是静态文件，没啥问题的话可以加入 Nginx 缓存 [cc lang=”php”]mkdir …

代码审计 2016-01-31
2.0K030
Python 异常之后不知多少行的解决办法

用try except之后，抛出的错误却不知道第几行，有时候着实让人着急解决这个办法要使用 traceback 来跟踪错误常见如下 [cc lang=”php&#8…

代码审计 2016-06-01
1.7K030
WordPress 3.0-3.92 存储型XSS添加管理员&getshell脚本

前面发布了wordpress的xss漏洞，下面是详细的分析：这个漏洞出现在/wp-includes/formatting.php中的wptexturize()函数中当我们在wo…

代码审计 2014-11-29
2.5K000
代码审计

Google是如何找到一个页面的？

在搜索SEO时，有一件事让人倍感惊讶。当用户输入一个搜索词，得到的结果不是来自整个网络，而是来自Google对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说，Google…

2016-08-05
5.6K0110
代码审计

巧妙在Global.asa文件里使用的.htaccess小技巧

众所周知：黑客会利用Apache配置的.htaccess文件去覆盖默认的WEB网站的配置，功能大概有以下几点：添加条件重定向创建虚拟路径（mod_rewrite）自动添加PH…

2015-09-27
1.3K010
代码审计

Linux之文件权限

三种权限：读 – 允许分组读文件（用 r 表示）写 – 允许分组写文件（用 w 表示）执行 – 允许分组执行（运行）文件（用 x 表示） …

2016-08-11
4.2K090
代码审计

WordPress升级/安装主题插件提示权限不足输入FTP解决办法

某些主机或VPS上WordPress更新，或者升级插件或者主题时会提示一个输入FTP信息的页面，然而有时候你明明输入是正确的信息，它还是提示不正确或者再再次的提示输入FTP信息。 …

2016-03-12
2.0K000
Chrome下修复元素fixed后几率触发元素偏移1或2像素

存在的问题 chrome浏览器下为元素使用position fixed之后，触发其他动画转换滑块或者元素缩放旋转，被绝对/相对/固定定位的元素有几率发生偏移1或2像素让块级元…

代码审计 2017-09-17
3.6K010
代码审计

ElasticSearch远程代码执行漏洞

Elasticsearch Groovy任意命令执行漏洞EXP ElasticSearch爆出严重安全漏洞(CVE-2015-1427)，该漏洞可造成远程代码执行，攻击者可直接获取…

2015-03-04
4.1K000
代码审计

WordPress找回密码提示”您的密码重设链接无效，请在下方请求新链接。”解决办法

这个问题产生的原因是发送的邮件里面有链接url，然后这个url被“<>”包住的，导致邮件解析出错。样本如下： <https://laod.cn/wp-login…

2018-09-24
5.3K110

发表回复

登录后才能评论

评论列表（96条）

宅男的野心 2016-11-03 21:21

之前一直都想过尝试抓取Google搜索结果了，
API我总觉得很容易被封(个人认为而已)，
我在想用Selenium一类的浏览器自动化软件来访问Google搜索结果，
再分析出HTML的内容。
这个应该是比较笨，但比较稳定的方法。
(个人认为HTML不会常常改，即使改了也可用比较智能的视觉条件来分析)
不知现在老D有没有其他方法，如果没有的话，我就做出来试试看。

回复
- 长了毛的烂桃 2017-08-08 11:50
  
  @宅男的野心：不知道你尝试的selenium可以吗？好像如果不换ip的话，就直接selenium的话我这边试了只能爬到7页数据，很快就封了。
  
  回复
宅男的野心 2016-11-03 21:18

之前一直都想过尝试抓取Google搜索结果了，
API我总觉得很容易被封(个人认为而已)，
我在想用Selenium一类的浏览器自动化软件来访问Google搜索结果，
再分析出HTML的内容。

回复
测试 2016-09-23 18:55

测试

回复
醬油Project 2016-05-19 13:09

获取Google搜索结果的Py脚本 ←读成"获取Google搜索结果的屁眼脚本"…

回复
1 2016-05-17 21:45

老刀,给你友情测试了一下,你的输入框需要验证啊.

回复
- 老D 2016-05-18 14:48
  
  @1：尼玛，刷了我一百多条，我用的是第三方评论插件
  
  回复
- 1 2016-05-18 15:21
  
  @老D：100条都是我手下留情了,关得快.
  
  回复
- wiki 2016-07-04 16:48
  
  @1：哈哈好玩
  
  回复
- wiki 2016-07-04 16:49
  
  @wiki：写个循环就好。
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复
测试老刀的bbs 2016-05-17 21:34

测试老刀的bbs

回复

获取Google搜索结果的Py脚本

相关推荐

发表回复

评论列表（96条）