获取Google搜索结果的Py脚本

2016-05-14 22:28 • 代码审计 • 阅读 4845

百度在搜索上跟google还是有很大差距的，尤其是google支持很多搜索语法，非常强大。所以这里这里写了个简单的获取google搜索结果的脚本。但是google做了防爬取限制，使用一般的正则匹配是不行的，这里用的是google的ajax的接口，但是使用起来还是有些问题，没有完全解决。

获取google搜索结果的Python代码
#! /usr/bin/env python
#coding=utf-8
import urllib2,urllib
import msvcrt
import simplejson
import sys

def CatchURL(key,num):#抓取链接
url = ('https://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=%s&rsz=8&start=%s') % (key,num)
try:
request = urllib2.Request(url)
response = urllib2.urlopen(request)
results = simplejson.load(response)
URLinfo = results['responseData']['results']
except Exception,e:
print e
else:
for info in URLinfo:
result.append(info['url'])

def RemoveRepeat(List):#列表去重
New_List = []
for i in List:
if i not in New_List:
New_List.append(i)
return New_List

def save(List):
f = open("result","w")
for i in List:
f.write(i+"\n")
f.close()

if __name__ == '__main__':
searchstr = raw_input()
pagenum = input()
result = []
for i in range(1,pagenum+1):
CatchURL(searchstr,i)
result = RemoveRepeat(result)
save(result)
print "DONE!"

运行程序，第一行输入搜索的内容，第二行输入搜索的页数，然后会在程序同目录下生成result文件，里面是获取并且去重后的url，但是程序运行的时候可能会出现如下的情况.

那是因为google检测到非正常的请求，导致无法获取搜索结果，暂时未能解决。

原创文章，作者：老D，如若转载，请注明出处：https://laod.cn/2046.html

0 96

Google 将在 I/O 大会上推出安卓 VR

上一篇 2016-05-14 21:06

谷歌为iOS发布虚拟键盘Gboard (输入法) 自带搜索功能

下一篇 2016-05-15 23:04

Nginx 配置 Google Fonts、Ajax 和 Gravatar 反向代理教程

废话不多说，直接很暴力的贴上配置文件，不懂的自己琢磨吧。因为都是静态文件，没啥问题的话可以加入 Nginx 缓存 [cc lang=”php”]mkdir …

代码审计 2016-01-31
2.0K030
Python 异常之后不知多少行的解决办法

用try except之后，抛出的错误却不知道第几行，有时候着实让人着急解决这个办法要使用 traceback 来跟踪错误常见如下 [cc lang=”php&#8…

代码审计 2016-06-01
1.7K030
WordPress 3.0-3.92 存储型XSS添加管理员&getshell脚本

前面发布了wordpress的xss漏洞，下面是详细的分析：这个漏洞出现在/wp-includes/formatting.php中的wptexturize()函数中当我们在wo…

代码审计 2014-11-29
2.5K000
代码审计

Google是如何找到一个页面的？

在搜索SEO时，有一件事让人倍感惊讶。当用户输入一个搜索词，得到的结果不是来自整个网络，而是来自Google对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说，Google…

2016-08-05
5.6K0110
代码审计

巧妙在Global.asa文件里使用的.htaccess小技巧

众所周知：黑客会利用Apache配置的.htaccess文件去覆盖默认的WEB网站的配置，功能大概有以下几点：添加条件重定向创建虚拟路径（mod_rewrite）自动添加PH…

2015-09-27
1.3K010
代码审计

Linux之文件权限

三种权限：读 – 允许分组读文件（用 r 表示）写 – 允许分组写文件（用 w 表示）执行 – 允许分组执行（运行）文件（用 x 表示） …

2016-08-11
4.2K090
代码审计

WordPress升级/安装主题插件提示权限不足输入FTP解决办法

某些主机或VPS上WordPress更新，或者升级插件或者主题时会提示一个输入FTP信息的页面，然而有时候你明明输入是正确的信息，它还是提示不正确或者再再次的提示输入FTP信息。 …

2016-03-12
2.0K000
Chrome下修复元素fixed后几率触发元素偏移1或2像素

存在的问题 chrome浏览器下为元素使用position fixed之后，触发其他动画转换滑块或者元素缩放旋转，被绝对/相对/固定定位的元素有几率发生偏移1或2像素让块级元…

代码审计 2017-09-17
3.6K010
代码审计

ElasticSearch远程代码执行漏洞

Elasticsearch Groovy任意命令执行漏洞EXP ElasticSearch爆出严重安全漏洞(CVE-2015-1427)，该漏洞可造成远程代码执行，攻击者可直接获取…

2015-03-04
4.1K000
代码审计

WordPress找回密码提示”您的密码重设链接无效，请在下方请求新链接。”解决办法

这个问题产生的原因是发送的邮件里面有链接url，然后这个url被“<>”包住的，导致邮件解析出错。样本如下： <https://laod.cn/wp-login…

2018-09-24
5.3K110