被动信息搜集:复现MS08067实验室邮件爬取 原创

简介: 被动信息搜集:复现MS08067实验室邮件爬取 原创

被动信息搜集:复现MS08067实验室邮件爬取
在针对目标系统进行渗透的过程中,如果目标服务器安全性很高,通过服务器很难获取目标权限时,通常会采用社工的方式对目标服务进行进一步攻击。邮件钓鱼攻击时常见的攻击方式之一。在进行钓鱼之前,需要针对目标相关人员的邮件信息进行全面采集。现分享MS08067实验室编写的邮件采集工具,此邮件采集工具通过国内常见的搜索引擎(百度、Bing等)进行搜集。

运行环境:

OS: macOS Monterey Version 12.3.1 (英文版)

IDE:PyCharm 2020.1

源码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :4/15/22 8:45 PM
# 文件      :邮件爬取.py
# IDE      :PyCharm

# 导入相关模块
import sys
import getopt
import requests
from bs4 import BeautifulSoup
import re

# 定义启动函数
def start(argv):
    url = ""
    pages = ""
    if len(sys.argv) < 2:
        print("-h 帮助信息;\n")
        sys.exit()
    # 定义异常处理
    try:
        banner()
        opts, args = getopt.getopt(argv, "-u:-p:-h")

    except getopt.GetoptError:
        print("Error an argument!")
        sys.exit()
    # 遍历选项列表,元素为元组('-u', url),('-p', '1')
    for opt, arg in opts:
        if opt == "-u":
            url = arg
        elif opt == "-p":
            pages = arg
        elif opt == "-h":
            print(usage())

    launcher(url, pages)

#  banner 信息
def banner():
    print('\033[1;34m#################################################################################\033[0m\n'
          '\033[1;34m###############################\033[0m\033[1;32m MS08067 实验室\033[1;34m###################################\033[0m\n'
          '\033[1;34m#################################################################################\033[0m\n')

# 使用规则
def usage():
    print('\t\t-h: --help 帮助;')
    print('\t\t-u: --url 域名;')
    print('\t\t-p: --pages 页数;')
    print('\t\teg: python -u "www.baidu.com" -p 100' + '\n')
    sys.exit()

# 漏洞回调函数
def launcher(url, pages):
    email_num = []
    # 关键词列表,元素为email等
    key_words = ['email', 'mail', 'mailbox', '邮件', '邮箱', 'postbox']
    # 遍历指定数量的页面
    for page in range(1, int(pages) +1):
        # 遍历关键词列表
        for key_word in key_words:
            # 调用bing搜索函数,参数为url,页面数,关键词
            bing_emails = bing_search(url, page, key_word)
            # 调用百度搜索函数,参数为url,页面数,关键词
            baidu_emails = baidu_search(url, page, key_word)
            # 把两个搜索返回的结果合并赋值给sum_emails
            sum_emails = bing_emails + baidu_emails
            # 遍历所有邮件
            for email in sum_emails:
                # 去重
                if email in email_num:
                    pass
                else:
                    # 输出邮箱
                    print(email)
                    with open('data.txt', 'a+') as f:
                        f.write(f'爬取的邮箱信息:{email}' + '\n')
                    email_num.append(email)

# 定义bing搜索函数,参数为url,page(页面数), 关键词
def bing_search(url, page, key_word):
    # 指定referer
    referer = 'http://cn.bing.com/search?q=email+site%3abaidu.com&qs=n&sp=-1&pq=emailsite%3abaidu.com&first=1&FORM=PERE1'
    # 创建请求会话
    conn = requests.session()
    # 利用url, page, key_word拼接并赋值给bing_url
    bing_url = 'http://cn.bing.com/search?q=' + key_word + '+site%3a' + url + '&qs=n&sp=-1&pq=' + key_word + 'site%3a' + url +'&first=' + str((page-1)*10) + '&FORM=PERE1'
    # get请求
    conn.get('http://cn.bing.com', headers=headers(referer))
    # get请求,返回值赋值给r
    r = conn.get(bing_url, stream=True, headers=headers(referer), timeout=8)
    emails = search_email(r.text)
    return emails

# 定义百度搜索函数
def baidu_search(url, page, key_word):
    email_list = []
    emails = []
    referer = 'https://www.baidu.com/s?wd=email+site%3Abaidu.com&pn=1'
    baidu_url = 'https://www.baidu.com/s?wd='+key_word+'site%3A'+url + '&pn='+str((page-1)*10)
    conn = requests.session()
    conn.get(referer, headers=headers(referer))
    r = conn.get(baidu_url, headers=headers(referer))
    soup = BeautifulSoup(r.text, 'lxml')
    tagh3 = soup.find_all('h3')
    for h3 in tagh3:
        href = h3.find('a').get('href')
        try:
            r = requests.get(href, headers = headers(referer), timeout=8)
            emails = search_email(r.text)
        except Exception as e:
            pass
        for email in emails:
            email_list.append(email)

    return email_list

# 搜索邮箱函数,参数为html
def search_email(html):
    emails = re.findall(r'[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+', html, re.I)
    return emails

# 定义一个头函数,参数referer
def headers(referer):
    headers = {
   
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36",
        "Accept": "*/*",
        "Accept-Language": "en-US, en;q=0.5",
        "Accept-Encoding": "gzip, deflate",
        "Referer": referer
    }
    return headers

# 主程序
if __name__ == "__main__":

    try:
        start(sys.argv[1:])
    except KeyboardInterrupt:
        print('interrupted by user, killing all threads.....')

运行结果如下图:
image.png
image.png

相关文章
|
3月前
|
IDE 搜索推荐 网络安全
Python编程:编写被动信息搜集之网址的IP及Whois查询
Python编程:编写被动信息搜集之网址的IP及Whois查询
37 0
|
3月前
|
网络协议 搜索推荐 Linux
信息搜集工具:Maltego
信息搜集工具:Maltego
75 0
|
7月前
|
移动开发 小程序 前端开发
技术经验解读:一个简单抓取糗事百科糗事的小程序
技术经验解读:一个简单抓取糗事百科糗事的小程序
|
存储 网络协议 安全
计网: 一条QQ信息在发送中会经历了什么
计网: 一条QQ信息在发送中会经历了什么
146 0
|
运维 测试技术
【超干货】近期收到的测试面试题分析
【超干货】近期收到的测试面试题分析
|
Web App开发 安全 Shell
漏洞赏金猎人系列-信息搜集中的Tips(-1)
大家都知道,不管是渗透测试,还是APT,还是漏洞挖掘,信息搜集都无比重要,往往需要占到项目的一半乃至更长的时间,而信息搜集中,字典往往又是非常重要的,通过这个思路,笔者突然想到了好久之前看过的一个live(具体是哪个,详见文末),当时看的时候有点迷糊,有的东西也没仔细看,于是再次去细细看,果然发现了一些好东西,本文也是由此而来,当然,本文仅仅作为一个引子,后面信息搜集相关的还会继续写,初步估计至少有几十篇(这里卖个关子:里面内容很多都是国内从业者没有公开分享过),好了,来看正文
187 0
漏洞赏金猎人系列-信息搜集中的Tips(-1)
|
安全
信息搜集系列-被动信息搜集的一些tips和demo
前言 这篇文章主要记录一些被动搜集的套路,公众号前面写过的设置,注册等功能如何进行测试,可以结合本篇文章一起食用;
109 0
发几个通知(这是最后一个水文了,以后就都是纯技术文)
  1、感谢大家对我的支持,感谢给我写短信的几位园友,很欣慰,反对数没有远远大于推荐数。感谢大家给我的劝告。为了报答支持我的兄弟们,我决定以后只写技术文,用我的经验、技巧来回报支持我的人。     2、将于10:00(即2010.9.7 10:00)删除前两篇帖子,如果你还想看的话,那么请抓紧时间了,有些评论还是非常经典的,有些回复也是很搞笑的;如果你不愿意看的话,那么也不用急,过一会就消失了。
810 0
|
数据采集 Python
python爬虫-抓取腾讯招聘信息页面
本爬虫主要使用了requests、json、bs4(BeautifulSoup)等相关模块,不完善之处请大家不吝赐教!:) 出处:https://github.
1182 0
|
数据采集
如何面对博文被抓取
昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。
880 0

热门文章

最新文章