什么场合需要代理?
假设您有一台物理服务器部署在家里,你需要在函数计算中访问这台物理服务器。最简单的办法是直接暴露这个物理服务器到公网环境。那么问题来了,如果直接暴露到公网不设置防火墙,那么任何人都可以直接访问你的机器,这样会有很大风险。由于函数计算的 IP 是动态变化的,所以您也无法做到指定某个范围的 IP 做防火墙限制。
我们换个思路,将函数计算的的出口访问请求全部经过一台或多台 ECS 出口代理,然后再向外发出请求。ECS和函数计算之间使用加密,那么上面的问题就可以解决了。
如何将函数计算的出口请求全部使用网络代理?
方案一:改源码
将所有相关请求的 client 加上代理服务器地址。
这个方案最大的问题是需要改变原有逻辑,成本非常高,对于既有 binary 代码无法做出修改。
很显然,这并不是一个好方案。
方案二:使用 http_proxy 环境变量
使用 http_proxy
, all_proxy
, https_proxy
, no_proxy
等环境变量。
我们知道函数计算支持用户自定义环境变量,我们可以将代理服务器的地址写入环境变量,那么这个函数中所有的 HTTP 请求都会被转发到这个代理服务器做跳转请求。我们可以通过 no_proxy
来控制部分host 不走代理。
例如:
http_proxy=http://username:passwd@123.100.10.123:3128
no_proxy=.aliyun.com,.taobao.com
优点:
无需改动任何一行代码,增加一项环境变量即可。甚至对于既有的 binary 文件,只要遵循 http_proxy 代理协议无需做任何改动即可以正常执行。
缺点:
虽然现有的大部分 HTTP client 遵循这个规范,但还是有一些实现并不遵从,更重要的是,某些网络请求根本不是 HTTP 协议,例如 MySQL client 可能用的是 TCP 连接。
方案三:非入侵式动态替换 glibc 的 connect 函数
如何使用 proxychains
我们先编译这个项目
git clone https://github.com/haad/proxychains
./configure && make
找到 libproxychains.so
和 proxychains.conf
我们在现有函数计算代码包中,增加 proxy 目录,将 libproxychains.so
和 proxychains.conf
放置到该目录,修改 proxychains.conf 中代理服务器的地址和相关用户密码,如果有不需要代理的 HOST 也可以在该文件中配置。
注意到,这里我们可以使用 http
/ https
/ socks4
/ socks5
等多种代理协议。
创建函数后,我们在函数计算的控制台上为这个函数增加两个环境变量:
PROXYCHAINS_CONF_FILE=/code/proxy/proxychains.conf
LD_PRELOAD=/code/proxy/libproxychains4.so
我们可以使用下面的代码做测试:
# -*- coding: utf-8 -*-
import os
def handler(event, context):
os.system('curl -v ipinfo.io')
return 'hello world'
if __name__ == '__main__':
handler(1, 1)
通过上述函数,我们在日志中可以得到当前函数访问出口 IP。
优点:
- 原生程序无需关系代理协议细节
- 所有的 TCP 请求都可以无缝地使用代理,逻辑代码可以无感知,无侵入;
- 支持自定义 DNS;
缺点:
- 需要为原始工程增加 proxy 目录,增加两个文件;
- 不支持 UDP 协议代理;
对于大部分项目来说,使用 UDP 的地方相当少,而只是增加两个文件即可以做到全局代理,这些缺点可以忽略了
实现原理
我们需要在 client 发起 connect 的时候把实际要连接的服务器重定向到指定代理服务器, write 对应 socket fd 的时候将原始数据做相关代理封包,写给代理服务器,read 的时候尝试把代理数据包解开写回给应用逻辑层。
在理解上述实现之前,我们先来看一个示例,如何替换编译好的 C 语言可执行程序中的函数 printf
,将下面的 hello world!\n
替换成 hello world!\nhello FC!\n
#include <stdio.h>
int main(int argc, char *argv[]) {
puts("hello world!\n");
}
我们把这个编译好
gcc -o a.out main.c
执行得到 hello world!\n
实现 hook.c
#define _GNU_SOURCE
#include <dlfcn.h>
typedef int (*origin_puts_t)(const char *msg);
int puts(const char *msg) {
int n = 0;
origin_puts_t origin_puts;
/* find the origin puts function */
origin_puts = (origin_puts_t)dlsym(RTLD_NEXT, "puts");
/* use origin puts to print message */
n += origin_puts(msg);
n += origin_puts("hello FC!\n");
return n;
}
编译动态链接库 hook.so
:
gcc -shared -fPIC hook.c -o hook.so -ldl
接下来我们设置环境变量,并执行原来的 a.out
:
LD_PRELOAD=$PWD/hook.so ./a.out
输出得到:
hello world!
hello FC!
也就是说,我们将 a.out
的 puts
函数替换成了 hook.so
中的 puts
!
了解这个原理后,我们回到原来的问题,如何实现无入侵的网络代理?
参考 libproxychains.so
核心实现:
代理服务器的搭建
推荐 3proxy
- 支持带验证的 socks4/socks5/HTTP 代理
- 支持多账号
- 支持账号流量控制
- 支持 linux/mac/windows
- 支持 DNS 代理查询
- 支持 IPv6
- 配置简单