ubuntu16.04配置py-faster-rcnn
在ubuntu16.04下编译安装了py-faster-rcnn。
如果你发现本文写的有不对或不清晰的地方,还请在文末留言指出,谢谢!
主要步骤包括:安装cuda/cudnn,换apt源,装开源显卡驱动,装caffe依赖的apt包和python包,下载py-faster-rcnn代码,编译代码。注意一点:不要用cuda安装包自带的显卡驱动,装好cuda后用apt-get装源里的最新驱动,否则很可能黑屏。
py-faster-rcnn代码默认使用cudnn3,本文提供两种方法来安装更新版本的cudnn(是通过修改微量py-faster-rcnn所依赖的caffe代码做到的,直接替换或者用git操作)
本文提供了步骤0~17,其中0~14作为基础配置存在,也可用于其他开源代码库的配置参考。也包括不识别网卡的问题。
具体步骤如下:
0 下载cuda/cudnn
cuda用于调用显卡加速计算,py-faster-rcnn训练自己数据只能gpu模式因此cuda必须装;cudnn也用于加速可以不装但推荐安装。cudnn的版本要和cuda版本匹配,比如(cuda7.5, cudnn5.0)或(cuda8.0, cudnn5.1)的组合。强烈建议使用.run
格式的cuda安装包。
请在windows平台上,到nvidia官网去下载,开始下载后换迅雷下载以加速。
这里以cuda7.5为例进行安装
1 编辑开机启动参数
这一步可选。有些台式机装好ubuntu重启后会黑屏,此时考虑本步骤。
开机后grub界面按e
, 在"linux
"开头行行尾single
后添加参数nomodeset
,注意空格分隔各个参数;按F10使用临时修改参数启动ubuntu
2 下载cuda和cudnn
用U盘或者移动硬盘,拷贝从windows上迅雷下载好的cuda和cudnn到HOME目录下。HOME目录就是例如/home/chris
或者/home/rain
这样的目录,是你打开“ubuntu的文件夹”后默认进入的目录
3 拉黑nouveau
拉黑nouveau
这个显卡驱动,需要编辑配置文件并添加配置参数:按Ctrl+Alt+T打开终端,输入以下命令(#
开头的内容是注释不会被执行):
sudo gedit /etc/modprobe.d/blacklist.conf # 用gedit编辑器打开配置文件
在文件末尾追加如下内容:
blacklist nouveau
4 安装cuda
安装cuda的.run
文件。需要在tty终端下、lightdm进程关闭的情况下安装,并且使用override模式、不安装cuda自带的显卡驱动
先按Ctrl+Alt+F1切换到tty1;然后执行以下命令:
sudo init 3 #关闭切换过来之前的图形界面
sudo service lightdm stop # 关闭lightdm进程
sudo sh ./cuda_7.5.18_linux.run --override # 安装cuda的run文件,注意要有--override参数表示强制安装。 cuda的版本号根据情况改变
接下来会提示很多内容,首先是按q
然后选择accept
,然后会问是否安装cuda安装包带的显卡驱动,当然是不装!(跳出的提示中选择N
),后续的各种提示都选'yes'或者默认值(比如cuda的样例程序安装位置等)
稍等片刻安装好cuda后,会提示要设定PATH
环境变量和ldconfig
的配置项。因为现在还是在tty1下面,不能用图形界面的东西,此时只能用vi和nano这两个很难用的编辑器,不妨先切回图形界面然后用gedit来设定
5 切换回图形界面
sudo init 5
service lightdm start # 忘了是否需要这一步了,执行即可,就算报错也没有关系
然后按Ctrl+Alt+F7切换过去。
或者不用上面两个命令,用startx
命令直接切换过去。
6 添加cuda用到环境变量和环境配置文件
开启终端(Ctrl+Alt+T),输入如下命令:
sudo gedit /etc/profile # 打开配置文件
在文件末尾追加这一行内容并保存关闭文件:
export PATH=$PATH:/usr/local/cuda/bin # 这一行的cuda-7.5这个版本根据你的cuda版本而改变。这一行在系统环境变量PATH上追加了cuda的bin目录使得nvcc等命令能被在任意目录下调用
(如果你用zsh作为默认shell,那么上面这句会不起作用。sudo vim /etc/zsh/zshrc,这样编辑的是全局的zsh用的环境变量,文件末尾添加export PATH=$PATH:/usr/local/cuda/bin
)
在终端输入如下命令:
sudo gedit /etc/ld.so.conf.d/cuda.conf # 新建一个ldconfig的配置文件,是为了后续用gcc/g++编译的时候能够链接到cuda的库文件
输入如下内容:
/usr/local/cuda/lib64
更新ldconfig:
sudo ldconfig # 可选,其实不用做的
这里可能遇到的一个问题是,cuda已经装好了,但是编译cuda的例程时失败,提示cuda的库链接不上。这在我的笔记本电脑上遇到过,关掉secure boot就好了,会有一个蓝框的提示。需要按照提示输入两次密码,然后重启,再输入密码(至少8位)
重启时候输入密码,会弹出一个蓝色的小框,选择change secure boot state,然后按照提示的位输入密码,比如提示第7位,那就输入先前设定的密码中的第7位。
7 重启ubuntu系统
8 换apt源
要安装开源nvidia显卡驱动了。根据经验,请把安全启动(secure boot)关闭。包括windows下的关闭和UEFI/BIOS内的关闭,否则显卡驱动可能无法安装
这里是用apt-get命令来安装,但是apt-get的默认源网速太慢,换一个离你地理位置近的源:
以浙大源为例(也可以用阿里源),用gedit打开配置文件并填入配置:
sudo gedit /etc/apt/sources.list # 打开配置文件
清空内容,并复制粘贴如下内容:(或者手动访问http://mirrors.zju.edu.cn/,手动选定系统版本手动生成)
deb http://mirrors.zju.edu.cn/ubuntu xenial main universe restricted multiverse
deb http://mirrors.zju.edu.cn/ubuntu xenial-security main universe restricted multiverse
deb http://mirrors.zju.edu.cn/ubuntu xenial-updates main universe restricted multiverse
deb http://mirrors.zju.edu.cn/ubuntu xenial-backports main universe restricted multiverse
deb-src http://mirrors.zju.edu.cn/ubuntu xenial main universe restricted multiverse
deb-src http://mirrors.zju.edu.cn/ubuntu xenial-security main universe restricted multiverse
deb-src http://mirrors.zju.edu.cn/ubuntu xenial-updates main universe restricted multiverse
deb-src http://mirrors.zju.edu.cn/ubuntu xenial-backports main universe restricted multiverse
更新源:
sudo apt-get update
这里可能遇到的坑是,有线网和无线网都无法连接,用ifconfig
只显示lo
这个本地回环的伪网卡。这可能是你的网卡过于奇葩了,比如我遇到msi(微星)主板+killer(杀手)E2400的网卡,ubuntu并不认它。通过手动编译安装ndiswrapper
并使用了一个tp-link的TL-wn726n外置无线网卡,得以上网。然后出现重启ubuntu后再次无法发现任何网卡,重启进入windows连接网络成功后重启进入ubuntu又好了。后续更新了内核,再次多次重启ubuntu都可以上网。很奇怪。
ndiswrapper
下载地址ndiswrapper
原理是,加载网卡的windows驱动中的.inf
等文件中的信息,关于其原理和使用详细步骤的可以参考这一篇博客
另外还有这个英文讨论帖,用hack的方式把Killer E2400的驱动模块打到内核中,没有尝试过,不确定是否可行。
9 安装nvidia开源显卡驱动
先找到需要的显卡驱动版本,在终端输入
cd /usr/local/cuda/samples
grep "nvidia-3" -r ./
根据命令执行结果,找到需要的nvidia显卡驱动版本号,比如我找到的是352,那就下载:
sudo apt-get install nvidia-352
or you may find proper graphics driver for your card. For example, GTX1080Ti with cuda_8.0.61_375.26_linux.run
, should disable cuda installer's card driver(375.26) (which brings black screen after reboot), and replace that with nvidia-381 will be OK, via adding a ppa repo:
# first, make sure you have added nouveau to blacklist (/etc/modprobe.d/blacklist.conf or just create a new conf file under same folder, add add `blacklist nouveau`)
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo init 3
sudo lightdm stop
sudo apt install aptitude
aptitude search nvidia-3* # search proper driver package
sudo apt install nvidia-381 # I choose 381. you may try newer version as well
sudo reboot
安装显卡驱动并重启后分辨率变低而且无法调整
如果你从nvidia官网手动下载显卡驱动安装包,安装后会提示运行一条命令来生成/etc/X11/xorg.conf
,然后重启电脑后发现分辨率很低而且无法调整。那么请先删除/etc/X11/xorg.conf
,然后尝试执行如下几个命令,并从“软件中心”的GUI界面进行配置:
sudo apt-get install nvidia-current
sudo nvidia-xconfig
sudo software-properties-gtk
然后在"Additional Driver"中选择nvidia的binary Xorg driver。
参考:https://askubuntu.com/questions/286654/nvidia-driver-installed-successfully-but-not-activated
10 安装cudnn
将下载下来的cudnn-7.0-Linux-x64-v4.0-prod.tgz 解压(先前已经放到/home/chris
目录下了,打开文件夹用鼠标解压就可以),解压后得到名为cuda
的文件夹,只不过里面只包含include
和lib
目录,我们要做的就是把这两个目录放到cuda的安装目录(默认是/usr/local/cuda
)。不过因为默认的cuda安装目录需要sudo权限,直接用鼠标操作比较麻烦,不如命令行干脆,因此用命令行来操作。
在打开的终端中输入下面命令:
cd ~/cuda # 切换到cuda所在目录。 ~表示HOME目录,比如我的是/home/chris
sudo cp include/cudnn.h /usr/local/cuda/include/
sudo cp lib64/{libcudnn.so.5.1.5,libcudnn_static.a} /usr/local/cuda/lib64/ # 把名字最长的.so文件和.a文件拷贝过去
继续更新文件链接:前面只拷贝了一个.so文件而不是全部,这是因为/usr/local/cuda/lib64
目录,是先前步骤6配置过的/etc/ld.so.conf.d/cuda.conf
目录中填入的路径,这个conf文件会被系统加载,表示以后编译代码时链接库会考虑从这个目录搜索库文件,也就是作为“辅助库目录”而存在。库目录要求,“大名”相同的文件(后面小版本不同而前缀相同),只能有一个普通文件存在而其他的作为软链接。那么继续更新软链接:
cd /usr/local/cuda/lib64/
# sudo rm -rf libcudnn.so libcudnn.so.5 # 如果先前没有安装过,则这一行忽略即可。
sudo ln -s libcudnn.so.5.0.18 libcudnn.so.5 # 这里的版本号请换成你实际的版本号
sudo ln -s libcudnn.so.5 libcudnn.so
11 装一些用于提升开发效率的apt包(可选,个人推荐):
sudo apt-get install vim zsh openssh-server
安装zsh
的主题插件oh-my-zsh
(可选,个人推荐):
sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"
12 装caffe依赖的apt包:
安装caffe和py-faster-rcnn所依赖的apt包(我用zsh+ohmyzsh,bash的话请去掉包含的"\")
sudo apt-get install -y build-essential cmake git pkg-config libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler libatlas-base-dev libgflags-dev libgoogle-glog-dev liblmdb-dev python-dev python-pip python-numpy python-scipy libhdf5-\* libgflags-dev python-opencv python-skimage python-yaml git
sudo apt-get install -y --no-install-recommends libboost-all-dev
13 安装pip包
先配pip源,比如阿里云源(或者豆瓣的也行):
在终端用gedit打开~/.pip/pip.conf文件:
gedit ~/.pip/pip.conf
然后填入如下内容并保存、关闭gedit:
[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
然后用pip下载后续用到的python包(需要sudo权限因为要写入/usr/local
等系统目录):
sudo pip install protobuf cython easydict jupyter
14 git下载代码
先配置FQ工具,比如ss。 然后为git配置sock5代理(这个步骤可选,目的是加速git下载):
在终端输入如下命令:
git config --global http.proxy 'socks5://127.0.0.1:1080'
git config --global https.proxy 'socks5://127.0.0.1:1080'
配置好后,用git下载代码python版faster-rcnn代码(只下载caffe也是OK的,依赖项都配置好了)
mkdir -p ~/work && cd ~/work
git clone --recursive https://github.com/rbgirshick/py-faster-rcnn
15 编译代码
先编译lib目录下的代码
cd ~/work/py-faster-rcnn
cd lib
make
其次编译依赖的特定版本的caffe。
需要修改配置文件Makefile.config和Makefile,以及源码的更新
Makefile.config中需要修改的行:
#使用cudnn
USE_CUDNN := 1
#去掉不合适的cuda计算能力参数
CUDA_ARCH := -gencode arch=compute_50,code=sm_50 \
-gencode arch=compute_52,code=sm_52 \
-gencode arch=compute_60,code=sm_60 \
-gencode arch=compute_61,code=sm_61 \
-gencode arch=compute_61,code=compute_61
# 开启PYTHON支持
WITH_PYTHON_LAYER := 1
# INCLUDE_DIRS路径上,追加/usr/include/hdf5/serial,因为hdf5这个包在ubuntu16.04换成hdf5/seiral这种用法了
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial
其他项,比如atlas、anaconda的python等,看情况修改,不修改也OK。
Makefile中需要修改的行:
# LIBRARIES变量,把hdf5的两个库名换掉,从hdf5_hl->hdf_serial_hl hdf5->hdf5_serial
LIBRARIES += glog gflags protobuf boost_system boost_filesystem m hdf5_serial_hl hdf5_serial
(老版本的cuda可能需要下面这个修改,cuda8则不必:
找到第397行,NVCCFLAGS += -ccbin=$(CXX) -Xcompiler -fPIC $(COMMON_FLAGS)
修改为NVCCFLAGS += -D_FORCE_INLINES -ccbin=$(CXX) -Xcompiler -fPIC $(COMMON_FLAGS)
(添加了-D_FORCE_INLINES
参数
)
编译caffe-fast-rcnn
需要先更新用到的caffe:原版py-faster-rcnn依赖的caffe比较老,不支持cudnnv5,那就更新下对应的源码。提供两种版本,方法1更简单些。
方法1:利用git修改
cd caffe-fast-rcnn
git remote add caffe https://github.com/BVLC/caffe.git
git fetch caffe
git merge -X theirs caffe/master
然后在合并之后注释掉include/caffe/layers/python_layer.hpp文件里的self_.attr(“phase”) = static_cast(this->phase_)
方法2:纯手工修改
用最新caffe源码的以下文件替换掉faster rcnn 的对应文件
include/caffe/layers/cudnn_relu_layer.hpp, src/caffe/layers/cudnn_relu_layer.cpp, src/caffe/layers/cudnn_relu_layer.cu
include/caffe/layers/cudnn_sigmoid_layer.hpp, src/caffe/layers/cudnn_sigmoid_layer.cpp, src/caffe/layers/cudnn_sigmoid_layer.cu
include/caffe/layers/cudnn_tanh_layer.hpp, src/caffe/layers/cudnn_tanh_layer.cpp, src/caffe/layers/cudnn_tanh_layer.cu
用caffe源码中的这个文件替换掉faster rcnn 对应文件
include/caffe/util/cudnn.hpp
将 faster rcnn 中的 src/caffe/layers/cudnn_conv_layer.cu 文件中的所有
cudnnConvolutionBackwardData_v3 函数名替换为 cudnnConvolutionBackwardData
cudnnConvolutionBackwardFilter_v3函数名替换为 cudnnConvolutionBackwardFilter
执行caffe的编译
cd caffe-fast-rcnn
make -j8
make pycaffe
16 其他补充
尝试用anaconda提供的python替代系统的python,不过编译起来没有成功。装anaconda主要是能避免自己手动装一些python包,不过其实借助apt-get和pip,也都能很快装好的。
然后
开启一个notebook:
jupyter-notebook
然后通过浏览器访问http://localhost:8888
的形式(具体端口看你的命令提示),就可以使用notebook了。
另:如果编译caffe-fast-rcnn失败,但是依赖的环境和我提到的一致,那么不妨重新从git获取一份caffe的代码:
cd ~/work/py-faster-rcnn
rm -rf caffe-fast-rcnn
git submodule update --init --recursive
然后重启电脑,更新src和include目录的代码,以及Makefile与Makefile.config,再编译,就可以了。
17 其他问题
module object has no attribute text_format
需要在lib/fast_rcnn/train.py
中开头处,添加:
import google.protobuf.text_format
18 参考
http://blog.csdn.net/g0m3e/article/details/51420565
http://www.dongcoder.com/detail-184574.html
http://blog.nelsonliu.me/2017/04/29/installing-and-updating-gtx-1080-ti-cuda-drivers-on-ubuntu/