通过Dockerfile创建caffe-gpu环境

自己先安装docker和nvidia-docker再看下面的教程。

我这里GPU型号为 tesla T4, 算力为7.5,会有一些特殊处理。首先是我不会在Dockerfile中编译caffe

本次环境安装通过Dockerfile安装,如果按照本教程要先安装docker以及nvidia-docker

1. 下载caffe的代码

git clone https://github.com/BVLC/caffe.git

2. 替换caffe目录下docker/gpu中Dockerfile

内容如下

FROM nvidia/cuda:10.0-cudnn7-devel-ubuntu16.04
LABEL maintainer caffe-maint@googlegroups.com

RUN apt-get update && apt-get install -y --no-install-recommends \
        build-essential \
        vim \
        python-opencv \
        python-tk \
        cmake \
        git \
        wget \
        libatlas-base-dev \
        libboost-all-dev \
        libgflags-dev \
        libgoogle-glog-dev \
        libhdf5-serial-dev \
        libleveldb-dev \
        liblmdb-dev \
        libopencv-dev \
        libprotobuf-dev \
        libsnappy-dev \
        protobuf-compiler \
        python-dev \
        python-numpy \
        python-pip \
        python-setuptools \
        python-scipy && \
    rm -rf /var/lib/apt/lists/*

ENV CAFFE_ROOT=/opt/caffe
WORKDIR $CAFFE_ROOT

# FIXME: use ARG instead of ENV once DockerHub supports this
# https://github.com/docker/hub-feedback/issues/460
ENV CLONE_TAG=1.0

RUN git clone -b ${CLONE_TAG} --depth 1 https://github.com/BVLC/caffe.git .

RUN pip install --upgrade pip && \
    pip install pip -U && \
    pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple && \
    pip install python-dateutil==2.5.0

# git clone https://github.com/NVIDIA/nccl.git && cd nccl && make -j install && cd .. && rm -rf nccl &&
RUN cd python && for req in $(cat requirements.txt) pydot; do pip install $req; done && cd ..
RUN mkdir build && cd build && \
    #cmake -DUSE_CUDNN=1 .. && 
    #make -j"$(nproc)"

ENV PYCAFFE_ROOT $CAFFE_ROOT/python
ENV PYTHONPATH $PYCAFFE_ROOT:$PYTHONPATH
ENV PATH $CAFFE_ROOT/build/tools:$PYCAFFE_ROOT:$PATH
RUN echo "$CAFFE_ROOT/build/lib" >> /etc/ld.so.conf.d/caffe.conf && ldconfig

WORKDIR /workspace

3.开始构建image

这个在caffe/docker/目录下执行

nvidia-docker build -t caffe-cuda10:gpu gpu

构建成功后可以通过下面查看

docker images

4.创建container

nvidia-docker run -it caffe-cuda10:gpu /bin/bash

通过

nvidia-docker ps -a

查看刚创建的container_id,然后开始使用

nvidia-docker exec -it container_id /bin/bash

5.编译caffe

因为这张gpu卡的算力是7.5的,所以在Dockerfile中没有编译caffe.

这个可以自己查下自己的卡的算力,如果没有高于6.1不用修改。

修改/opt/caffe/cmake/的Cuda.cmake在第7行加上75

set(Caffe_known_gpu_archs "20 21(20) 30 35 50 60 61 75")

然后cd到build目录下

cmake -DUSE_CUDNN=1 .. 
make -j"$(nproc)"

完成!

备注

如果算力没有超过6.1可以使用下面这个Dockerfile,修改的地方就是在Dockerfile中编译好环境。

就是不高于这个-gencode arch=compute_61,code=compute_61

备注1

FROM nvidia/cuda:8.0-cudnn6-devel-ubuntu16.04
LABEL maintainer caffe-maint@googlegroups.com

RUN apt-get update && apt-get install -y --no-install-recommends \
        build-essential \
        vim \
        python-opencv \
        python-tk \
        cmake \
        git \
        wget \
        libatlas-base-dev \
        libboost-all-dev \
        libgflags-dev \
        libgoogle-glog-dev \
        libhdf5-serial-dev \
        libleveldb-dev \
        liblmdb-dev \
        libopencv-dev \
        libprotobuf-dev \
        libsnappy-dev \
        protobuf-compiler \
        python-dev \
        python-numpy \
        python-pip \
        python-setuptools \
        python-scipy && \
    rm -rf /var/lib/apt/lists/*

ENV CAFFE_ROOT=/opt/caffe
WORKDIR $CAFFE_ROOT

# FIXME: use ARG instead of ENV once DockerHub supports this
# https://github.com/docker/hub-feedback/issues/460
ENV CLONE_TAG=1.0

RUN git clone -b ${CLONE_TAG} --depth 1 https://github.com/BVLC/caffe.git .

RUN pip install --upgrade pip && \
    pip install pip -U && \
    pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple && \
    pip install python-dateutil==2.5.0

# git clone https://github.com/NVIDIA/nccl.git && cd nccl && make -j install && cd .. && rm -rf nccl &&
RUN cd python && for req in $(cat requirements.txt) pydot; do pip install $req; done && cd ..
RUN mkdir build && cd build && \
    cmake -DUSE_CUDNN=1 .. && \
    make -j"$(nproc)"

ENV PYCAFFE_ROOT $CAFFE_ROOT/python
ENV PYTHONPATH $PYCAFFE_ROOT:$PYTHONPATH
ENV PATH $CAFFE_ROOT/build/tools:$PYCAFFE_ROOT:$PATH
RUN echo "$CAFFE_ROOT/build/lib" >> /etc/ld.so.conf.d/caffe.conf && ldconfig

WORKDIR /workspace

如果自己有多卡的情况,自己把下面的命令加入Dockerfile中或者创建container后自己git clone然后编译

git clone https://github.com/NVIDIA/nccl.git && cd nccl && make -j install && cd .. && rm -rf nccl

然后编译caffe 的时候

cd build
make -DUSE_CUDNN=1 -DUSE_NCCL=1 ..
make -j

注意nccl 在高版本的cuda里面是是集成到cuda中的不用单独编译,但是低版本可以自己编译install

备注2

这些依赖是训练的依赖,没有可以不执行。

apt-get update
apt-get install python-skimage
pip install python-dateutil==2.1 -i https://pypi.tuna.tsinghua.edu.cn/simple some-package