HW 엔지니어를 위한 Deep Learning: deep learning

레이블이 deep learning인 게시물을 표시합니다. 모든 게시물 표시

2018년 12월 19일 수요일

Tensorflow보다 46배 빠른 deep learning framework ?? - Snap ML 소개

IBM에서는 GPU 서버 등 HW만 만드는 것이 아니라 tensorflow나 caffe와 같은 deep learning용 framework SW도 개발합니다. Snap ML이라고 하는 것이 바로 그것입니다. 이름이 왜 Snap ML이냐하면 손가락을 딱 튕기는(snap) 순식간에 training이 이루어질 정도로 빠르다고 해서 그렇습니다.

(finger snap 하면 타노스인데 말입니다.)

이 Snap ML의 성능과 효용성에 대해서는 아래 IBM 공식 blog에 잘 나와 있습니다.

https://www.ibm.com/blogs/research/2018/03/machine-learning-benchmark/

위 블로그 내용을 요약하면 구글이 Google Cloud Platform (worker machine 60대 + parameter machine 34대)에서 tensorflow를 60분 동안 걸려 training한 결과 얻은 log loss를 IBM Snap ML은 IBM POWER9과 NVIDIA GPU를 장착한 AC922 4대에서 Snap ML로 불과 91.5초의 training 만으로 얻었다는 것입니다. 여기에 사용된 dataset은 Criteo Labs에서 제공하는 실제 internet 광고 click 건수 data로서, 총 40억 row에 달하는 광대한 data입니다.

이런 고성능이 가능했던 것은 물론 CPU와 GPU 간을 PCI 버스가 아닌 NVLink로 연결하는 AC922 서버의 우수한 아키텍처 영향도 있습니다만, 이 Snap ML이라는 framework SW 자체의 우수성도 있습니다.

이 posting에서는 PowerAI 5.4 버전에 포함된 Snap ML을 설치하고 거기에 포함된 example 몇 개를 돌려보겠습니다.

먼저, Anaconda2 5.2를 설치하여 conda/python 환경을 구성합니다.

[root@localhost home]# wget https://repo.continuum.io/archive/Anaconda2-5.2.0-Linux-ppc64le.sh

[root@localhost home]# chmod a+x Anaconda2-5.2.0-Linux-ppc64le.sh

[root@localhost home]# ./Anaconda2-5.2.0-Linux-ppc64le.sh

[root@localhost home]# . /root/.bashrc

[root@localhost home]# which python
/opt/anaconda2/bin/python

그 다음에 PowerAI의 장점을 살려 아주 간단하게 Snap ML을 설치합니다.

[root@localhost home]# yum install snap-ml-local.ppc64le
==============================================================================================
Package Arch Version Repository Size
==============================================================================================
Installing:
snap-ml-local ppc64le 1.1.0-241.1887dec mldl-repo-local 29 M
Installing for dependencies:
powerai-license ppc64le 5.4.0-124.150cee0 mldl-repo-local 4.3 M
python-devel ppc64le 2.7.5-76.el7 rhel-7-for-power-9-rpms 398 k

이렇게 설치된 snap-ml-local 속에는 아래와 같은 fileset들이 들어 있습니다. 보시다시피 저 위의 IBM 공식 블로그에 소개했던 Criteo Teraclick training의 미니 버전이라고 할 수 있는 criteo Kaggle example도 들어있습니다.

[root@localhost home]# rpm -ql snap-ml-local-1.1.0-241.1887dec.ppc64le
/opt/DL
/opt/DL/snap-ml-local
/opt/DL/snap-ml-local/bin
/opt/DL/snap-ml-local/bin/check_dependencies
/opt/DL/snap-ml-local/bin/install_dependencies
/opt/DL/snap-ml-local/bin/snap-ml-local-activate
/opt/DL/snap-ml-local/conda-pkgs
/opt/DL/snap-ml-local/conda-pkgs/channeldata.json
/opt/DL/snap-ml-local/conda-pkgs/icons
...
/opt/DL/snap-ml-local/examples/creditcard
/opt/DL/snap-ml-local/examples/creditcard/README.md
/opt/DL/snap-ml-local/examples/creditcard/example-creditcard.py
/opt/DL/snap-ml-local/examples/creditcard/preprocess-creditcard.py
/opt/DL/snap-ml-local/examples/criteo
/opt/DL/snap-ml-local/examples/criteo/README.md
/opt/DL/snap-ml-local/examples/criteo/example-criteo-kaggle-privacy.py
/opt/DL/snap-ml-local/examples/criteo/example-criteo-kaggle.py
/opt/DL/snap-ml-local/examples/criteo/preprocess-criteo-kaggle-privacy.py
/opt/DL/snap-ml-local/examples/criteo/preprocess-criteo-kaggle.py
...

Snap ML의 사용을 위해서는 먼저 install_dependencies를 수행하여 관련 conda package들을 설치합니다.

[root@localhost home]# /opt/DL/snap-ml-local/bin/install_dependencies
...
package | build
---------------------------|-----------------
powerai-snap-ml-local-prereqs-1.1.0_241.1887dec| py27_0 4 KB file:///opt/DL/snap-ml-local/conda-pkgs
conda-4.5.11 | py27_0 1.0 MB
openssl-1.0.2p | h14c3975_0 3.3 MB
openblas-devel-0.2.20 | 7 101 KB
blas-1.1 | openblas 4 KB file:///opt/DL/snap-ml-local/conda-pkgs
certifi-2018.11.29 | py27_0 146 KB
pai4sk-0.20rc1_241.1887dec | py27_0 14.0 MB file:///opt/DL/snap-ml-local/conda-pkgs
------------------------------------------------------------
Total: 18.5 MB
...

그리고 PowerAI license에 동의하는 script를 수행하고 이어서 snap-ml-local-activate를 수행하여 PATH 등의 환경 변수를 설정합니다.

[root@localhost home]# /opt/DL/license/bin/accept-powerai-license.sh

[root@localhost home]# source /opt/DL/snap-ml-local/bin/snap-ml-local-activate

이제 Amazone cloud에서 Criteo의 test dataset 미니 버전을 download 합니다. 4.5GB 정도 됩니다.

[root@localhost home]# mkdir data && cd data

[root@localhost data]# wget https://s3-us-west-2.amazonaws.com/criteo-public-svm-data/criteo.kaggle2014.svm.tar.gz
Length: 4849417655 (4.5G) [application/x-tar]
Saving to: ‘criteo.kaggle2014.svm.tar.gz’
100%[======================================>] 4,849,417,655 22.5MB/s in 4m 29s
2018-12-14 12:28:34 (17.2 MB/s) - ‘criteo.kaggle2014.svm.tar.gz’ saved [4849417655/4849417655]

이 tar 압축을 풀고 data preprocessing을 위한 python code를 수행합니다. 약 1시간 정도 걸립니다.

[root@localhost data]# tar xzf criteo.kaggle2014.svm.tar.gz

[root@localhost data]# time python /opt/DL/snap-ml-local/examples/criteo/preprocess-criteo-kaggle.py --data_path=/home
real 67m57.038s
user 67m20.277s
sys 0m27.750s

이제 다음과 같이 criteo kaggle2014 dataset의 포맷이 완료되었습니다.

[root@localhost data]# ls -ltr crit*
-r--r--r-- 1 1007 1007 3523847664 Sep 27 2017 criteo.kaggle2014.test.svm
-r--r--r-- 1 1007 1007 26737621696 Sep 27 2017 criteo.kaggle2014.train.svm
-rw-r--r-- 1 root root 4849417655 Sep 27 2017 criteo.kaggle2014.svm.tar.gz
-rw-r--r-- 1 root root 16227489113 Dec 14 13:46 criteo.kaggle2014.X_train.npz
-rw-r--r-- 1 root root 5409163153 Dec 14 13:47 criteo.kaggle2014.X_test.npz
-rw-r--r-- 1 root root 275043776 Dec 14 13:47 criteo.kaggle2014.y_train.npy
-rw-r--r-- 1 root root 91681320 Dec 14 13:47 criteo.kaggle2014.y_test.npy

이걸 GPU 1번 1개를 이용하여 training하기 위해 다음과 같이 example-criteo-kaggle.py를 수행해 줍니다.

[root@localhost data]# time python /opt/DL/snap-ml-local/examples/criteo/example-criteo-kaggle.py --data_path=/home --use_gpu --device_ids 1
Data load time (s): 28.92
[Info] Tolerance 0.001 attained after 49 epochs.
/opt/anaconda2/lib/python2.7/site-packages/pai4sk/sml_solvers/logistic.py:406: UserWarning: PowerAI: Default solver is set to 'snapml'. Specify a solver to silence this warning.
UserWarning)
[pai4sk] Training time (s): 25.89
[pai4sk] Logarithmic loss: 0.4558
[Info] Tolerance 0.001 attained after 49 epochs.
/opt/anaconda2/lib/python2.7/site-packages/pai4sk/linear_model/logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
FutureWarning)
[pai4sk.lmodel] Training time (s): 32.28
[pai4sk.lmodel] Logarithmic loss: 0.4558
[sklearn] Training time (s): 624.55
[sklearn] Logarithmic loss: 0.4558

real 12m14.974s
user 11m57.544s
sys 0m34.245s

위의 example 결과는 크게 3가지입니다.

[pai4sk] Training time (s): 25.89 : Snap ML을 이용한 training 결과
[pai4sk.lmodel] Training time (s): 32.28 : Snap ML Linear Regression을 이용한 training 결과
[sklearn] Training time (s): 624.55 : 일반 sklearn을 이용한 training 결과

즉, Snap ML을 이용하면 일반 sklearn을 이용하는 것보다 거의 25배 더 빨리 training을 마칠 수 있으며, 그럼에도 불구하고 log loss는 비슷한 수준이라는 것을 아실 수 있습니다.

더 자세한 내용은 아래 URL들을 참조하시기 바랍니다.

https://ibmsoe.github.io/snap-ml-doc/index.html
https://ibmsoe.github.io/snap-ml-doc/tutorials.html
https://ibmsoe.github.io/snap-ml-doc/notebookcreditlocal.html#notebook-credit-local
https://ibmsoe.github.io/snap-ml-doc/pai4skapidocumentation.html#pai4sk-api-documentation

2018년 3월 14일 수요일

Deep Learning용 GPU 서버 성능 측정을 위한 benchmark test 방법 몇가지

Deep Learning을 위한 GPU 서버들은 대부분 NVIDIA GPU를 사용하니까, 그 서버의 성능은 NVIDIA GPU 중 어떤 것을 몇 개 장착했느냐가 가장 중요합니다. 하지만 서버 벤더별 모델별로 그 특장점이 다 다르고 또 어떤 서버들은 NVLink 등 GPU와 GPU, GPU와 CPU의 연결 방식에 있어 차별점을 두고 있습니다. 어떤 경우엔 값비싼 최신 GPU를 잔뜩 달았지만 시스템 대역폭이 부족하여 제 성능을 내지 못할 수도 있고요.

이런 점을 확인해보려면 그냥 자신의 data를 이용하여 자신의 신경망을 직접 돌려보고 성능을 비교하는 것이 좋습니다만, 거기에는 많은 시간과 돈, 노력이 필요하지요.

여기서는 그런 점들을 비교적 쉽게 테스트해볼 수 있는 사실상 표준적인 벤치마크 방법론 몇가지를 소개합니다. 어느 경우든 linux의 time 명령을 이용해서 전체 수행 시간만 측정하면 되니까 매우 편리합니다. 평가 대상이 신경망 자체가 아니라 GPU 서버 하드웨어이고 다 같은 data와 같은 신경망을 사용하니까 테스트 결과의 accuracy 등은 비교해 보실 필요가 없습니다.

아래 테스트들은 tensorflow 1.4.1, 그리고 Anaconda3에서 제공되는 python3.6을 사용해서 수행한 것입니다.

[user1@gpusvr ~]$ which python
~/anaconda3/bin/python

먼저, 다음과 같이 github로부터 tensorflow models를 clone 합니다.

[user1@gpusvr ~]$ git clone https://github.com/tensorflow/models.git

1. CIFAR10

이중 가장 많이 사용되는 것이 cifar10입니다. 수행할 cifar10_multi_gpu_train.py code를 열어보면 조정 가능한 parameter가 무엇이고 그 default 값이 무엇인지 보실 수 있습니다. 그를 명령어에서 적절히 수정하여 수행하시면 됩니다.

[user1@gpusvr ~]$ cd models/tutorials/image/cifar10

[user1@gpusvr cifar10]$ vi cifar10_multi_gpu_train.py
...
parser.add_argument('--max_steps', type=int, default=1000000,
...
parser.add_argument('--num_gpus', type=int, default=1,

이제 아래와 같이 수행합니다. 여기서는 # max_steps=10000 num_gpus=4 으로 수행합니다. 다만, 처음에 이 테스트를 수행할 때는 internet에서 dataset을 download 받는 것부터 시작합니다. 그 부분은 당연히 테스트 수행 시간에서 제외해야 합니다. 따라서 처음 테스트는 측정하지 마시고, 2번째 테스트 이후를 측정하시면 됩니다. 그때는 이미 download 받아놓은 data를 사용하거든요.

[user1@gpusvr cifar10]$ time python cifar10_multi_gpu_train.py --max_steps=10000 --num_gpus=4 --batch_size 512
...
2018-03-09 11:36:47.084991: step 9990, loss = 0.58 (25710.1 examples/sec; 0.020 sec/batch)

이렇게 수행해보면 GPU 사용량은 17~22% 정도로 상당히 낮습니다. batch_size를 8배인 4096으로 키워도 되는데, 이때 그에 따라 max_steps도 1/8로 줄여야 합니다. 아래는 # max_steps=1250 num_gpus=4 으로 수행한 것입니다.

[user1@gpusvr cifar10]$ time python cifar10_multi_gpu_train.py --max_steps=1250 --num_gpus=4 --batch_size 4096
...
2018-03-09 13:11:57.589629: step 1240, loss = 2.08 (28222.4 examples/sec; 0.145 sec/batch)

성능이 조금 나아지긴 합니다만, 극적으로 나아지진 않습니다.

2. Alexnet

여기에 포함된 alexnet_benchmark.py은 single GPU만 이용합니다.

[user1@gpusvr alexnet]$ time python alexnet_benchmark.py --batch_size=1024 --num_batches=1000
...
2018-03-09 14:32:56.566184: step 990, duration = 0.522
2018-03-09 14:33:01.260806: Forward-backward across 1000 steps, 0.521 +/- 0.002 sec / batch

그러나 여기서도 다음과 같이 script를 짜서 여러개의 GPU를 사용하는 벤치마크를 할 수 있습니다. CUDA_VISIBLE_DEVICES 환경변수를 이용하여 각 세션마다 특정 GPU를 할당한 뒤, GPU 개수만큼 alexnet_benchmark.py를 병렬로 수행하는 것입니다. 이것도 의미가 있는 테스트입니다. 실제 대부분의 고객들이 여러개의 GPU가 달린 서버를 사용할 때, 여러개의 GPU를 이용하여 하나의 model을 training하는 경우보다는 아래 script처럼 여러 연구원이 1개씩의 GPU를 가지고 각자의 training을 수행하는 경우가 대부분이기 때문입니다. 그런 경우에도 CPU-GPU 간의 병목 없이 원활한 성능이 나오는지 확인하는 것도 중요합니다.

[user1@gpusvr alexnet]$ vi alexrun.sh
echo "Starting !"
CUDA_VISIBLE_DEVICES=0 python alexnet_benchmark.py --batch_size=1024 --num_batches=1000 &
CUDA_VISIBLE_DEVICES=1 python alexnet_benchmark.py --batch_size=1024 --num_batches=1000 &
CUDA_VISIBLE_DEVICES=2 python alexnet_benchmark.py --batch_size=1024 --num_batches=1000 &
CUDA_VISIBLE_DEVICES=3 python alexnet_benchmark.py --batch_size=1024 --num_batches=1000 &
wait
echo "Completed !"

[user1@gpusvr alexnet]$ chmod a+x alexrun.sh
[user1@gpusvr alexnet]$ time ./alexrun.sh
Starting !
....
2018-03-09 14:50:15.533991: step 990, duration = 0.523
2018-03-09 14:50:17.971840: step 990, duration = 0.521
2018-03-09 14:50:18.197058: step 990, duration = 0.524
2018-03-09 14:50:20.202855: step 990, duration = 0.525
2018-03-09 14:50:20.231726: Forward-backward across 1000 steps, 0.522 +/- 0.001 sec / batch
2018-03-09 14:50:22.691048: Forward-backward across 1000 steps, 0.524 +/- 0.002 sec / batch
2018-03-09 14:50:22.908471: Forward-backward across 1000 steps, 0.523 +/- 0.002 sec / batch
2018-03-09 14:50:24.927234: Forward-backward across 1000 steps, 0.525 +/- 0.002 sec / batch
Completed !

실제 수행 결과를 보면 아무래도 1개 GPU만 사용했을 때보다 약간 더 느리게 나오는 것을 보실 수 있습니다.

3. RNN PTB

이것도 1개의 GPU만 이용하는 benchmark test입니다. 다른 것과는 달리 image에 대한 CNN 트레이닝이 아니라 text에 대한 RNN 트레이닝이라는 점이 주목할 만 합니다.

[user1@gpusvr ptb]$ pwd
/home/user1/models/tutorials/rnn/ptb

이 테스트를 위한 sample data는 아래에서 따로 download 받아야 합니다.

[user1@gpusvr ptb]$ wget http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz

[user1@gpusvr ptb]$ tar xvfz simple-examples.tgz -C $HOME

[user1@gpusvr ptb]$ du ~/simple-examples
17256 /home/user1/simple-examples/data
74840 /home/user1/simple-examples/models
516 /home/user1/simple-examples/rnnlm-0.2b
12 /home/user1/simple-examples/1-train
12 /home/user1/simple-examples/3-combination
0 /home/user1/simple-examples/2-nbest-rescore/lattices/nbest
2860 /home/user1/simple-examples/2-nbest-rescore/lattices
2900 /home/user1/simple-examples/2-nbest-rescore
12 /home/user1/simple-examples/5-one-iter
12 /home/user1/simple-examples/6-recovery-during-training
12 /home/user1/simple-examples/7-dynamic-evaluation
0 /home/user1/simple-examples/temp
12 /home/user1/simple-examples/8-direct
12 /home/user1/simple-examples/4-data-generation
12 /home/user1/simple-examples/9-char-based-lm
95608 /home/user1/simple-examples

Training에 사용되는 data는 총 94MB 정도로서 작은 편입니다.

[user1@gpusvr ptb]$ du -sm ~/simple-examples
94 /home/user1/simple-examples

Data 내용은 아래에 보시다시피 text들입니다.

[user1@gpusvr ~]$ cd /home/user1/simple-examples/data

[user1@gpusvr data]$ head ptb.train.txt
aer banknote berlitz calloway centrust cluett fromstein gitano guterman hydro-quebec ipo kia memotec mlx nahb punts rake regatta rubens sim snack-food ssangyong swapo wachter
pierre <unk> N years old will join the board as a nonexecutive director nov. N
mr. <unk> is chairman of <unk> n.v. the dutch publishing group
rudolph <unk> N years old and former chairman of consolidated gold fields plc was named a nonexecutive director of this british industrial conglomerate
a form of asbestos once used to make kent cigarette filters has caused a high percentage of cancer deaths among a group of workers exposed to it more than N years ago researchers reported
the asbestos fiber <unk> is unusually <unk> once it enters the <unk> with even brief exposures to it causing symptoms that show up decades later researchers said
<unk> inc. the unit of new york-based <unk> corp. that makes kent cigarettes stopped using <unk> in its <unk> cigarette filters in N
although preliminary findings were reported more than a year ago the latest results appear in today 's new england journal of medicine a forum likely to bring new attention to the problem
a <unk> <unk> said this is an old story
we 're talking about years ago before anyone heard of asbestos having any questionable properties

[user1@gpusvr data]$ head ptb.char.train.txt
a e r _ b a n k n o t e _ b e r l i t z _ c a l l o w a y _ c e n t r u s t _ c l u e t t _ f r o m s t e i n _ g i t a n o _ g u t e r m a n _ h y d r o - q u e b e c _ i p o _ k i a _ m e m o t e c _ m l x _ n a h b _ p u n t s _ r a k e _ r e g a t t a _ r u b e n s _ s i m _ s n a c k - f o o d _ s s a n g y o n g _ s w a p o _ w a c h t e r
p i e r r e _ < u n k > _ N _ y e a r s _ o l d _ w i l l _ j o i n _ t h e _ b o a r d _ a s _ a _ n o n e x e c u t i v e _ d i r e c t o r _ n o v . _ N
m r . _ < u n k > _ i s _ c h a i r m a n _ o f _ < u n k > _ n . v . _ t h e _ d u t c h _ p u b l i s h i n g _ g r o u p
r u d o l p h _ < u n k > _ N _ y e a r s _ o l d _ a n d _ f o r m e r _ c h a i r m a n _ o f _ c o n s o l i d a t e d _ g o l d _ f i e l d s _ p l c _ w a s _ n a m e d _ a _ n o n e x e c u t i v e _ d i r e c t o r _ o f _ t h i s _ b r i t i s h _ i n d u s t r i a l _ c o n g l o m e r a t e
a _ f o r m _ o f _ a s b e s t o s _ o n c e _ u s e d _ t o _ m a k e _ k e n t _ c i g a r e t t e _ f i l t e r s _ h a s _ c a u s e d _ a _ h i g h _ p e r c e n t a g e _ o f _ c a n c e r _ d e a t h s _ a m o n g _ a _ g r o u p _ o f _ w o r k e r s _ e x p o s e d _ t o _ i t _ m o r e _ t h a n _ N _ y e a r s _ a g o _ r e s e a r c h e r s _ r e p o r t e d
t h e _ a s b e s t o s _ f i b e r _ < u n k > _ i s _ u n u s u a l l y _ < u n k > _ o n c e _ i t _ e n t e r s _ t h e _ < u n k > _ w i t h _ e v e n _ b r i e f _ e x p o s u r e s _ t o _ i t _ c a u s i n g _ s y m p t o m s _ t h a t _ s h o w _ u p _ d e c a d e s _ l a t e r _ r e s e a r c h e r s _ s a i d
< u n k > _ i n c . _ t h e _ u n i t _ o f _ n e w _ y o r k - b a s e d _ < u n k > _ c o r p . _ t h a t _ m a k e s _ k e n t _ c i g a r e t t e s _ s t o p p e d _ u s i n g _ < u n k > _ i n _ i t s _ < u n k > _ c i g a r e t t e _ f i l t e r s _ i n _ N
a l t h o u g h _ p r e l i m i n a r y _ f i n d i n g s _ w e r e _ r e p o r t e d _ m o r e _ t h a n _ a _ y e a r _ a g o _ t h e _ l a t e s t _ r e s u l t s _ a p p e a r _ i n _ t o d a y _ ' s _ n e w _ e n g l a n d _ j o u r n a l _ o f _ m e d i c i n e _ a _ f o r u m _ l i k e l y _ t o _ b r i n g _ n e w _ a t t e n t i o n _ t o _ t h e _ p r o b l e m
a _ < u n k > _ < u n k > _ s a i d _ t h i s _ i s _ a n _ o l d _ s t o r y
w e _ ' r e _ t a l k i n g _ a b o u t _ y e a r s _ a g o _ b e f o r e _ a n y o n e _ h e a r d _ o f _ a s b e s t o s _ h a v i n g _ a n y _ q u e s t i o n a b l e _ p r o p e r t i e s

이제 training을 해보겠습니다. 아래와 같이 전체 training 및 test에 걸린 시간을 측정하면 됩니다.

[user1@gpusvr ptb]$ time python ptb_word_lm.py --data_path=$HOME/simple-examples/data/ --model=small
...
Epoch: 1 Learning rate: 1.000
...
Epoch: 1 Train Perplexity: 268.322
Epoch: 1 Valid Perplexity: 178.848
Epoch: 2 Learning rate: 1.000
...
Epoch: 13 Train Perplexity: 40.549
Epoch: 13 Valid Perplexity: 119.536
Test Perplexity: 114.159

위의 Alexnet 테스트에서처럼, 이 test도 여러개의 세션을 동시에 수행함으로써 시스템 대역폭이 충분하여 multi-user 동시 사용시에도 충분한 성능을 내는지 확인해보실 수 있습니다.

[user1@gpusvr ptb]$ vi ptbrun.sh
echo "Starting !"
CUDA_VISIBLE_DEVICES=0 python ptb_word_lm.py --data_path=$HOME/simple-examples/data/ --model=small &
CUDA_VISIBLE_DEVICES=1 python ptb_word_lm.py --data_path=$HOME/simple-examples/data/ --model=small &
CUDA_VISIBLE_DEVICES=2 python ptb_word_lm.py --data_path=$HOME/simple-examples/data/ --model=small &
CUDA_VISIBLE_DEVICES=3 python ptb_word_lm.py --data_path=$HOME/simple-examples/data/ --model=small &
wait
echo "Completed !"

실제로 아래와 같이 수행해보면 single session으로 single GPU를 이용했을 때에 비해 약간 성능이 떨어지는 것을 보실 수 있습니다.

[user1@gpusvr ptb]$ time ./ptbrun.sh
Starting !
...
Epoch: 13 Valid Perplexity: 119.785
...
Test Perplexity: 113.431
Completed !

2018년 2월 19일 월요일

Deep Learning 하는 사람들은 얼마나 벌까 ?

최근 Deep Learning 등 AI 관련 전공하신 분들, 즉 컴공은 물론 평소 그렇게 잘 팔리는 학과는 아니었던 수학과 물리학 석박사들도 날개 돋친 듯 팔려나가신다고 들었습니다.

그러나, 잘 팔린다는 것과 월급 봉투가 두툼하다는 것이 꼭 100% 일치하는 이야기는 아닙니다. 과연 이렇게 Deep Learning 하시는 분들의 연봉은 대략 어떨까요 ? 국내 상황은 저도 잘 모르겠고, 해외 상황에 대해서는 (신뢰성 여부는 확실치 않지만) 아래 레딧 쓰레드가 하나 있습니다.

https://www.reddit.com/r/MachineLearning/comments/7yde11/d_salaries_for_ml/

위 쓰레드에서 '대체 이 바닥에서 얼마씩들 받아요?'라는 질문이 올라왔고, 거기에 댓글이 수백개 달렸습니다. 먼저 요약부터 하자면 아래와 같습니다.

- 생각보다는 그렇게까지 많진 않더라
- 그나마 미국이 좀 낫고, 유럽은 그냥 한국 수준 같고, 일본은 아주 영...

그 중 대표적인 답변들 몇 개 정리했습니다.

. 워싱턴 DC 지역의 연방 정부 연구소, 박사 졸업 후 5년 경력
135K (1억4천만원), 보너스는 금전적으로는 없지만 복리후생이 좋고, 휴가도 많고, 원격지 근무도 많음. 박사 학위도 여기서 일하면서 땄음.

. 샌프란시스코의 핀테크 스타트업, 박사 학위
150K (1억6천만원), RSU(일정 근무 이후 받을 수 있는 자사 주식) 75K (8천만원), 보너스는 25K ~ 125K (목표는 75K)

. 중간크기 미국 도시의 대기업, 석사 학위에 4년 경력
101K (1억1천만원), 복리후생 완벽

. 뉴욕 대형기술기업, 박사 학위 취득 직후임
140K (1억5천만원), RSU(4년 후 240K), 보너스는 기본급의 10%, 입사 계약시 100K 받았음
--> 여기에는 '페이스북인 모양이군' '아마 구글일거야, 하지만 걔들도 사이닝 보너스를 저렇게 많이 주진 않는데' 등의 댓글이 달렸습니다.

. 버지니아 리치몬드에서 초급 Data Scientist, 재무 쪽 석사 이후 머신러닝으로 컴공쪽 석사 또 했음 + SW 개발자로 1.5년 경력
75K (8천만원), 보너스 5~10%, 옵션 없음. 한 절반은 재택근무(WFH : Work From Home)하는데 아주 좋아

석박사님들만 있는 것은 아닙니다. 아래와 같은 댓글도 달렸습니다.

. 박사학위 같은 거 없고 독학해서 배웠는데, 23년 사이버 보안 관련 경력이 있어. 180K (1억9천)에 퇴직연금/휴가 등의 복리후생으로 40K를 더 받아.

. 워싱턴 DC 지역, Data Scientist/Engineer, 통계 쪽으로 Top 10 대학에서 학부 졸업 + 2년 경력
88K (9천만원), 옵션으로는 10% 퇴직금(401K) 적립과 점심때 맥주 + 보드 게임 정도야. 절반은 재택근무해.
지금 초급 수준의 신경망 일 하고 있는데 내가 많이 받는건지 적게 받는건지 감이 안 잡혀.
--> 여기에는 "그럼 넌 니 생각보단 많이 받는 거야" 라는 댓글이 달렸습니다.

미국 말고 다른 나라는 어떨까요 ?

. 이스라엘 네타냐의 작은 기계학습 스타트업 (40인 수준), 석사 후 2년 경력
95K (1억원), 괜찮은 조건의 스톡옵션 있음. 기타 복리후생 (음식, 자동차 연료비 등) 좋음

. 캐나다 Data Scientist, 석사 후 1년 경력
60K CAD (5천만원), 스톡옵션 따위 없음. 보너스는 1K 미만

. 일본 대학, 석사 후 5년 경력
30K (3천2백만원), 건강보험 (어차피 일본에선 강제규정임), 근무시간 자유로운 편
--> 여기에는 "나도 일본에서 일하는데, 이유는 모르겠지만 이 나라는 정말 급여가 짜. 그런데도 생활비는 너무 비싸. 삶은 건강하긴 해"라는 댓글이 붙었습니다. 일본이 호황이고 실업률도 낮긴 하지만 급여가 오르지 않아서 골치라는 뉴스들 보셨을 겁니다.

. 호주 브리스베인, Data Scientist, IT와 물리학으로 2개 학위 있음, SW 개발자로 10년 이상의 경력
60K (6천4백만원), 보너스 없음, 대부분 재택근무함.

. 독일, Data Scientist & 전략 컨설팅, 공학 석사
65K 유로 (8천6백만원), 보너스 8%, 교통수당 12K, 휴가 25일

. 프랑스 파리, Data Scientist & Big Data Engineer, 석사 학위 후 막 취업한 상태
43K 유로 (5천7백만원), 보너스 3K유로, 휴가 5주 + 4일 더, 무제한의 과일과 커피, 프랑스 의료보험 (모든게 무료)
--> 여기에는 "파리는 생활비가 너무 비싸, 난 바르셀로나에서 그것과 비슷하게 받는데, 여긴 물가가 더 싸"라는 댓글이 달렸습니다.

한가지 놀란 점 - 영국도 한국 못지 않게 박사과정 학생들이 이래저래 매우 고된 착취의 삶을 사는 모양입니다. 덴마크나 독일은 좀 낫답니다.

. 영국, 대학, 아직 박사 과정 중
16K (1천7백만원), 옵션 따위 없음, 보너스는 세미나에서 먹을 수 있는 샌드위치와 음료수
--> 여기에는 "우울증은 덤" "이게 재미있는 것 같지는 않아, 하지만 많은 이들의 현실이야" "알아, 사실인 걸 아니까 웃는 거야" "미국으로 건너와 ! 여긴 샌드위치 말고 피자를 준다구" 등의 댓글이 달렸습니다.

. 영국, 대학, 아직 박사 과정 중
15K (1천6백만원), 옵션 따위 없음, 보너스로는 '컨설팅 부업 같은 걸 해보지 그래'라는 권유를 많이 받음, 그러나 이 노비생활(servitude)을 확실히 하게 만들려고 학위 과정 중에 부업을 못하게 되어있음,

. 덴마크, 대학, 아직 박사 과정 중
69K (7천3백만원), 퇴직연금 적립액이 포함된 금액임
--> 여기엔 "야, 이건 불공평해"라는 댓글이 달렸습니다.

. 독일 대학, 아직 박사 과정 중
46K ~ 54K 유로 (6천 ~ 7천만원), 연차별로 오름.
--> 여기엔 "뭐??? 박사 과정 학생에게 50K나 준다고 ? 여기 있는 독일 학생에게 대체 여기에 왜 있느냐고 물어 봐야겠네" 라는 댓글이 달렸습니다.

2017년 8월 2일 수요일

왜 GPU를 이용한 deep learning에 LSF job scheduler가 필요한가 ?

IBM LSF(Load Sharing Facility)는 한마디로 queue 방식의 job scheduler로서, 주로 수퍼컴 클러스터에서 사용되는 SW 제품입니다. 그에 비해 deep learning training 업무는 GPU를 몇 장 장착한 1대의 서버 또는 desktop workstation에서 수행하는 것이 보통이므로 LSF와는 잘 어울리지 않는다고 생각하기 쉽습니다.

그러나 그렇지 않습니다. GPU를 사용하는 deep learning training 업무야말로 LSF를 이용할 때 볼 수 있는 혜택이 무척 큰 업무입니다. 이유는 무엇보다 GPU 자원이 비싼 것에 비해 정작 활용률이 낮기 때문입니다.

전통적으로 deep learning training은 연구원들이 개인별로 혹은 팀별로 구매한 서버나 워크스테이션 1~2대에서 수행해왔습니다. 최근의 AI 붐으로 인해 점점 더 많은 연구원들이 더 많은 training을 하게 되었고, 이로 인해 기업이나 연구소에서는 연구원들의 요청에 따라 더 많은 서버를 구매하게 되었습니다.

또한 전통적으로 팀별로 독립된 연구 환경을 선호하는 연구하는 연구원들의 특성상, 다른 팀 또는 다른 연구원들과 하나의 GPU 서버를 공유하여 training을 수행하는 일이 많지는 않았습니다. 더 좋은 GPU 서버 1대를 사서 공유하는 것 보다는 좀더 낮은 사양의 GPU 서버를 2대 사서 각각 1대씩 따로 운용하는 것을 선호했지요.

문제는 그러다보니 GPU 서버들의 구매 비용은 말할 것도 없고, 전기사용량이 많고 소음과 발열량도 많은 GPU 서버들의 관리에 문제가 생기기 시작했다는 점입니다. 더 큰 문제는 그렇게 많은 비용을 들여 사들인 GPU 서버들의 활용률이 생각보다 매우 낮다는 것입니다.

아무리 열심히 연구활동을 하는 연구원들이라고 해도, 24시간 계속 끊이지 않고 뭔가 모델을 training시키지는 않습니다. 새로운 연구 논문도 읽어야 하고, data labeling 작업도 감독해야 할테니까요. 그러다보니 A 연구실에서는 GPU 자원이 부족하여 GPU 서버를 사야하는데 바로 옆 방의 B 연구실에서는 GPU 서버가 그냥 놀면서 전기만 먹어대는 경우도 많습니다. 더 최악인 것은, 바로 다음 달이 되면 A 연구실의 GPU가 놀 때 B 연구실에서는 GPU가 부족하다고 GPU 서버를 1대 더 사달라고 하는 경우지이요.

이런 문제를 해결해주는 것이 IBM LSF입니다. LSF는 GPU 자원을 모니터링하며 관리하다가, 연구원들이 queue에 submit하는 training job들을 최적의 GPU에 알아서 배치해 줍니다. 그럼으로써 전체적인 GPU 자원이 낭비되는 일 없이 활용률을 높여주고, 또 연구원들도 훨씬 편리하게 작업을 수행할 수 있게 해줍니다.

아래의 두가지 시나리오를 보시면 쉽게 이해가 되실 것입니다.

#1. 당장 급하게 2개의 GPU를 이용하여 돌려야 하는 training이 있습니다. 그런데 이미 김박사님이 4개의 GPU를, 이박사님이 3개의 GPU를 이용하여 뭔가를 돌리고 계십니다. 두분께 전화를 걸어 여쭤보니 김박사님은 몇시에 끝날지 잘 모르겠다고 하시고, 이박사님은 아마 새벽 2시쯤 끝날 것이라고 말씀하십니다. 과연 저는 새벽 2시까지 기다렸다가 이박사님의 job이 끝나는 것을 확인한 뒤에 제 training 작업을 걸어놓고 퇴근해야 하나요 ?

#2. 연구원 A는 GPU 4장이 장착된 서버가 현재 놀고 있는 것을 확인했습니다. 그래서 GPU 2장, 즉 gpu0과 gpu1을 이용하여 caffe training을 하나 돌렸습니다. 그런데, 하필 거의 동시에 연구원 B도 이 서버가 놀고 있다고 생각하고는 역시 gpu0과 gpu1을 이용하여 caffe training을 걸었습니다. 과연 어떻게 될까요 ? 매번 누가 이 서버에서 몇번 GPU를 이용해서 돌리려는지 확인한 뒤 job script를 수정해야 할까요 ?

결론적으로, 약간의 비용을 들여서 LSF를 구축하시는 것이 무작정 GPU 서버를 더 사는 것보다 훨씬 더 효율이 높으며, 이는 비단 GPU 서버 HW 구매 비용 뿐만 아니라 상면과 전력소비량, 공조기 비용 등의 절감에 큰 도움이 됩니다. 또한, 현업 연구원들 입장에서도 훨씬 더 편리하고 마음 편하게 연구 활동에만 전념할 수 있다는 장점이 있습니다.

LSF를 이용한 deep learning의 가장 분명한 reference는 바로 IBM 자신의 Poughkeepsie 벤치마크 센터의 수퍼컴입니다. 거기서의 LSF 사용이 얼마나 간단한지는 여기서 확인하시기 바랍니다.

IBM Poughkeepsie 벤치마크 센터에서의 LSF를 이용한 deep learning training 수행

이번 posting에서는 IBM Poughkeepsie (POK) 벤치마크 센터를 이용하여 Minsky 서버를 이용한 deep learning 성능 벤치마크 테스트를 수행하는 방법에 대해 알아보겠습니다. 단, 여기서의 주 내용은 POK 센터 수퍼컴 클러스터의 개략적인 GPFS 및 LSF 환경 및 그 사용방법에 대한 가이드일 뿐이고, 이 수퍼컴을 사용하기 위한 신청/승인 절차는 다루지 않습니다. 이 수퍼컴 클러스터는 IBM HW/SW의 구매를 고려 중이신 고객분들의 capacity sizing 등 각종 PoC와 performance benchmark test를 위해 사용됩니다.

먼저, IBM 영업측을 통해서 POK 벤치마크 센터의 사용 승인을 받으시면 VPN 연결 방법 및 관련 id/passwd를 받게 됩니다.

VPN 연결 뒤에 연결하셔야 하는 서버는 실제로 고객분이 성능 테스트를 수행하실 서버가 아니라, login 서버라고 하는 서버입니다. POK 벤치마크 센터의 수퍼컴은 수십대의 POWER8 서버로 되어 있는데, 고객분들은 이 서버들 중 하나를 할당 받는 형태로 테스트를 하는 것이 아니라 이 서버들의 computing power를 LSF라고 하는 job scheduler를 통해 할당받는 것입니다. 고객분들이 접속하시는 이 login 서버는 job scheduler의 master 서버 역할을 하며, 여기서는 다음과 같은 것을 수행하실 수 있습니다.

- 수행하려는 application과 data의 컴파일 및 설치
- 수행를 위해 필요한 shell script 등의 작성과 간단한 동작 여부 테스트

간혹 이 login 서버에서 아예 성능 테스트를 돌려버리시는 분들이 있는데, 그럴 경우 제대로 된 성능을 얻기 어려울 뿐만 아니라 이 수퍼컴을 이용하시는 전세계의 많은 다른 고객분들께도 폐를 끼치는 행위가 되므로 절대 그러지 마시기를 부탁드립니다. 많은 수퍼컴 클러스터에서는 그런 일을 막기 위해 login 서버의 사양을 일부러 작은 것으로 하거나 GPU가 달려 있지 않은 것으로 구성하기도 합니다.

이 login 서버와 수퍼컴 노드들은 모두 Spetrum Scale (옛이름 GPFS)라는 병렬파일시스템으로 묶여있습니다. 즉, 어느 서버에 login하더라도 (내장 disk를 이용한 일부 파일시스템을 제외하고는) 모두 같은 파일시스템이 마운트 되어 있는 것을 보실 수 있으며, login 서버에서 저장해 놓은 파일들은 수퍼컴 내의 어느 서버에서도 다 read/write할 수 있습니다. 물론 각 user id도 login 서버와 수퍼컴 노드들에서 다 동일하게 만들어져 있고, user의 홈 디렉토리도 이 GPFS 파일시스템으로 되어 있으므로 login 서버의 홈 디렉토리에 저장된 내용은 어느 노드에서라도 다 동일하게 보실 수 있습니다.

Login 서버에 접속하시면 다음과 같이 여러 filesystem들이 마운트 되어 있는 것을 보실 수 있습니다. 그 중 앞이 /gpfs 로 시작되는 파일시스템들이 Spectrum Scale (GPFS) 파일시스템들입니다. 고객분은 시스템 userid/passwd를 받으실 때 어느 특정 GPFS 파일시스템을 사용하라는 가이드를 받으실 것입니다. 대부분의 경우, /gpfs/gpfs_gl4_16mb를 사용하라는 가이드를 받으실 것이고, 또 홈 디렉토리가 이미 그 파일시스템으로 잡혀 있을 것입니다.

b7p193aa@p10login1:~$ pwd
/gpfs/gpfs_gl4_16mb/home/b7p193aa

b7p193aa@p10login1:~$ df -h
Filesystem Size Used Avail Use% Mounted on
udev 243G 0 243G 0% /dev
tmpfs 52G 778M 51G 2% /run
/dev/sda2 879G 42G 793G 5% /
tmpfs 256G 17M 256G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
tmpfs 256G 0 256G 0% /sys/fs/cgroup
cgmfs 128K 0 128K 0% /run/cgmanager/fs
fserv3.pbm.ihost.com:/export/ibmplatform 98G 38G 61G 39% /vol/ibmplatform
tmpfs 52G 0 52G 0% /run/user/0
gpfs_gl4_16mb_bench 221T 123T 98T 56% /gpfs/gpfs_gl4_16mb_bench
gpfs_gl4_8mb 75T 23T 53T 30% /gpfs/gpfs_gl4_8mb
gpfs_gs2_512k 2.1T 1.9T 130G 94% /gpfs/gpfs_gs2_512k
gpfs_stage1 66T 57T 8.7T 87% /gpfs/gpfs_stage1
gpfs_2gl4_8mb 61T 8.6T 52T 15% /gpfs/gpfs_2gl4_8mb
gpfs_gl4_16mb 165T 126T 39T 77% /gpfs/gpfs_gl4_16mb
/dev/nvme0n1p1 2.9T 332M 2.8T 1% /nvme3T
....

이 수퍼컴 클러스터 내의 노드들의 사양과 OS 등은 용도/그룹별로 서로 약간 다릅니다. 일부는 전통적 HPC 테스트를 위해 Redhat OS가 설치되어 있고, 일부는 deep learning을 위해 Ubuntu 16.04와 함께 IBM PowerAI toolkit이 설치되어 있습니다. 그 중 어느 쪽에 login 해야 하느냐는 고민하실 필요가 없습니다. 왜냐하면 해당 노드들에는 직접 login 하실 일이 없고, login 노드에서의 LSF job submit 형태로만 이용을 하시게 되거든요. 이제 그 과정을 찬찬히 보시겠습니다.

LSF는 job scheduler SW이고, 이를 이용하시려면 몇가지의 간단한 명령어만 익히시면 사용 가능하십니다. 특히 1대의 노드만을 이용하여 deep learning을 하시는 분들께서는 매우 간단한 명령 몇개만 아시면 됩니다.

bqueues : job을 submit할 큐의 정보를 보여줍니다
bsub : job을 큐에 submit 해줍니다
bjobs : 큐에 submit된 job의 상태를 보여줍니다
bhist : 현재 수행 중인, 혹은 이미 수행이 끝난 job의 history를 보여줍니다
bkill : submit되어 현재 수행 중인 상태의 job을 도중에 kill 시켜 줍니다
bhosts : 수퍼컴 클러스터 내의 노드들 상황을 보여줍니다.

이제 자세히 보시겠습니다. 이 수퍼컴 클러스터에서 job을 submit할 queue에 어떤 것들이 있는지 bqueues 명령을 통해 보실 수 있습니다.

b7p193aa@p10login1:~$ bqueues
QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP
test-stream 30 Open:Inact - - - - 0 0 0 0
s822lc_p100_k80 30 Open:Active - - - - 8616 6568 2048 0
822normal 30 Open:Inact - - - - 0 0 0 0
s822lc_p100 30 Open:Active - - - - 3 0 3 0
s822lc_p100nvme 30 Open:Active - - - - 151 0 151 0
normal 30 Open:Active - - - - 0 0 0 0
s822lc_k80 30 Closed:Inact - - - - 0 0 0 0

Deep learning을 하실 고객분들은 이 중 s822lc_p100nvme 이라는 이름의 queue에 job을 submit 하셔야 합니다. 전통적 HPC를 하실 분들은 s822lc_p100 라는 queue를 이용하셔야 합니다.

수행할 job을 위한 shell script를 미리 만들어 두시는 것이 편합니다. 여기서는 PowerAI에 포함된 tensorflow를 이용하여 CIFAR-10 training 하는 shell script를 준비했습니다. 현재의 shell에서 수행되는 것이 아니라 동일 GPFS 파일시스템을 마운트하고 있는 다른 서버에서 LSF를 통해서 수행되는 것이므로, 가급적 모든 path는 절대 path로 써주시는 것이 좋습니다.

b7p193aa@p10login1:~$ cat cifar10.sh
#!/bin/bash
source /opt/DL/tensorflow/bin/tensorflow-activate
source /opt/DL/bazel/bin/bazel-activate
export FLOWERS_DIR=/gpfs/gpfs_gl4_16mb/b7p193aa/inception/models/inception
export INCEPTION_DIR=/gpfs/gpfs_gl4_16mb/b7p193aa/inception
/gpfs/gpfs_gl4_16mb/b7p193aa/inception/models/inception/bazel-bin/inception/flowers_train --train_dir=$FLOWERS_DIR/train --data_dir=$FLOWERS_DIR/data --pretrained_model_checkpoint_path=$INCEPTION_DIR/inception-v3/model.ckpt-157585 --fine_tune=True --initial_learning_rate=0.005 -input_queue_memory_factor=1 --max_steps=500 --num_gpus 4 --batch_size=64

이제 이 cifar10.sh를 LSF의 s822lc_p100nvme 이라는 이름의 queue에 submit 하겠습니다.

b7p193aa@p10login1:~$ bsub -q s822lc_p100nvme /gpfs/gpfs_gl4_16mb/home/b7p193aa/cifar10.sh
Job <113856> is submitted to queue <s822lc_p100nvme>.

Job ID 113856를 이용하여 현재 상황이 어떤지 등을 보실 수 있습니다. 먼저 job 상황을 보기 위해 bjobs 명령을 써보겠습니다.

b7p193aa@p10login1:~$ bjobs 113856
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
113856 b7p193a RUN s822lc_p10 p10login1 p10a106 *ifar10.sh Aug 2 00:38

현재 run 중이고, p10a106이라는 서버에서 수행 중임을 알 수 있습니다.

bhist 명령으로 보시면 이제 막 job이 할당되어 해당 노드상에서 pid 142480로 시작된 것을 보실 수 있습니다.

b7p193aa@p10login1:~$ bhist -l 113856

Job <113856>, User <b7p193aa>, Project <default>, Command </gpfs/gpfs_gl4_16mb/
home/b7p193aa/cifar10.sh>
Wed Aug 2 00:38:06: Submitted from host <p10login1>, to Queue <s822lc_p100nvme
>, CWD <$HOME>;
Wed Aug 2 00:38:07: Dispatched 1 Task(s) on Host(s) <p10a106>, Allocated 1 Slo
t(s) on Host(s) <p10a106>, Effective RES_REQ <select[type
== local] order[r15s:pg] >;
Wed Aug 2 00:38:08: Starting (Pid 142480);

Summary of time in seconds spent in various states by Wed Aug 2 00:38:08
PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL
1 0 1 0 0 0 2

이어서 bhosts 명령으로 확인하시면, 이 p10a106 노드에서 뭔가 한창 돌아가고 있는 것을 보실 수 있습니다.

b7p193aa@p10login1:~$ bhosts p10a106
HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV
p10a106 ok - 160 150 150 0 0 0

Job이 돌아가는 모습을 보시려면 bpeek 명령을 쓰실 수 있습니다. 원래 console 상에 display 되어야 하는 message 등을 여기서 엿볼 수 있습니다.

b7p193aa@p10login1:~$ bpeek 113856
<< output from stdout >>

<< output from stderr >>
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.so.8.0 locally

시간이 지난 뒤 다시 bhist 명령을 내려보면 이제 완료된 것을 보실 수 있습니다.

b7p193aa@p10login1:~$ bhist -l 113856

Job <113856>, User <b7p193aa>, Project <default>, Command </gpfs/gpfs_gl4_16mb/
home/b7p193aa/cifar10.sh>
Wed Aug 2 00:38:06: Submitted from host <p10login1>, to Queue <s822lc_p100nvme
>, CWD <$HOME>, Error File <./err.2>;
Wed Aug 2 00:38:07: Dispatched 1 Task(s) on Host(s) <p10a106>, Allocated 1 Slo
t(s) on Host(s) <p10a106>, Effective RES_REQ <select[type
== local] order[r15s:pg] >;
Wed Aug 2 00:38:08: Starting (Pid 142480);
Wed Aug 2 00:38:14: Running with execution home </gpfs/gpfs_gl4_16mb/home/b7p1
93aa>, Execution CWD </gpfs/gpfs_gl4_16mb/home/b7p193aa>,
Execution Pid <142480>;
Wed Aug 2 02:14:55: Done successfully. The CPU time used is 692931.6 seconds;
Wed Aug 2 02:15:00: Post job process done successfully;

MEMORY USAGE:
MAX MEM: 20.7 Gbytes; AVG MEM: 16.2 Gbytes

Summary of time in seconds spent in various states by Wed Aug 2 02:15:00
PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL
1 0 5808 0 0 0 5809

그 결과물로 나오는 model file은 미리 정해진 위치인 $INCEPTION/models/inception/train 밑에 아래와 같이 생성된 것을 확인하실 수 있습니다.

b7p193aa@p10login1:~$ ls /gpfs/gpfs_gl4_16mb/b7p193aa/inception/models/inception/train
checkpoint model.ckpt-0.data-00000-of-00001 model.ckpt-0.index model.ckpt-0.meta

가끔은 작성한 shell이 제대로 수행되지 않고 error가 나는 경우가 있습니다. 이때 error 메시지를 봐야 수정을 할텐데, 제가 위에 정리한 내용에는 그 부분이 없지요. 이는 bsub 명령을 내릴 때 -e 옵션을 주시면 됩니다.

아래처럼 -e 뒤에 경로를 포함한 파일명을 주시면 그 파일에 error 메시지가 쌓입니다.

b7p193aa@p10login1:~$ bsub -q s822lc_p100nvme -e ./err.1 /gpfs/gpfs_gl4_16mb/home/b7p193aa/cifar10.sh
Job <113855> is submitted to queue <s822lc_p100nvme>.

이 job은 아래와 같이 exit code 127을 내면서 시작하자마자 죽은 것을 보실 수 있습니다.

b7p193aa@p10login1:~$ bhist -l 113855

Job <113855>, User <b7p193aa>, Project <default>, Command </gpfs/gpfs_gl4_16mb/
home/b7p193aa/cifar10.sh>
Wed Aug 2 00:36:20: Submitted from host <p10login1>, to Queue <s822lc_p100nvme
>, CWD <$HOME>, Error File <./err.1>;
Wed Aug 2 00:36:21: Dispatched 1 Task(s) on Host(s) <p10a119>, Allocated 1 Slo
t(s) on Host(s) <p10a119>, Effective RES_REQ <select[type
== local] order[r15s:pg] >;
Wed Aug 2 00:36:22: Starting (Pid 96410);
Wed Aug 2 00:36:28: Running with execution home </gpfs/gpfs_gl4_16mb/home/b7p1
93aa>, Execution CWD </gpfs/gpfs_gl4_16mb/home/b7p193aa>,
Execution Pid <96410>;
Wed Aug 2 00:36:28: Exited with exit code 127. The CPU time used is 0.4 seconds;
Wed Aug 2 00:36:28: Completed <exit>;

Summary of time in seconds spent in various states by Wed Aug 2 00:36:28
PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL
1 0 7 0 0 0 8

./err.1 파일을 열어보면 아래와 같이 제가 경로명을 잘못 줬기 때문에 발생한 것임을 아실 수 있습니다.

b7p193aa@p10login1:~$ cat ./err.1
/gpfs/gpfs_gl4_16mb/home/b7p193aa/cifar10.sh: line 6: /gpfs_gl4_16mb/b7p193aa/inception/models/inception/bazel-bin/inception/flowers_train: No such file or directory