HW 엔지니어를 위한 Deep Learning: 2023

2023년 7월 5일 수요일

lsmemopt에서 -r lpar에 대한 점수와 --id 'lpar_id' 에 대한 점수가 달라요!

lsmemopt 사용시, -r lpar를 주어서 보는 점수와, --id (lpar_id)를 주어서 보는 점수가 각각 다르게 나와 이상하게 여기실 수 있습니다.

lsmemopt 사용시 --id 등을 주었을 때와 주지 않았을 때의 차이점은, 결국 system 전체에 대한 score (curr_sys_score)이냐 각각의 lpar에 대한 score (curr_lpar_score)이냐의 차이입니다.

즉, -r sys를 주고 수행하면 언제나 시스템 전체에 대한 점수, 즉 curr(predidcted)_sys_score를 보여주고, -r lpar를 주고 수행하면 언제나 각각의 lpar 레벨에서의 점수, 즉 curr(predidcted)_sys_score를 보여줍니다.

그냥 -r 옵션을 아예 안 쓰고 그냥 --id 만 주고 수행할 수도 있으나, -r 옵션을 생략하면 그건 언제나 default 옵션인 -r sys로 간주되기 때문에 항상 시스템 전체에 대한 점수인 curr(predidcted)_sys_score 값을 보여줍니다.

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V -r sys -o calcscore

curr_sys_score=92,predicted_sys_score=98,requested_lpar_ids=none,protected_lpar_ids=none

: 즉, 전체 시스템의 현재 점수는 92점인데 최적화를 통해 98점까지 올라갈 수 있다는 뜻입니다.

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V -r lpar -o calcscore

lpar_name=s824_vios2,lpar_id=1,curr_lpar_score=100,predicted_lpar_score=100

lpar_name=AIX7100_04_08,lpar_id=2,curr_lpar_score=0,predicted_lpar_score=90

lpar_name=s824_vios1,lpar_id=3,curr_lpar_score=100,predicted_lpar_score=100

lpar_name=AIX72CloudVM_00,lpar_id=4,curr_lpar_score=100,predicted_lpar_score=90

lpar_name=DB2CF01,lpar_id=5,curr_lpar_score=none,predicted_lpar_score=none

lpar_name=kctest,lpar_id=8,curr_lpar_score=100,predicted_lpar_score=100

lpar_name=bsyu-test1,lpar_id=9,curr_lpar_score=100,predicted_lpar_score=100

lpar_name=aix-test-02-71188692-0000000e,lpar_id=10,curr_lpar_score=none,predicted_lpar_score=none

: 여기서 모든 lpar들의 점수는 위치에 따라서 제각각입니다만 대부분 100점이고 (일부 lpar들은 not activated 상태입니다) 최적화 이후 점수도 100점입니다. 다만 lpar_id 4인 AIX72CloudVM_00 lpar는 현재 점수가 100점인데 최적화 이후 점수는 90점으로 오히려 줄어듭니다. 이는 현재 점수가 0점인 AIX7100_04_08 (lpar_id=2)를 최적화하여 90점으로 끌어올리려면 lpar_id 4의 점수가 다소 희생된다는 뜻입니다.

여기서 -r lpar를 빼고 그냥 --id만 줘서 lsmemopt를 돌리면 HMC에서는 이를 -r sys라고 간주하고 항상 system 점수를 보여줍니다. 따라서 --id 값을 무엇으로 지정하든 항상 똑같은 점수, 즉 전체 시스템 점수인 현재 점수 92점과 향후 점수 98점이 보여집니다. 자세히 보시면 curr_lpar_score가 아니라 curr_sys_score가 display됩니다.

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V --id 9 -o calcscore

curr_sys_score=92,predicted_sys_score=98,requested_lpar_names=bsyu-test1,requested_lpar_ids=9,protected_lpar_ids=none

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V --id 2 -o calcscore

curr_sys_score=92,predicted_sys_score=98,requested_lpar_names=AIX7100_04_08,requested_lpar_ids=2,protected_lpar_ids=none

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V --id 10 -o calcscore

curr_sys_score=92,predicted_sys_score=98,requested_lpar_names=aix-test-02-71188692-0000000e,requested_lpar_ids=10,protected_lpar_ids=none

이렇게 시스템 전체 점수만 보여줄 것이면 --id를 지정하는 것이 무슨 의미가 있느냐고 반문하실 수 있는데, 실제로 큰 의미는 없습니다. 그러나 반대로 --xid를 지정하는 것은 큰 의미가 있습니다. --xid는 해당 lpar는 최적화 작업에서 제외시키라는 뜻입니다. 즉, 해당 lpar가 매우 중요한 시스템이라서 그 lpar는 건드리지 않고 최적화 작업을 하면 전체 시스템 점수가 어떻게 될 것인가를 알고 싶을 때 요긴하게 사용될 수 있습니다.

가령 아래에서 lpar_id 5번은 최적화 작업에서 제외시키더라도 전체 curr_sys_score 92점이 predicted_sys_score 98점으로 개선되는 것에 별 영향을 주지 않습니다.

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V --xid 5 -o calcscore

curr_sys_score=92,predicted_sys_score=98,requested_lpar_ids=none,protected_lpar_names=DB2CF01,protected_lpar_ids=5

하지만 아래처럼 lpar_id 2번를 최적화 작업에서 제외시키는 경우, 현재 점수와 향후 점수가 똑같이 92점인 것을 보실 수 있습니다. 즉, lpar_id 2번을 제외하면 전체 최적화 작업에서 거의 나아지는 것이 없습니다.

hscroot@icchmc:~> lsmemopt -m Server-8286-42A-SN84D7B4V --xid 2 -o calcscore

curr_sys_score=92,predicted_sys_score=92,requested_lpar_ids=none,protected_lpar_names=AIX7100_04_08,protected_lpar_ids=2

2023년 4월 10일 월요일

Approximate Computing 관련 문답

Q1. Single-precision floating point (32-bit)로 훈련된 딥 러닝 모델에서 half-precision (16-bit) inferencing을 사용할 수 있습니까?

A1. 예, Single-precision floating point (단정밀도)로 훈련된 딥 러닝 모델에서 half-precision (반정밀도) 추론을 사용할 수 있습니다.

반정밀도 추론을 사용하는 경우 가중치 및 활성화가 16비트 형식으로 저장되므로 단정밀도(32비트) 형식을 사용할 때보다 추론 시간이 빨라지고 메모리 요구 사항이 줄어들 수 있습니다. 그러나 모델이 단정밀도 형식으로 학습되면 가중치는 32비트 부동 소수점 숫자로 저장됩니다. 따라서 반정밀도로 추론을 수행하려면 먼저 가중치(weight)를 16비트 형식으로 변환해야 합니다.

이 변환 프로세스를 가중치 양자화(weight quantization)라고 하며 모델 정확도의 손실을 최소화하면서 가중치의 정밀도를 32비트에서 16비트로 줄이는 작업이 포함됩니다. 주어진 범위에서 가중치를 균일하게 양자화하는 것과 관련된 선형 양자화와 같은 다양한 가중치 양자화 기술이 있습니다.

반정밀도 추론을 사용하면 때때로 단정밀도 추론에 비해 모델 정확도가 떨어질 수 있다는 점에 유의해야 합니다. 따라서 가중치 양자화 과정을 거친 후 모델의 정확도를 평가하고 필요한 경우 모델을 미세 조정하는 것이 좋습니다.

Q2. 가중치 양자화 외에 단정밀도 학습 모델에서 반정밀도 추론을 사용하려면 어떤 기술을 적용해야 합니까?

A2. 가중치 양자화 외에도 단정밀도 학습 모델에서 반정밀도 추론을 사용하기 위해 적용할 수 있는 몇 가지 다른 기술이 있습니다. 이러한 기술 중 일부는 다음과 같습니다.

활성화 양자화(Activation quantization): 가중치 양자화와 유사하게 활성화 양자화는 활성화의 정밀도를 32비트에서 16비트로 줄이는 것과 관련됩니다. 이를 통해 메모리 요구 사항을 줄이고 추론 속도를 높일 수 있습니다.

혼합 정밀도 훈련(Mixed-precision training): 여기에는 단정밀도 및 반정밀도 데이터 유형의 조합으로 모델을 훈련하는 것이 포함됩니다. 모델의 정방향 및 역방향 전달은 반정밀도 데이터 유형을 사용하여 수행되는 반면 가중치 업데이트는 단정밀도 데이터 유형을 사용하여 수행됩니다. 이를 통해 훈련 중 메모리 요구 사항을 줄이고 훈련 프로세스 속도를 높일 수 있습니다.

기울기 누적(Gradient accumulation): 반정밀도 추론 중에 모델이 GPU 메모리에 맞지 않는 경우 기울기 누적을 사용하여 가중치 업데이트를 수행하기 전에 여러 배치에 걸쳐 기울기를 누적할 수 있습니다. 이렇게 하면 추론 중에 메모리 요구 사항을 줄이는 데 도움이 될 수 있습니다.

손실 조정(Loss scaling): 여기에는 감소된 정밀도를 보상하기 위해 반정밀도 훈련 중에 손실 함수를 확장하는 작업이 포함됩니다. 이는 모델의 수치적 안정성을 개선하고 언더플로와 같은 문제를 방지하는 데 도움이 될 수 있습니다.

이러한 기술은 반정밀도 추론 중에 모델의 성능을 최적화하기 위해 가중치 양자화와 함께 사용할 수 있습니다. 그러나 최적의 기술 조합은 사용 중인 특정 모델 아키텍처 및 데이터 세트에 따라 달라질 수 있다는 점에 유의해야 합니다.

Q3. CUDA 소프트웨어 스택이 없는 Xilinx FPGA와 같이 비 CUDA 환경에서 추론하기 위해 CUDA 환경에서 훈련된 딥 러닝 모델을 사용할 수 있습니까?

A3. 예, CUDA 소프트웨어 스택 없이 Xilinx FPGA와 같은 비 CUDA 환경에서 추론하기 위해 CUDA 환경에서 훈련된 딥 러닝 모델을 사용할 수 있습니다. 이는 훈련된 모델을 원래 형식(예: TensorFlow, PyTorch)에서 대상 하드웨어(예: FPGA)에서 실행할 수 있는 형식으로 변환하는 것과 관련된 "모델 변환"(model conversion) 또는 "모델 최적화"(model optimization)라는 기술을 사용하여 달성할 수 있습니다. ).

모델 최적화를 위한 인기 있는 도구 중 하나는 TensorFlow의 "TensorFlow Lite" 프레임워크로, FPGA를 비롯한 다양한 대상 하드웨어 플랫폼에 대한 모델 변환을 지원합니다. 모델 변환 프로세스에는 일반적으로 다음과 같은 여러 단계가 포함됩니다.

양자화(Quantization): 원래 모델의 부동 소수점 가중치 및 활성화를 고정 소수점 형식으로 변환하여 모델의 메모리 및 계산 요구 사항을 줄입니다.

형식 변환(Format conversion): Xilinx의 DPU(Deep Learning Processor Unit) 형식과 같이 대상 하드웨어와 호환되는 형식으로 모델을 변환합니다.

최적화(Optimization): 가지치기 또는 가중치 공유와 같은 모델에 다양한 최적화를 적용하여 모델 크기를 줄이고 추론 속도를 향상시킵니다.

편집(Compilation): 대상 하드웨어에 최적화된 모델을 컴파일하여 FPGA에서 실행할 수 있는 실행 가능 코드를 생성합니다.

모델이 대상 하드웨어용으로 변환 및 컴파일되면 CUDA 소프트웨어 스택 없이도 추론에 배포하고 사용할 수 있습니다. 그러나 모델의 성능은 대상 플랫폼의 하드웨어 아키텍처에 영향을 받을 수 있으며 최적의 성능을 달성하기 위해 추가 최적화가 필요할 수 있다는 점에 유의해야 합니다.

Q4. 딥러닝에서의 Approximate Computing에 대해 알려주세요.

A4. 근사 컴퓨팅(Approximate Computing)은 성능 또는 에너지 효율성을 위해 정확도를 절충하기 위해 딥 러닝에서 사용할 수 있는 기술입니다. 아이디어는 여전히 허용 가능한 수준의 정확도를 달성하면서 교육 또는 추론과 관련된 계산 속도를 높이기 위해 단순화된 계산 또는 근사 계산을 사용하는 것입니다.

다음을 포함하여 근사 컴퓨팅을 딥 러닝에 적용할 수 있는 몇 가지 방법이 있습니다.

감소된 정밀도 산술(Reduced-precision arithmetic): 32비트 부동 소수점 숫자의 전체 정밀도를 사용하는 대신 근사 계산에서는 16비트 부동 소수점 또는 고정 소수점 숫자와 같은 감소된 정밀도 산술을 사용할 수 있습니다. 이것은 약간의 정확도 손실을 감수하면서 딥 러닝에 필요한 메모리 대역폭과 계산 리소스를 크게 줄일 수 있습니다.

가지치기(Pruning): 근사 컴퓨팅을 사용하여 심층 신경망에서 중요하지 않은 연결이나 뉴런을 가지치기하여 모델의 크기와 훈련 및 추론에 필요한 계산 리소스를 줄일 수 있습니다. 또한 일반화를 개선하고 모델의 과적합을 줄일 수 있습니다.

양자화(Quantization): 이 기술은 신경망에서 가중치 또는 활성화를 나타내는 데 사용되는 개별 값의 수를 줄이는 것과 관련됩니다. 예를 들어 32비트 부동 소수점 숫자를 사용하는 대신 가중치 및 활성화를 8비트 정수로 양자화할 수 있습니다. 이를 통해 딥 러닝에 필요한 메모리 대역폭과 계산 리소스를 줄이면서 여전히 합리적인 정확도를 달성할 수 있습니다.

전반적으로 근사 컴퓨팅은 CPU, GPU 및 특수 하드웨어 가속기와 같은 다양한 컴퓨팅 플랫폼에서 심층 신경망을 보다 효율적이고 확장 가능하게 구현할 수 있기 때문에 딥 러닝에서 유망한 연구 분야입니다. 그러나 정확도와 성능/에너지 효율성 사이의 균형을 신중하게 유지하고 결과 모델이 의도한 응용 프로그램에 여전히 적합한지 확인하는 것이 중요합니다.

NPU와 GPU의 차이점에 대한 문답

Q1. NPU와 GPU의 차이점을 알려주세요.

A1. NPU와 GPU는 둘 다 특정 유형의 계산을 위해 설계된 특수 프로세서 유형입니다. NPU는 Neural Processing Unit의 약자이고 GPU는 Graphics Processing Unit의 약자입니다. 두 가지 주요 차이점은 다음과 같습니다.

기능: GPU는 주로 그래픽 처리 및 렌더링용으로 설계된 반면 NPU는 딥 러닝 워크로드를 가속화하기 위해 특별히 설계되었습니다.

아키텍처: GPU에는 일반적으로 다양한 유형의 계산에 사용할 수 있는 더 많은 범용 처리 장치가 있으며 NPU는 딥 러닝 알고리즘의 핵심 작업인 행렬 곱셈에 최적화되어 있습니다.

메모리: GPU는 일반적으로 NPU보다 메모리 용량과 대역폭이 더 큽니다. 이는 많은 양의 데이터를 빠르게 처리해야 하는 특정 유형의 애플리케이션에 중요할 수 있습니다.

전력 효율성: NPU는 딥 러닝 워크로드가 계산 집약적일 수 있고 많은 에너지가 필요할 수 있으므로 GPU보다 전력 효율적으로 설계되었습니다.

소프트웨어 호환성: GPU는 훨씬 더 오래 사용되어 왔으며 더 성숙한 소프트웨어 생태계를 가지고 있는 반면, NPU는 여전히 상대적으로 새롭고 소프트웨어 지원이 제한적일 수 있습니다.

전반적으로 NPU와 GPU의 주요 차이점은 NPU는 딥 러닝 워크로드를 가속화하도록 특별히 설계된 반면 GPU는 그래픽 처리 및 기타 다양한 작업에 적합한 범용 프로세서라는 것입니다.

Q2. GPU에서 범용 처리 장치의 사용 사례에 대한 몇 가지 예를 알려주십시오. CUDA 코어가 범용 처리 장치로도 설명될 수 있다는 것을 몰랐습니다.

A2. 확신하는! GPU는 주로 그래픽 처리 및 렌더링에 사용되는 것으로 알려져 있지만 고성능 컴퓨팅이 필요한 다양한 기타 응용 프로그램에도 사용됩니다. 다음은 몇 가지 예입니다.

기계 학습: GPU는 일반적으로 기계 학습 모델의 학습 및 추론을 가속화하는 데 사용됩니다. 대량의 데이터를 처리하고 기존 CPU보다 훨씬 빠르게 신경망에 필요한 행렬 곱셈 및 기타 작업을 수행할 수 있습니다.

과학적 시뮬레이션: GPU는 물리학, 화학, 생물학과 같은 과학 분야에서 시뮬레이션을 가속화하는 데 사용됩니다. 복잡한 물리적 시스템을 시뮬레이션하고 CPU보다 훨씬 효율적으로 대규모 계산을 수행하는 데 사용할 수 있습니다.

암호화폐 채굴: GPU는 채굴 알고리즘에 필요한 복잡한 계산을 수행하여 암호화폐를 채굴하는 데 사용됩니다. Ethereum, Bitcoin 및 Litecoin을 포함한 다양한 암호 화폐를 채굴하는 데 사용할 수 있습니다.

비디오 인코딩: GPU는 매우 계산 집약적인 비디오 인코딩 및 디코딩을 가속화하는 데 사용됩니다. 많은 양의 비디오 데이터를 처리하고 CPU보다 훨씬 빠르게 처리할 수 있습니다.

게임: 물론 GPU는 게임에도 사용됩니다! 고품질 그래픽을 렌더링하고 최신 비디오 게임에서 원활한 게임 플레이를 가능하게 하는 일을 담당합니다.

두 번째 질문과 관련하여 CUDA 코어는 실제로 그래픽 처리를 넘어 광범위한 작업에 사용할 수 있는 범용 처리 장치입니다. 병렬 처리 작업을 가속화하도록 특별히 설계되었으며 다양한 계산을 수행하도록 프로그래밍할 수 있습니다. 실제로 CUDA 프로그래밍 언어 및 툴킷은 기계 학습, 과학 시뮬레이션 및 비디오 처리와 같은 작업에 널리 사용됩니다.

Q3. NPU의 제한된 소프트웨어 생태계에 대해 자세히 알려주십시오. 그렇다면 tensorflow 또는 pytorch와 같은 잘 알려진 프레임워크가 NPU를 지원하지 않는 경우 NPU는 기계 학습에 어떻게 사용됩니까?

A3. NPU는 여전히 상대적으로 새로운 기술이므로 NPU의 소프트웨어 생태계는 GPU만큼 성숙하지 않습니다. TensorFlow, PyTorch 및 MXNet과 같은 인기 있는 기계 학습 프레임워크는 기본적으로 NPU를 지원하지 않지만 NPU를 기계 학습에 사용할 수 있는 몇 가지 방법이 있습니다.

공급업체별 라이브러리: Huawei 및 Cambricon과 같은 일부 NPU 공급업체는 해당 NPU에 최적화된 자체 기계 학습 라이브러리를 개발했습니다. 이러한 라이브러리는 공급업체의 NPU에서 실행할 수 있는 기계 학습 모델을 작성하는 데 사용할 수 있습니다.

컴파일러 기반 최적화: 컴파일러 기반 최적화 도구를 사용하여 머신 러닝 모델을 자동으로 최적화하여 NPU에서 실행할 수 있습니다. 이러한 도구는 모델을 분석하고 NPU의 특정 아키텍처에 최적화된 코드를 생성할 수 있습니다.

프레임워크 확장: TensorFlow 및 PyTorch와 같은 일부 기계 학습 프레임워크에는 NPU에서 실행할 수 있는 확장이 있습니다. 이러한 확장은 이러한 프레임워크의 친숙한 API를 사용하여 기계 학습 모델을 작성하는 동시에 NPU 가속의 이점을 계속 활용할 수 있는 방법을 제공합니다.

NPU 지원 프레임워크로 모델 포팅: 또 다른 옵션은 기계 학습 모델을 NPU를 지원하는 프레임워크로 포팅하는 것입니다. 예를 들어 TensorFlow로 작성된 모델은 Huawei에서 개발한 MindSpore와 같은 NPU 지원 프레임워크로 내보낼 수 있습니다.

NPU를 위한 제한된 소프트웨어 에코시스템으로 인해 머신 러닝에 NPU를 사용하는 것이 어려울 수 있지만 NPU를 머신 러닝 워크플로에 통합할 수 있는 몇 가지 방법이 여전히 있습니다. NPU의 사용이 보다 널리 보급됨에 따라 더 많은 소프트웨어 지원이 제공될 가능성이 높습니다.

Q4. 일반적으로 NPU는 서버에 어떻게 연결됩니까? PCIe 버스 또는 특수 커넥터 기술을 통해 연결됩니까?

A4. 일반적으로 NPU는 고속 직렬 컴퓨터 확장 버스 표준인 PCIe(Peripheral Component Interconnect Express) 인터페이스를 사용하여 서버에 연결됩니다. NPU는 일반적으로 서버 마더보드의 사용 가능한 PCIe 슬롯에 연결되는 확장 카드로 설치됩니다. PCIe 인터페이스는 NPU와 서버의 CPU 및 메모리 간에 고속 데이터 전송을 제공합니다.

일부 공급업체는 특수 커넥터 또는 상호 연결과 같은 NPU에 대한 다른 인터페이스 옵션도 제공할 수 있지만 PCIe는 NPU를 서버에 연결하기 위한 가장 일반적이고 널리 지원되는 인터페이스입니다. PCIe 인터페이스는 NPU에서 처리해야 하는 대량의 데이터에 적합한 고대역폭, 저지연 연결을 제공합니다.

서버에 연결되면 NPU를 사용하여 서버의 CPU에서 특정 유형의 계산을 오프로드하여 CPU가 다른 작업을 수행할 수 있도록 할 수 있습니다. 이는 많은 계산이 필요한 기계 학습 또는 데이터 분석과 같은 특정 유형의 워크로드를 가속화하는 데 도움이 될 수 있습니다.

Q5. 10개의 NPU 공급업체와 그들의 NPU 제품을 인기순으로 나열할 수 있습니까? 목록에서 GPU 공급업체를 제외하세요.

A5. 물론입니다. GPU 공급업체를 제외하는 목록은 다음과 같습니다.

Google: Google의 TPU(Tensor Processing Unit)는 딥 러닝 워크로드에 사용하도록 설계되었습니다. 최신 제품인 TPU v4는 교육 및 추론 워크로드를 위해 설계되었습니다.

Intel: Intel의 Nervana 신경망 프로세서(NNP)는 딥 러닝 워크로드에 사용하도록 설계되었습니다. 최신 제품인 NNP-T1000은 교육용으로 설계되었으며 NNP-I1000은 추론용으로 설계되었습니다.

Qualcomm: Qualcomm의 AI 엔진에는 딥 러닝을 포함한 기계 학습 워크로드를 실행하기 위한 하드웨어 가속기가 포함되어 있습니다. 최신 제품인 AI Engine 880은 모바일 장치용으로 설계되었습니다.

Huawei: Huawei의 NPU Ascend 시리즈에는 기계 학습 워크로드를 실행하기 위한 하드웨어가 포함되어 있습니다. 최신 제품인 Ascend 910은 데이터 센터 및 클라우드 컴퓨팅에서 사용하도록 설계되었습니다.

Amazon: Amazon의 Inferentia는 클라우드 컴퓨팅 환경에서 사용하도록 설계된 NPU입니다. 최신 제품인 Inferentia 2는 기계 학습 및 추론 워크로드를 실행하도록 설계되었습니다.

Xilinx: Xilinx의 Alveo 가속기 카드 시리즈에는 기계 학습 및 데이터 분석을 위한 하드웨어가 포함되어 있습니다. 최신 제품인 Alveo U50은 데이터 센터 및 클라우드 컴퓨팅 환경에서 워크로드를 가속화하도록 설계되었습니다.

Habana Labs: Habana Labs는 Gaudi 및 Goya를 비롯한 여러 NPU 제품을 생산하는 이스라엘 회사입니다. 이러한 NPU는 클라우드 컴퓨팅, 데이터 센터 및 에지 컴퓨팅에서 사용하도록 설계되었습니다.

Cambricon: Cambricon은 Cambricon 1M, Cambricon 1H 및 Cambricon 1H2를 비롯한 여러 NPU 제품을 생산하는 중국 회사입니다. 이러한 NPU는 클라우드 컴퓨팅, 데이터 센터 및 에지 컴퓨팅에서 사용하도록 설계되었습니다.

Graphcore: Graphcore의 IPU(Intelligence Processing Unit)는 딥 러닝 애플리케이션에 사용하도록 설계되었습니다. 최신 제품인 IPU-M2000은 교육 및 추론 워크로드 모두를 위해 설계되었습니다.

Tenstorrent: Tenstorrent의 Grayskull 아키텍처는 딥 러닝 및 머신 러닝 워크로드에 사용하도록 설계되었습니다. 최신 제품인 Tensix 칩은 훈련과 추론을 위해 설계되었습니다.

다시 말하지만, 인기도는 주관적일 수 있으며 특정 산업이나 사용 사례에 따라 달라질 수 있다는 점에 유의할 가치가 있습니다. 그럼에도 불구하고 이러한 NPU 공급업체와 해당 제품은 모두 업계의 핵심 업체로 인식되고 있습니다.

Q6. Habana Labs Gaudi에서 ML/DL에 어떤 종류의 소프트웨어 환경을 사용할 수 있습니까?

A6. Habana Labs Gaudi NPU는 ML/DL 워크로드를 위한 다양한 소프트웨어 환경에서 작동하도록 설계되었습니다. 여기 몇 가지 예가 있어요.

TensorFlow: Habana Labs는 Gaudi에서 실행하도록 최적화된 TensorFlow-Habana라는 맞춤형 TensorFlow 배포판을 제공합니다. 이 배포판에는 컨볼루션 및 순환 신경망과 같은 널리 사용되는 ML/DL 작업에 대한 지원이 포함되며 Gaudi의 아키텍처를 최대한 활용하도록 설계되었습니다.

PyTorch: Gaudi는 인기 있는 오픈 소스 ML/DL 프레임워크인 PyTorch도 지원합니다. Habana Labs는 Gaudi에 최적화된 HabanaPytorch라는 맞춤형 PyTorch 확장 기능을 제공하며 회선 및 배치 정규화와 같은 널리 사용되는 작업에 대한 지원을 포함합니다.

ONNX: Gaudi는 ML/DL 모델을 나타내는 개방형 표준인 ONNX(Open Neural Network Exchange) 형식도 지원합니다. ONNX 모델은 Gaudi로 가져와 고성능으로 실행할 수 있습니다.

Habana SynapseAI: Habana Labs는 SynapseAI라는 자체 소프트웨어 개발 키트도 제공합니다. 여기에는 ML/DL 개발자를 위한 고급 API 세트가 포함되어 있습니다. 이러한 API를 통해 개발자는 Gaudi에서 모델을 쉽게 생성, 교육 및 배포하고 NPU의 전체 기능을 활용할 수 있습니다.

전반적으로 Habana Labs는 개발자가 Gaudi NPU의 성능과 기능을 쉽게 활용할 수 있도록 설계된 다양한 소프트웨어 도구와 API를 제공합니다.

Q7. Habana Labs Gaudi는 어떤 OS에서 지원되나요?

A7. Habana Labs Gaudi NPU는 다음을 포함한 여러 운영 체제에서 지원됩니다.

Ubuntu: Habana Labs는 Ubuntu 18.04 및 20.04 LTS에서 Gaudi용 드라이버, 라이브러리 및 소프트웨어 패키지를 제공합니다. 이러한 패키지는 시스템의 패키지 소스에 추가할 수 있는 Habana Labs APT 저장소를 통해 사용할 수 있습니다.

RHEL(Red Hat Enterprise Linux): Habana Labs는 RHEL 8.4에서 Gaudi용 드라이버 및 소프트웨어 패키지를 제공합니다. 이러한 패키지는 시스템의 패키지 소스에 추가할 수 있는 Habana Labs YUM 저장소를 통해 사용할 수 있습니다.

CentOS: Gaudi는 RHEL과 동일한 패키지 및 리포지토리를 사용하여 CentOS 8.4에서도 지원됩니다.

SUSE Linux Enterprise Server(SLES): Habana Labs는 SLES 15 SP3에서 Gaudi용 드라이버 및 소프트웨어 패키지를 제공합니다. 이러한 패키지는 Habana Labs SUSE 리포지토리를 통해 사용할 수 있습니다.

Gaudi를 사용하려면 시스템이 지원되는 CPU, 메모리 및 마더보드를 포함하여 특정 하드웨어 요구 사항을 충족해야 합니다. Habana Labs는 웹 사이트에서 Gaudi와 호환되는 인증 시스템 목록을 제공합니다.