❌

241130_1241_이기종 시스템 아키텍처(HSA, Heterogeneous System Architecture)

헤테로지니어스 컴퓨팅(Heterogeneous Computing)은 다양한 종류의 프로세서와 하드웨어 가속기를 조합하여 작업을 처리하는 컴퓨팅 방식

•

전통적인 CPU와 GPU, TPU, FPGA 등 서로 다른 아키텍처를 가진 장치를 결합하여 사용

•

각 하드웨어의 강점을 활용하여 성능과 에너지 효율을 극대화

[특징]

다양한 프로세서 사용

•

CPU: 일반적인 계산과 제어 작업에 적합

•

GPU: 병렬 처리가 요구되는 대규모 데이터 작업에 최적화

•

TPU/FPGA: 딥러닝 및 특정 작업에 특화된 성능 제공

작업 분할 및 최적화

•

작업을 프로세서의 특성에 따라 분리하여 할당

•

데이터 흐름과 연산의 병렬성을 극대화

소프트웨어 지원

•

OpenCL, CUDA, ROCm과 같은 라이브러리 및 API를 통해 이질적인 하드웨어 간의 통합 작업 지원

•

분산 추론과 같은 AI 작업에서 사용

[장점]

성능 향상

•

특정 하드웨어의 장점을 최대한 활용하여 연산 속도 증가

에너지 효율 개선

•

작업에 적합한 하드웨어 선택으로 전력 소비 최적화

확장성

•

다양한 하드웨어 조합으로 여러 애플리케이션에 대응 가능

[사용 사례]

AI/딥러닝

•

추론 속도 향상 및 실시간 처리 요구사항 충족

고성능 컴퓨팅(HPC)

•

대규모 데이터 분석 및 시뮬레이션

IoT 및 엣지 컴퓨팅

•

제한된 전력 및 자원 환경에서 효율적인 계산 수행

AI 분산 추론에서 헤테로지니어스 컴퓨팅은 각 노드에 적합한 하드웨어를 배치하여 작업 부하를 최적화하고 시스템의 처리 성능과 효율성을 극대화하는 데 중요한 역할을 함.

코드로 이해해보자,

•

헤테로지니어스 컴퓨팅의 코드 예시를 Python과 CUDA를 사용하여 간단하게 구현할 수 있음. 아래는 CPU와 GPU를 병렬로 활용하여 행렬 덧셈을 수행하는 예제

CPU와 GPU를 활용한 병렬 연산 예시

import numpy as np
from numba import cuda, jit
import time

# CPU에서 실행할 함수
@jit(nopython=True)
def cpu_matrix_addition(A, B):
    return A + B

# GPU에서 실행할 커널 함수
@cuda.jit
def gpu_matrix_addition(A, B, C):
    x, y = cuda.grid(2)
    if x < C.shape[0] and y < C.shape[1]:
        C[x, y] = A[x, y] + B[x, y]

# 행렬 크기 설정
N = 1024
A = np.random.rand(N, N).astype(np.float32)
B = np.random.rand(N, N).astype(np.float32)
C_cpu = np.zeros((N, N), dtype=np.float32)
C_gpu = np.zeros((N, N), dtype=np.float32)

# CPU에서 연산
start = time.time()
C_cpu = cpu_matrix_addition(A, B)
end = time.time()
print(f"CPU Time: {end - start:.4f} seconds")

# GPU에서 연산
threads_per_block = (16, 16)
blocks_per_grid_x = (A.shape[0] + threads_per_block[0] - 1) // threads_per_block[0]
blocks_per_grid_y = (A.shape[1] + threads_per_block[1] - 1) // threads_per_block[1]
blocks_per_grid = (blocks_per_grid_x, blocks_per_grid_y)

start = time.time()
d_A = cuda.to_device(A)
d_B = cuda.to_device(B)
d_C = cuda.device_array((N, N), dtype=np.float32)

gpu_matrix_addition[blocks_per_grid, threads_per_block](d_A, d_B, d_C)
C_gpu = d_C.copy_to_host()
end = time.time()
print(f"GPU Time: {end - start:.4f} seconds")

# 결과 비교
assert np.allclose(C_cpu, C_gpu), "Results do not match!"
print("CPU and GPU results match!")
Python
복사

코드 설명

CPU 연산

•

@jit(nopython=True)를 사용하여 CPU에서 빠르게 동작하도록 최적화.

•

NumPy 배열 연산을 통해 빠르게 수행.

GPU 연산

•

Numba의 CUDA 확장을 사용하여 GPU에서 병렬 연산 수행.

•

cuda.grid(2)로 2D 인덱스를 생성하여 각 스레드가 작업할 배열 요소를 결정.

•

cuda.to_device()와 device_array()로 데이터를 GPU 메모리로 이동.

성능 비교

•

time 라이브러리를 사용하여 CPU와 GPU의 실행 시간을 비교.

•

GPU는 대규모 데이터 병렬 처리에 뛰어난 성능을 발휘.

응용

이 구조는 AI 추론(예: 딥러닝 모델의 일부 연산을 GPU에서 실행)이나 IoT 디바이스에서 CPU와 FPGA를 조합한 연산에도 적용 가능. 필요한 라이브러리(OpenCL, TensorRT 등)를 사용하면 다른 하드웨어 가속기에도 확장 가능.

안녕하세요

•

한국전자기술연구원 김영광입니다.

•

관련 기술 문의와 R&D 공동 연구 사업 관련 문의는 “glory@keti.re.kr”로 연락 부탁드립니다.

Hello

•

I'm Yeonggwang Kim from the Korea Electronics Research Institute.

•

For technical and business inquiries, please contact me at “glory@keti.re.kr”

GloryKim - Overview

Kubeflow, Tensorflow, Front-End, IoTivity, Go, Microservice Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Mon Wed Fri Created 14 commits in 4 repositories Opened their first pull request on GitHub in a private repository First pull request Opened 1 other pull request in 1 repository Reviewed 1 pull request in 1 repository GloryKim/Go 1 pull request Opened their first issue on GitHub in a private repository First issue 246 contributions in private repositories Jan 1 - Jan 26 You can't perform that action at this time.

https://github.com/GloryKim

Glory Kim

본 채널은 영상을 통한 수익창출을 하지않고 있음을 신고합니다. 본 채널은 제가 재직중인 직장에서 수행중인 프로젝트에 대한 홍보 및 외부 미팅시 참고자료로 사용하는 채널입니다. 본 영상을 통해서 기술이전 및 기술문의는 glory@keti.re.kr로 문의 부탁드립니다. 감사합니다.

https://www.youtube.com/@GloryKim-sw3mw