반응형

컴퓨터 46

[ACA] Instruction-level Parallelism (2)

Instruction-level Parallelism (2) Dynamic Scheduling Limitations of simple techniques A major limitation issue and execution in-order instruction issue and execution 명령어가 프로그램 순서에 따라 issue되고 명령어가 파이프라인에서 stall되면 이후 명령어를 처리할 수 없다. 명령어 j가 long-running 명령어 i에 종속성을 가지면, 명령어 j 이후에 실행될 모든 명령어들은 i가 끝나가 j가 실행될 때까지 stall돼있어야 한다. Simple techniques은 약간의 data dependence stalls만 제거할 수 있다. 몇몇 dependence는 런타임까..

[ACA] Instruction-level Parallelism (1)

Instruction-level Parallelism (1) Concepts and Challenges ILP Basics Instruction level parallelism (ILP) 명령어들의 실행을 오버랩하는 것. Goal: minimize CPI (maxmize IPC) Challenges Challenges: 모든 명령어가 병렬로 실행될 수 없다. 파이프라이닝된 프로세서에서 CPI = ideal CPI + (Structural stalls + Data hazard stalls + Control stalls) 종속성이 있는 명령어는 동시에 실행될 수 없다. 종속성의 세가지 종류 Data dependences Name dependences Control dependences Data Depende..

[MPC] 3. CUDA Thread (1)

3. CUDA Thread (1) 3.1 What is Thread? 3.1.1 Process and Thread Process 컴퓨터 프로그램을 실행했을 때, 실행된 프로그램의 인스턴스 프로그램 코드 + 실행 상태 (다음 명령어의 주소, 레지스터 상태, 메모리 컨텐츠) 스토리지 (프로그램) > 메모리 (여러 프로세스 생성) > PC는 프로세스에서 명령어 주소를 읽어오고 데이터는 컴퓨팅 엔진과 레지스터, 메모리 사이에서 주고 받는다. Thread 프로세스에 대한 실행 흐름 (execution flow) 실행 상태 (다음 명령어의 주소, 레지스터 상태, 스택) 모든 스레드는 프로그램 코드를 공유한다. CPU의 멀티코어와 달리 GPU의 SM은 각 코어가 레지스터만 갖고 PC를 공유한다. SM의 각 코어는 동..

[MPC] 2. Fundamentals of CUDA (2)

2. Fundamentals of CUDA (2) 2.1 A Vector Addition Kernel Review: Data-level Parallelism 서로 다른 데이터에 동일한 명령어 흐름을 병렬적으로 실행하는 것 Image processing: 이미지 내의 독립적인 픽셀을 다룬다. Molecular dynamics: 여러 원자간의 상호작용에 대해 시뮬레이션한다. Airline scheduling: 수천개의 비행기, 승무원, 게이트들을 다뤄야한다. 2.1.1 Vector Addition Scalar vs Vector Scalar: a single number Vector: an array of numbers Vector: 1D array로 표현되는 것 Vector addition: 1d array..

[MPC] 1. Fundamentals of CUDA (1)

1. Fundamentals of CUDA 1.1 History 1.1.1 3D Graphics Pipeline 3D 이미지를 만들어낼 때 다음과 같은 단계를 거친다. 3D mesh를 vertex processing을 통해 triangles in screen space를 만든다. Rasterization을 통해 여러 개의 triangles을 픽셀로 만든다. Raster Operations를 통해 Texture filtering을 하여 각 픽셀에 색상을 입힌다. Fragment processing을 통해 3D 이미지를 출력한다. 1세대 모든 스테이지를 하드웨어로 구현했다. 고정된 데이터 흐름을 가진다. 2세대 하드웨어가 특정 기능을 하지만 어느정도 설정할 수 있었다. -> 특정 모드를 지원 시간이 지남에 ..

[밑바닥부터 시작하는 딥러닝3] 딥러닝 프레임워크의 동작 방식

딥러닝 프레임워크의 동작 방식 딥러닝 프레임워크는 동작 방식에 따라 '정적 계산 그래프' 혹은 '동적 계산 그래프' 방식으로 나뉜다. 정적 계산 그래프 방식 (Define-and-Run) 계산 그래프를 정의한 뒤 데이터를 흘려보낸다. 즉, 계산 그래프 정의는 사용자가 제공하고, 프레임워크는 주어진 그래프를 컴퓨터가 처리할 수 있는 형태로 변환하여 데이터를 흘려보낸다. # 계산 그래프 정의 a = Variable('a') b = Variable('b') c = a * b d = c + Constant(1) # 계산 그래프 컴파일 f = compile(d) # 데이터 흘려보내기 d = f(a=np.array(2), b=np.array(3)) 계산 그래..

컴퓨터/밑딥3 2020.12.18

[MPC] 0. GPU Architecture

0. GPU Arhitecture 0.1 Parallel Execution in Modern Processors 0.1.1 Pre multi-core era 멀티코어 프로세서를 만들기 전에는 대부분이 슈퍼스칼라 형태였다. 단일 명령어를 빠르게 실행시키기 위해 여러 로직을 넣어주었다. (ex: Out of order control logic, Fancy branch predictor, Memory prefecher) 무어의 법칙에 따라 많은 트랜지스터를 사용할 수 있게 되어, 캐시를 키우고 좋은 OO logic, branch predictor를 추가시켰다. -> 근본적으로 한계가 있었다. Power wall: clock frequency를 높임 -> power consumption 증가 -> 온도 증가 D..

[밑바닥부터 시작하는 딥러닝3] 연산자 오버로드

20. 연산자 오버로드 (1) 20.2 연산자 오버로드 곱셈/덧셈의 특수 메소드를 사용하여 연산자 오버로드를 했다. # Variable 간 *를 사용하면 1) __mul__ 메소드가 호출, 2) 그 안의 mul() 함수를 호출 def __mul__(self, other): # a * b 연산시 a는 self, b는 other에 대응 return mul(self, other) def __add__(self, other): return add(self, other) # 파이썬에서는 함수도 객체이므로 함수 자체를 할당하여 처리하면 다음과 같이 작성할 수 있다. Variable.__mul__ = mul Variable.__add__ = add 21. 연산자 오버로드 (2) 21.1 ndarray와 함께 사용하기..

컴퓨터/밑딥3 2020.12.14

[밑바닥부터 시작하는 딥러닝3] 메모리 관리

17. 메모리 관리와 순환 참조 17.1 메모리 관리 파이썬은 불필요한 객체를 인터프리터가 제거해준다. 코드를 제대로 작성하지 않은 경우 '메모리 누수'나 '메모리 부족'등의 문제가 발생할 수 있다. 파이썬은 두 가지 방식으로 메모리를 관리한다. 참조 카운트 방식의 메모리 관리 모든 객체는 참조 카운트가 0인 상태로 생성 다른 객체가 참조할 때마다 1씩 증가, 참조가 끊길 때마다 1만큼 감소, 0이 되면 파이썬 인터프리터가 회수 참조 카운트가 증가하는 경우 대입 연산자 사용할 때 함수의 인수로 전달할 때 컨테이너 타입 객체(리스트, 튜플, 클래스 등)에 추가할 때 참조 카운트 방식은 '순환 참조'를 해결할 수 없음 -> Garbage Collection으로 해결..

컴퓨터/밑딥3 2020.12.13
반응형