이번 포스팅에서는 GPU에서 매우 큰 matrix를 효율적으로 연산하게 해주는 최적화 기법인 matrix tiling에 대해서 알아보겠습니다. 이는 matrix-matrix multiplication의 효율을 높여주기 위해 사용됩니다. 우선 matrix tiling을 해주기 위해서는 input matrix 2개와 result matrix를 tiling해주어야 합니다. 그리고 난 뒤에는 이들을 tile단위로 multiplication을 해주어 result matrix에 저장해줍니다. 이걸 열과 행단위로 matrix 전체를 계산해주면 됩니다. 이에 대한 pseudo-code는 다음과 같습니다. 이렇게 tiled matrix multiplication을 해주면 전체 matrix가 GPU memory에 fit하..