본문 바로가기

Cuda

C++ Cuda GPU에서의 더하기 연산

C++ Cuda GPU 에서의 더하기 연산

__global__ 이 붙은 함수 내부는 gpu 단에서 돌아가는 연산이다.

 

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
 
#include <stdio.h>
#include <stdlib.h>
#include <cstring>
#include <time.h>
 
 
void sum_array_cpu(int* a, int* b, int* c, int size)
{
    for (int i = 0; i < size; i++)
    {
            c[i] = a[i] + b[i];
    }
}
 
__global__ void sum_array_gpu(int* a, int* b, int * c, int size)
{
    int gid = blockIdx.x * blockDim.x + threadIdx.x;
 
    if (gid < size)
    {
        c[gid] = a[gid] + b[gid];
    }
}
 
void compare_arrays(int* a, int* b, int size)
{
    for (int i = 0; i < size; i++)
    {
        if (a[i] != b[i])
        {
            printf("a[i] : %d, b[i] : %d\n", a[i], b[i]);
            printf("다른 배열!\n");
        return;
        }
    }
 
    printf("같은 배열! \n");
}
 
int main()
{
    int size = 10000;
    int block_size = 128;
 
    int NO_BYTES = size * sizeof(int);
    int* h_a, * h_b, * gpu_results, *h_c;
    h_a = (int*)malloc(NO_BYTES);
    h_b = (int*)malloc(NO_BYTES);
    h_c = (int*)malloc(NO_BYTES);
    gpu_results = (int*)malloc(NO_BYTES);
 
    time_t t;
    srand((unsigned)time(&t));
    for (int i = 0; i < size; i++)
    {
        h_a[i] = (int)(rand() & 0xFF);
 
    }
 
    for (int i = 0; i < size; i++)
    {
        h_b[i] = (int)(rand() & 0xFF);
    }
 
    memset(h_c, 0, NO_BYTES);
    memset(gpu_results, 0, NO_BYTES);
    
 
    int* d_a, * d_b, * d_c;
    cudaMalloc((int**)&d_a, NO_BYTES);
    cudaMalloc((int**)&d_b, NO_BYTES);
    cudaMalloc((int**)&d_c, NO_BYTES);
 
    cudaMemcpy(d_a, h_a, NO_BYTES, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, h_b, NO_BYTES, cudaMemcpyHostToDevice);
 
    dim3 block(block_size);
    dim3 grid(size / block.x + 1);
    
    sum_array_gpu << <grid, block >> > (d_a, d_b, d_c, size);
    sum_array_cpu(h_a, h_b, h_c, size);
    cudaDeviceSynchronize();
    
    cudaMemcpy(gpu_results, d_c, NO_BYTES, cudaMemcpyDeviceToHost);
 
    compare_arrays(gpu_results, h_c, size);
 
 
    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
 
    free(h_a);
    free(h_b);
    free(h_c);
    free(gpu_results);
    return 0;
}