The last

e22344f7 · abdullh.alsoleman · 092e15e4 · e22344f7
Commit e22344f7 authored Jan 31, 2024 by abdullh.alsoleman
Show whitespace changes
Inline Side-by-side

Showing with 62 additions and 0 deletions

CUDA.c Qestion2_CUDA/CUDA.c +62 -0

No files found.
--- a/Qestion2_CUDA/CUDA.c
+++ b/Qestion2_CUDA/CUDA.c
+#include <stdio.h>
+#define N 10000
+__global__ void vector_add(float *out, float *a, float *b, int n) {
+    int tid = blockIdx.x * blockDim.x + threadIdx.x;
+    if (tid < n) {
+        out[tid] = a[tid] + b[tid];
+    }
+}
+int main() {
+    float *a, *b, *out;
+    float *d_a, *d_b, *d_out;
+    // Allocate host memory
+    a   = (float*)malloc(sizeof(float) * N);
+    b   = (float*)malloc(sizeof(float) * N);
+    out = (float*)malloc(sizeof(float) * N);
+    // Initialize host arrays
+    for(int i = 0; i < N; i++){
+        a[i] = i+1;
+        b[i] = 26;
+    }
+    // Allocate device memory
+    cudaMalloc((void**)&d_a, sizeof(float) * N);
+    cudaMalloc((void**)&d_b, sizeof(float) * N);
+    cudaMalloc((void**)&d_out, sizeof(float) * N);
+    // Transfer data from host to device memory
+    cudaMemcpy(d_a, a, sizeof(float) * N, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_b, b, sizeof(float) * N, cudaMemcpyHostToDevice);
+    // Adjust the block and grid dimensions for better parallelization
+    int block_size = 1024// You can experiment with different block sizes
+    int grid_size = (N + block_size - 1) / block_size;
+    // Executing kernel with multiple blocks
+    vector_add<<<grid_size, block_size>>>(d_out, d_a, d_b, N);
+    // Transfer data back to host memory
+    cudaMemcpy(out, d_out, sizeof(float) * N, cudaMemcpyDeviceToHost);
+    // Verification
+    // for(int i = 0; i < N; i++){
+    //     printf("%f\n", out[i]);
+    // }
+    // Deallocate device memory
+    cudaFree(d_a);
+    cudaFree(d_b);
+    cudaFree(d_out);
+    // Deallocate host memory
+    free(a);
+    free(b);
+    free(out);
+    return 0;
+}