CUDA: fix FA tg at long context for CC >= 8.9 (llama/13852)

2025-06-18 23:57:09 +02:00 · 2025-05-28 13:33:37 +02:00 · 2025-05-28 13:33:37 +02:00 · 9a500394ad
commit 9a500394ad
parent 0035b8527c
1 changed files with 2 additions and 2 deletions
--- a/ggml/src/ggml-cuda/fattn-common.cuh
+++ b/ggml/src/ggml-cuda/fattn-common.cuh
@ -623,8 +623,8 @@ static __global__ void flash_attn_combine_results(
    __builtin_assume(tid < D);
    extern __shared__ float2 meta[];
-    if (tid < 2*parallel_blocks) {
+    for (int i = tid; i < 2*parallel_blocks; i += D) {
-        ((float *) meta)[threadIdx.x] = ((const float *)VKQ_meta) [blockIdx.z*(2*parallel_blocks) + tid];
+        ((float *) meta)[i] = ((const float *)VKQ_meta) [blockIdx.z*(2*parallel_blocks) + i];
    }
    __syncthreads();