Add b200 tunings for scan.exclusive.sum #3559

bernhardmgruber · 2025-01-28T07:56:56Z

Perf diff for scan on B200 before and after this PR

github-actions · 2025-01-28T12:44:20Z

🟨 CI finished in 4h 07m: Pass: 96%/90 | Total: 2d 14h | Avg: 41m 55s | Max: 1h 12m | Hits: 262%/10928

🟨 cub: Pass: 95%/44 | Total: 1d 14h | Avg: 52m 07s | Max: 1h 12m | Hits: 339%/3552

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  95%/42  | Total:  1d 12h | Avg: 51m 51s | Max:  1h 12m | Hits: 339%/3552  
  🟩 arm64              Pass: 100%/2   | Total:  1h 55m | Avg: 57m 45s | Max: 58m 26s
🔍 ctk: 12.6 🔍
  🟩 12.0               Pass: 100%/5   | Total:  5h 01m | Avg:  1h 00m | Max:  1h 02m | Hits: 339%/888   
  🟩 12.5               Pass: 100%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 11m
  🔍 12.6               Pass:  94%/37  | Total:  1d 06h | Avg: 49m 58s | Max:  1h 12m | Hits: 339%/2664  
🔍 cudacxx: nvcc12.6 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  1h 55m | Avg: 57m 30s | Max: 58m 04s
  🟩 nvcc12.0           Pass: 100%/5   | Total:  5h 01m | Avg:  1h 00m | Max:  1h 02m | Hits: 339%/888   
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 11m
  🔍 nvcc12.6           Pass:  94%/35  | Total:  1d 04h | Avg: 49m 32s | Max:  1h 12m | Hits: 339%/2664  
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  1h 55m | Avg: 57m 30s | Max: 58m 04s
  🔍 nvcc               Pass:  95%/42  | Total:  1d 12h | Avg: 51m 52s | Max:  1h 12m | Hits: 339%/3552  
🔍 cxx: GCC13 🔍
  🟩 Clang14            Pass: 100%/4   | Total:  3h 48m | Avg: 57m 01s | Max:  1h 02m
  🟩 Clang15            Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 07m
  🟩 Clang16            Pass: 100%/2   | Total:  1h 51m | Avg: 55m 45s | Max: 57m 45s
  🟩 Clang17            Pass: 100%/2   | Total:  1h 59m | Avg: 59m 45s | Max:  1h 00m
  🟩 Clang18            Pass: 100%/7   | Total:  5h 49m | Avg: 49m 56s | Max: 58m 04s
  🟩 GCC7               Pass: 100%/2   | Total:  1h 57m | Avg: 58m 42s | Max:  1h 02m
  🟩 GCC8               Pass: 100%/1   | Total: 54m 05s | Avg: 54m 05s | Max: 54m 05s
  🟩 GCC9               Pass: 100%/2   | Total:  1h 52m | Avg: 56m 15s | Max: 57m 16s
  🟩 GCC10              Pass: 100%/2   | Total:  1h 58m | Avg: 59m 08s | Max: 59m 53s
  🟩 GCC11              Pass: 100%/2   | Total:  1h 54m | Avg: 57m 13s | Max: 58m 03s
  🟩 GCC12              Pass: 100%/4   | Total:  2h 46m | Avg: 41m 43s | Max: 59m 48s
  🔍 GCC13              Pass:  75%/8   | Total:  4h 22m | Avg: 32m 46s | Max:  1h 02m
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 07m | Avg:  1h 03m | Max:  1h 06m | Hits: 339%/1776  
  🟩 MSVC14.39          Pass: 100%/2   | Total:  2h 18m | Avg:  1h 09m | Max:  1h 12m | Hits: 339%/1776  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 11m
🔍 cxx_family: GCC 🔍
  🟩 Clang              Pass: 100%/17  | Total: 15h 38m | Avg: 55m 12s | Max:  1h 07m
  🔍 GCC                Pass:  90%/21  | Total: 15h 45m | Avg: 45m 02s | Max:  1h 02m
  🟩 MSVC               Pass: 100%/4   | Total:  4h 26m | Avg:  1h 06m | Max:  1h 12m | Hits: 339%/3552  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 11m
🔍 gpu: v100 🔍
  🟩 h100               Pass: 100%/2   | Total: 48m 56s | Avg: 24m 28s | Max: 26m 25s
  🔍 v100               Pass:  95%/42  | Total:  1d 13h | Avg: 53m 26s | Max:  1h 12m | Hits: 339%/3552  
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 19h 57m | Avg: 59m 52s | Max:  1h 12m | Hits: 340%/2664  
  🔍 20                 Pass:  91%/24  | Total: 18h 16m | Avg: 45m 40s | Max:  1h 10m | Hits: 338%/888   
🟨 jobs
  🟩 Build              Pass: 100%/37  | Total:  1d 11h | Avg: 58m 03s | Max:  1h 12m | Hits: 339%/3552  
  🟥 DeviceLaunch       Pass:   0%/1   | Total:  8m 58s | Avg:  8m 58s | Max:  8m 58s
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 00s | Avg: 16m 00s | Max: 16m 00s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 15m | Avg: 25m 19s | Max: 30m 10s
  🟨 TestGPU            Pass:  50%/2   | Total: 44m 32s | Avg: 22m 16s | Max: 36m 04s
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 48m 56s | Avg: 24m 28s | Max: 26m 25s
  🟩 90a                Pass: 100%/1   | Total: 24m 46s | Avg: 24m 46s | Max: 24m 46s

🟨 thrust: Pass: 97%/43 | Total: 23h 42m | Avg: 33m 04s | Max: 1h 06m | Hits: 224%/7376

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  97%/41  | Total: 22h 45m | Avg: 33m 17s | Max:  1h 06m | Hits: 224%/7376  
  🟩 arm64              Pass: 100%/2   | Total: 57m 03s | Avg: 28m 31s | Max: 30m 11s
🔍 ctk: 12.6 🔍
  🟩 12.0               Pass: 100%/5   | Total:  3h 05m | Avg: 37m 04s | Max: 53m 52s | Hits: 223%/1844  
  🟩 12.5               Pass: 100%/2   | Total:  1h 45m | Avg: 52m 54s | Max: 53m 23s
  🔍 12.6               Pass:  97%/36  | Total: 18h 51m | Avg: 31m 25s | Max:  1h 06m | Hits: 224%/5532  
🔍 cudacxx: nvcc12.6 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 54m 23s | Avg: 27m 11s | Max: 27m 55s
  🟩 nvcc12.0           Pass: 100%/5   | Total:  3h 05m | Avg: 37m 04s | Max: 53m 52s | Hits: 223%/1844  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 45m | Avg: 52m 54s | Max: 53m 23s
  🔍 nvcc12.6           Pass:  97%/34  | Total: 17h 56m | Avg: 31m 40s | Max:  1h 06m | Hits: 224%/5532  
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total: 54m 23s | Avg: 27m 11s | Max: 27m 55s
  🔍 nvcc               Pass:  97%/41  | Total: 22h 47m | Avg: 33m 21s | Max:  1h 06m | Hits: 224%/7376  
🔍 cxx: MSVC14.39 🔍
  🟩 Clang14            Pass: 100%/4   | Total:  2h 02m | Avg: 30m 35s | Max: 33m 16s
  🟩 Clang15            Pass: 100%/2   | Total:  1h 03m | Avg: 31m 57s | Max: 33m 33s
  🟩 Clang16            Pass: 100%/2   | Total:  1h 04m | Avg: 32m 19s | Max: 32m 46s
  🟩 Clang17            Pass: 100%/2   | Total:  1h 05m | Avg: 32m 42s | Max: 33m 24s
  🟩 Clang18            Pass: 100%/7   | Total:  2h 45m | Avg: 23m 34s | Max: 33m 10s
  🟩 GCC7               Pass: 100%/2   | Total:  1h 05m | Avg: 32m 56s | Max: 34m 45s
  🟩 GCC8               Pass: 100%/1   | Total: 33m 08s | Avg: 33m 08s | Max: 33m 08s
  🟩 GCC9               Pass: 100%/2   | Total:  1h 07m | Avg: 33m 46s | Max: 34m 26s
  🟩 GCC10              Pass: 100%/2   | Total:  1h 06m | Avg: 33m 13s | Max: 34m 36s
  🟩 GCC11              Pass: 100%/2   | Total:  1h 08m | Avg: 34m 21s | Max: 36m 02s
  🟩 GCC12              Pass: 100%/2   | Total:  1h 10m | Avg: 35m 27s | Max: 36m 01s
  🟩 GCC13              Pass: 100%/8   | Total:  3h 16m | Avg: 24m 37s | Max: 36m 15s
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 48m | Avg: 54m 12s | Max: 54m 32s | Hits: 223%/3688  
  🔍 MSVC14.39          Pass:  66%/3   | Total:  2h 37m | Avg: 52m 23s | Max:  1h 06m | Hits: 225%/3688  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 45m | Avg: 52m 54s | Max: 53m 23s
🔍 cxx_family: MSVC 🔍
  🟩 Clang              Pass: 100%/17  | Total:  8h 01m | Avg: 28m 18s | Max: 33m 33s
  🟩 GCC                Pass: 100%/19  | Total:  9h 29m | Avg: 29m 58s | Max: 36m 15s
  🔍 MSVC               Pass:  80%/5   | Total:  4h 25m | Avg: 53m 07s | Max:  1h 06m | Hits: 224%/7376  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 45m | Avg: 52m 54s | Max: 53m 23s
🔍 jobs: TestCPU 🔍
  🟩 Build              Pass: 100%/37  | Total: 22h 02m | Avg: 35m 43s | Max:  1h 06m | Hits: 224%/7376  
  🔍 TestCPU            Pass:  66%/3   | Total: 47m 59s | Avg: 15m 59s | Max: 32m 02s
  🟩 TestGPU            Pass: 100%/3   | Total: 52m 18s | Avg: 17m 26s | Max: 24m 43s
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 12h 27m | Avg: 37m 21s | Max: 58m 14s | Hits: 225%/5532  
  🔍 20                 Pass:  95%/21  | Total: 10h 22m | Avg: 29m 39s | Max:  1h 06m | Hits: 223%/1844  
🟨 gpu
  🟨 v100               Pass:  97%/43  | Total: 23h 42m | Avg: 33m 04s | Max:  1h 06m | Hits: 224%/7376  
🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 52m 23s | Avg: 26m 11s | Max: 27m 40s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total: 19m 03s | Avg: 19m 03s | Max: 19m 03s

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 51s | Avg: 5m 25s | Max: 8m 34s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  8m 34s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 17s | Avg:  2m 17s | Max:  2m 17s
  🟩 Test               Pass: 100%/1   | Total:  8m 34s | Avg:  8m 34s | Max:  8m 34s

🟩 python: Pass: 100%/1 | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
9	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-01-28T16:22:06Z

🟩 CI finished in 2h 30m: Pass: 100%/89 | Total: 15h 26m | Avg: 10m 24s | Max: 57m 52s | Hits: 422%/10928

🟩 cub: Pass: 100%/44 | Total: 7h 59m | Avg: 10m 53s | Max: 32m 44s | Hits: 540%/3552

🟩 cpu
  🟩 amd64              Pass: 100%/42  | Total:  7h 48m | Avg: 11m 09s | Max: 32m 44s | Hits: 540%/3552  
  🟩 arm64              Pass: 100%/2   | Total: 10m 34s | Avg:  5m 17s | Max:  5m 34s
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 46m 47s | Avg:  9m 21s | Max: 24m 18s | Hits: 540%/888   
  🟩 12.5               Pass: 100%/2   | Total: 20m 06s | Avg: 10m 03s | Max: 10m 16s
  🟩 12.6               Pass: 100%/37  | Total:  6h 52m | Avg: 11m 09s | Max: 32m 44s | Hits: 540%/2664  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  4m 42s
  🟩 nvcc12.0           Pass: 100%/5   | Total: 46m 47s | Avg:  9m 21s | Max: 24m 18s | Hits: 540%/888   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 20m 06s | Avg: 10m 03s | Max: 10m 16s
  🟩 nvcc12.6           Pass: 100%/35  | Total:  6h 43m | Avg: 11m 31s | Max: 32m 44s | Hits: 540%/2664  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 12s | Avg:  4m 36s | Max:  4m 42s
  🟩 nvcc               Pass: 100%/42  | Total:  7h 50m | Avg: 11m 11s | Max: 32m 44s | Hits: 540%/3552  
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 22m 01s | Avg:  5m 30s | Max:  5m 39s
  🟩 Clang15            Pass: 100%/2   | Total: 11m 16s | Avg:  5m 38s | Max:  5m 44s
  🟩 Clang16            Pass: 100%/2   | Total: 11m 45s | Avg:  5m 52s | Max:  5m 55s
  🟩 Clang17            Pass: 100%/2   | Total: 11m 52s | Avg:  5m 56s | Max:  5m 59s
  🟩 Clang18            Pass: 100%/7   | Total:  1h 17m | Avg: 11m 01s | Max: 26m 39s
  🟩 GCC7               Pass: 100%/2   | Total: 11m 21s | Avg:  5m 40s | Max:  5m 57s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 40s | Avg:  5m 40s | Max:  5m 40s
  🟩 GCC9               Pass: 100%/2   | Total: 11m 47s | Avg:  5m 53s | Max:  6m 01s
  🟩 GCC10              Pass: 100%/2   | Total: 11m 23s | Avg:  5m 41s | Max:  5m 42s
  🟩 GCC11              Pass: 100%/2   | Total: 12m 16s | Avg:  6m 08s | Max:  6m 29s
  🟩 GCC12              Pass: 100%/4   | Total: 38m 04s | Avg:  9m 31s | Max: 21m 28s
  🟩 GCC13              Pass: 100%/8   | Total:  2h 03m | Avg: 15m 25s | Max: 32m 44s
  🟩 MSVC14.29          Pass: 100%/2   | Total: 53m 42s | Avg: 26m 51s | Max: 29m 24s | Hits: 540%/1776  
  🟩 MSVC14.39          Pass: 100%/2   | Total: 57m 39s | Avg: 28m 49s | Max: 29m 01s | Hits: 540%/1776  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 20m 06s | Avg: 10m 03s | Max: 10m 16s
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 14m | Avg:  7m 53s | Max: 26m 39s
  🟩 GCC                Pass: 100%/21  | Total:  3h 33m | Avg: 10m 11s | Max: 32m 44s
  🟩 MSVC               Pass: 100%/4   | Total:  1h 51m | Avg: 27m 50s | Max: 29m 24s | Hits: 540%/3552  
  🟩 NVHPC              Pass: 100%/2   | Total: 20m 06s | Avg: 10m 03s | Max: 10m 16s
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 25m 52s | Avg: 12m 56s | Max: 21m 28s
  🟩 v100               Pass: 100%/42  | Total:  7h 33m | Avg: 10m 48s | Max: 32m 44s | Hits: 540%/3552  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  5h 04m | Avg:  8m 14s | Max: 29m 24s | Hits: 540%/3552  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 32m 44s | Avg: 32m 44s | Max: 32m 44s
  🟩 GraphCapture       Pass: 100%/1   | Total: 20m 39s | Avg: 20m 39s | Max: 20m 39s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 08m | Avg: 22m 50s | Max: 25m 06s
  🟩 TestGPU            Pass: 100%/2   | Total: 52m 51s | Avg: 26m 25s | Max: 26m 39s
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 25m 52s | Avg: 12m 56s | Max: 21m 28s
  🟩 90a                Pass: 100%/1   | Total:  4m 39s | Avg:  4m 39s | Max:  4m 39s
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 02m | Avg:  9m 07s | Max: 29m 24s | Hits: 540%/2664  
  🟩 20                 Pass: 100%/24  | Total:  4h 56m | Avg: 12m 22s | Max: 32m 44s | Hits: 540%/888

🟩 thrust: Pass: 100%/42 | Total: 6h 18m | Avg: 9m 00s | Max: 31m 31s | Hits: 365%/7376

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 18m 32s | Avg:  9m 16s | Max: 12m 55s
🟩 cpu
  🟩 amd64              Pass: 100%/40  | Total:  6h 08m | Avg:  9m 12s | Max: 31m 31s | Hits: 365%/7376  
  🟩 arm64              Pass: 100%/2   | Total:  9m 53s | Avg:  4m 56s | Max:  5m 06s
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 45m 50s | Avg:  9m 10s | Max: 24m 37s | Hits: 365%/1844  
  🟩 12.5               Pass: 100%/2   | Total: 31m 26s | Avg: 15m 43s | Max: 16m 11s
  🟩 12.6               Pass: 100%/35  | Total:  5h 01m | Avg:  8m 36s | Max: 31m 31s | Hits: 365%/5532  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 25s
  🟩 nvcc12.0           Pass: 100%/5   | Total: 45m 50s | Avg:  9m 10s | Max: 24m 37s | Hits: 365%/1844  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 31m 26s | Avg: 15m 43s | Max: 16m 11s
  🟩 nvcc12.6           Pass: 100%/33  | Total:  4h 50m | Avg:  8m 48s | Max: 31m 31s | Hits: 365%/5532  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 35s | Avg:  5m 17s | Max:  5m 25s
  🟩 nvcc               Pass: 100%/40  | Total:  6h 07m | Avg:  9m 11s | Max: 31m 31s | Hits: 365%/7376  
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 21m 27s | Avg:  5m 21s | Max:  5m 50s
  🟩 Clang15            Pass: 100%/2   | Total: 11m 16s | Avg:  5m 38s | Max:  5m 49s
  🟩 Clang16            Pass: 100%/2   | Total: 11m 33s | Avg:  5m 46s | Max:  5m 57s
  🟩 Clang17            Pass: 100%/2   | Total: 11m 36s | Avg:  5m 48s | Max:  5m 53s
  🟩 Clang18            Pass: 100%/7   | Total: 49m 16s | Avg:  7m 02s | Max: 14m 17s
  🟩 GCC7               Pass: 100%/2   | Total: 11m 34s | Avg:  5m 47s | Max:  6m 18s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 19s | Avg:  5m 19s | Max:  5m 19s
  🟩 GCC9               Pass: 100%/2   | Total: 11m 25s | Avg:  5m 42s | Max:  5m 55s
  🟩 GCC10              Pass: 100%/2   | Total: 11m 54s | Avg:  5m 57s | Max:  5m 59s
  🟩 GCC11              Pass: 100%/2   | Total: 12m 06s | Avg:  6m 03s | Max:  6m 19s
  🟩 GCC12              Pass: 100%/2   | Total: 12m 45s | Avg:  6m 22s | Max:  6m 28s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 06m | Avg:  8m 22s | Max: 18m 02s
  🟩 MSVC14.29          Pass: 100%/2   | Total: 51m 09s | Avg: 25m 34s | Max: 26m 32s | Hits: 365%/3688  
  🟩 MSVC14.39          Pass: 100%/2   | Total: 58m 34s | Avg: 29m 17s | Max: 31m 31s | Hits: 365%/3688  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 31m 26s | Avg: 15m 43s | Max: 16m 11s
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 45m | Avg:  6m 11s | Max: 14m 17s
  🟩 GCC                Pass: 100%/19  | Total:  2h 12m | Avg:  6m 56s | Max: 18m 02s
  🟩 MSVC               Pass: 100%/4   | Total:  1h 49m | Avg: 27m 25s | Max: 31m 31s | Hits: 365%/7376  
  🟩 NVHPC              Pass: 100%/2   | Total: 31m 26s | Avg: 15m 43s | Max: 16m 11s
🟩 gpu
  🟩 v100               Pass: 100%/42  | Total:  6h 18m | Avg:  9m 00s | Max: 31m 31s | Hits: 365%/7376  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  5h 16m | Avg:  8m 33s | Max: 31m 31s | Hits: 365%/7376  
  🟩 TestCPU            Pass: 100%/2   | Total: 16m 11s | Avg:  8m 05s | Max:  8m 26s
  🟩 TestGPU            Pass: 100%/3   | Total: 45m 14s | Avg: 15m 04s | Max: 18m 02s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total:  5m 01s | Avg:  5m 01s | Max:  5m 01s
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 05m | Avg:  9m 17s | Max: 27m 03s | Hits: 365%/5532  
  🟩 20                 Pass: 100%/20  | Total:  2h 53m | Avg:  8m 41s | Max: 31m 31s | Hits: 365%/1844

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 33s | Avg: 5m 16s | Max: 8m 27s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 10m 33s | Avg:  5m 16s | Max:  8m 27s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 06s | Avg:  2m 06s | Max:  2m 06s
  🟩 Test               Pass: 100%/1   | Total:  8m 27s | Avg:  8m 27s | Max:  8m 27s

🟩 python: Pass: 100%/1 | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 89)

#	Runner
65	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
8	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-02-05T13:57:58Z

🟨 CI finished in 1h 39m: Pass: 98%/90 | Total: 2d 16h | Avg: 42m 41s | Max: 1h 24m | Hits: 248%/13398

🟨 cub: Pass: 97%/44 | Total: 1d 15h | Avg: 54m 04s | Max: 1h 24m | Hits: 334%/4168

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  97%/42  | Total:  1d 13h | Avg: 53m 41s | Max:  1h 24m | Hits: 334%/4168  
  🟩 arm64              Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 03m
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total:  5h 00m | Avg:  1h 00m | Max:  1h 08m | Hits: 335%/1042  
  🟩 12.5               Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 07m
  🔍 12.8               Pass:  97%/37  | Total:  1d 08h | Avg: 52m 33s | Max:  1h 24m | Hits: 334%/3126  
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 01m
  🟩 nvcc12.0           Pass: 100%/5   | Total:  5h 00m | Avg:  1h 00m | Max:  1h 08m | Hits: 335%/1042  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 07m
  🔍 nvcc12.8           Pass:  97%/35  | Total:  1d 06h | Avg: 52m 06s | Max:  1h 24m | Hits: 334%/3126  
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 01m
  🔍 nvcc               Pass:  97%/42  | Total:  1d 13h | Avg: 53m 46s | Max:  1h 24m | Hits: 334%/4168  
🔍 cxx: Clang18 🔍
  🟩 Clang14            Pass: 100%/4   | Total:  3h 51m | Avg: 57m 50s | Max:  1h 01m
  🟩 Clang15            Pass: 100%/2   | Total:  2h 02m | Avg:  1h 01m | Max:  1h 02m
  🟩 Clang16            Pass: 100%/2   | Total:  2h 07m | Avg:  1h 03m | Max:  1h 04m
  🟩 Clang17            Pass: 100%/2   | Total:  1h 59m | Avg: 59m 37s | Max:  1h 01m
  🔍 Clang18            Pass:  85%/7   | Total:  5h 19m | Avg: 45m 42s | Max:  1h 01m
  🟩 GCC7               Pass: 100%/2   | Total:  1h 55m | Avg: 57m 43s | Max: 59m 10s
  🟩 GCC8               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
  🟩 GCC9               Pass: 100%/2   | Total:  1h 59m | Avg: 59m 56s | Max: 59m 57s
  🟩 GCC10              Pass: 100%/2   | Total:  1h 58m | Avg: 59m 12s | Max:  1h 03m
  🟩 GCC11              Pass: 100%/2   | Total:  1h 50m | Avg: 55m 18s | Max: 56m 12s
  🟩 GCC12              Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 02m
  🟩 GCC13              Pass: 100%/10  | Total:  6h 24m | Avg: 38m 27s | Max:  1h 11m
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 12m | Hits: 335%/2084  
  🟩 MSVC14.39          Pass: 100%/2   | Total:  2h 33m | Avg:  1h 16m | Max:  1h 24m | Hits: 334%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 07m
🔍 cxx_family: Clang 🔍
  🔍 Clang              Pass:  94%/17  | Total: 15h 20m | Avg: 54m 07s | Max:  1h 04m
  🟩 GCC                Pass: 100%/21  | Total: 17h 11m | Avg: 49m 07s | Max:  1h 11m
  🟩 MSVC               Pass: 100%/4   | Total:  4h 53m | Avg:  1h 13m | Max:  1h 24m | Hits: 334%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 07m
🔍 gpu: rtxa6000 🔍
  🟩 h100               Pass: 100%/2   | Total: 51m 02s | Avg: 25m 31s | Max: 26m 26s
  🟩 rtx2080            Pass: 100%/34  | Total:  1d 11h | Avg:  1h 02m | Max:  1h 24m | Hits: 334%/4168  
  🔍 rtxa6000           Pass:  87%/8   | Total:  3h 39m | Avg: 27m 25s | Max: 57m 26s
🔍 jobs: TestGPU 🔍
  🟩 Build              Pass: 100%/37  | Total:  1d 13h | Avg:  1h 00m | Max:  1h 24m | Hits: 334%/4168  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 20m 04s | Avg: 20m 04s | Max: 20m 04s
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 16s | Avg: 16m 16s | Max: 16m 16s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 10m | Avg: 23m 38s | Max: 24m 36s
  🔍 TestGPU            Pass:  50%/2   | Total: 23m 29s | Avg: 11m 44s | Max: 20m 30s
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 20h 13m | Avg:  1h 00m | Max:  1h 12m | Hits: 334%/3126  
  🔍 20                 Pass:  95%/24  | Total: 19h 25m | Avg: 48m 34s | Max:  1h 24m | Hits: 334%/1042  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 51m 02s | Avg: 25m 31s | Max: 26m 26s
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 11m | Avg:  1h 11m | Max:  1h 11m

🟩 thrust: Pass: 100%/43 | Total: 23h 48m | Avg: 33m 13s | Max: 1h 01m | Hits: 209%/9230

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 36m 33s | Avg: 18m 16s | Max: 26m 00s
🟩 cpu
  🟩 amd64              Pass: 100%/41  | Total: 22h 50m | Avg: 33m 25s | Max:  1h 01m | Hits: 209%/9230  
  🟩 arm64              Pass: 100%/2   | Total: 58m 14s | Avg: 29m 07s | Max: 30m 26s
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  3h 10m | Avg: 38m 05s | Max: 58m 54s | Hits: 169%/1846  
  🟩 12.5               Pass: 100%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 59m 37s
  🟩 12.8               Pass: 100%/36  | Total: 18h 43m | Avg: 31m 11s | Max:  1h 01m | Hits: 219%/7384  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 56m 51s | Avg: 28m 25s | Max: 30m 21s
  🟩 nvcc12.0           Pass: 100%/5   | Total:  3h 10m | Avg: 38m 05s | Max: 58m 54s | Hits: 169%/1846  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 59m 37s
  🟩 nvcc12.8           Pass: 100%/34  | Total: 17h 46m | Avg: 31m 21s | Max:  1h 01m | Hits: 219%/7384  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 56m 51s | Avg: 28m 25s | Max: 30m 21s
  🟩 nvcc               Pass: 100%/41  | Total: 22h 51m | Avg: 33m 27s | Max:  1h 01m | Hits: 209%/9230  
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  2h 06m | Avg: 31m 42s | Max: 33m 16s
  🟩 Clang15            Pass: 100%/2   | Total:  1h 05m | Avg: 32m 39s | Max: 34m 35s
  🟩 Clang16            Pass: 100%/2   | Total:  1h 02m | Avg: 31m 01s | Max: 31m 15s
  🟩 Clang17            Pass: 100%/2   | Total:  1h 04m | Avg: 32m 17s | Max: 33m 37s
  🟩 Clang18            Pass: 100%/7   | Total:  2h 44m | Avg: 23m 26s | Max: 31m 05s
  🟩 GCC7               Pass: 100%/2   | Total:  1h 07m | Avg: 33m 35s | Max: 33m 57s
  🟩 GCC8               Pass: 100%/1   | Total: 33m 23s | Avg: 33m 23s | Max: 33m 23s
  🟩 GCC9               Pass: 100%/2   | Total:  1h 06m | Avg: 33m 10s | Max: 35m 02s
  🟩 GCC10              Pass: 100%/2   | Total:  1h 05m | Avg: 32m 32s | Max: 32m 42s
  🟩 GCC11              Pass: 100%/2   | Total:  1h 03m | Avg: 31m 38s | Max: 32m 05s
  🟩 GCC12              Pass: 100%/2   | Total:  1h 13m | Avg: 36m 38s | Max: 37m 34s
  🟩 GCC13              Pass: 100%/8   | Total:  3h 14m | Avg: 24m 19s | Max: 38m 49s
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 59m | Avg: 59m 55s | Max:  1h 00m | Hits: 171%/3692  
  🟩 MSVC14.39          Pass: 100%/3   | Total:  2h 27m | Avg: 49m 14s | Max:  1h 01m | Hits: 234%/5538  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 59m 37s
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  8h 02m | Avg: 28m 24s | Max: 34m 35s
  🟩 GCC                Pass: 100%/19  | Total:  9h 23m | Avg: 29m 38s | Max: 38m 49s
  🟩 MSVC               Pass: 100%/5   | Total:  4h 27m | Avg: 53m 30s | Max:  1h 01m | Hits: 209%/9230  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 59m 37s
🟩 gpu
  🟩 rtx2080            Pass: 100%/33  | Total: 19h 57m | Avg: 36m 16s | Max:  1h 00m | Hits: 171%/5538  
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 51m | Avg: 23m 08s | Max:  1h 01m | Hits: 267%/3692  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total: 22h 29m | Avg: 36m 28s | Max:  1h 01m | Hits: 170%/7384  
  🟩 TestCPU            Pass: 100%/3   | Total: 46m 36s | Avg: 15m 32s | Max: 30m 55s | Hits: 365%/1846  
  🟩 TestGPU            Pass: 100%/3   | Total: 32m 22s | Avg: 10m 47s | Max: 11m 20s
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total: 38m 49s | Avg: 38m 49s | Max: 38m 49s
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 12h 25m | Avg: 37m 17s | Max:  1h 00m | Hits: 171%/5538  
  🟩 20                 Pass: 100%/21  | Total: 10h 45m | Avg: 30m 45s | Max:  1h 01m | Hits: 267%/3692

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 7m 10s | Avg: 3m 35s | Max: 4m 49s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total:  7m 10s | Avg:  3m 35s | Max:  4m 49s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 21s | Avg:  2m 21s | Max:  2m 21s
  🟩 Test               Pass: 100%/1   | Total:  4m 49s | Avg:  4m 49s | Max:  4m 49s

🟩 python: Pass: 100%/1 | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

cub/cub/device/dispatch/tuning/tuning_scan.cuh

bernhardmgruber

I changed the tuning selection logic to be more akin to what the benchmark does. @gevtushenko I would like your review here. I remember we discussed this at some point and you had a story why AccumT was the right think to check here, but I think we actually need to check both, AccumT and ValueT.

bernhardmgruber · 2025-02-05T18:25:22Z

cub/cub/device/dispatch/tuning/tuning_scan.cuh

+    // Only consider sm100 tunings if the accumulator size matches the one we use in the benchmarks
+    using benchmark_accum_t                = ::cuda::std::__accumulator_t<ScanOpT, ValueT, ValueT>;
+    static constexpr bool accum_size_match = classify_accum_size<AccumT>() == classify_accum_size<benchmark_accum_t>();
+
+    using ScanPolicyT = ::cuda::std::conditional_t<
+      accum_size_match,
+      decltype(select_agent_policy100<sm100_tuning<ValueT, AccumT, OffsetT, classify_op<ScanOpT>()>>(0)),
+      typename Policy900::ScanPolicyT>;


Here, we check whether the AccumT matches what we would use in the benchmark. If it does, we take a sm100_tuning, otherwise we fallback to whatever Policy900 did.

bernhardmgruber · 2025-02-05T18:26:52Z

cub/cub/device/dispatch/tuning/tuning_scan.cuh

+template <class ValueT, class AccumT, class OffsetT>
+struct sm100_tuning<ValueT,
+                    AccumT,
+                    OffsetT,
+                    op_type::plus,
+                    primitive_value::yes,
+                    primitive_accum::yes,
+                    offset_size::_4,
+                    value_size::_1>


Compared with the sm90 tunings, we switch on the value_size here, no the accum_size, because that's what we actually also iterate in the benchmark. We do not check the size of AccumT here, because we already checked previously whether that size corresponds to the size we would have in the benchmark.

gonidelis · 2025-02-06T00:34:04Z

scan.exclusive.sum (i like it)

|  T{ct}  |  OffsetT{ct}  |  Elements{io}  |   Ref Time |   Ref Noise |   Cmp Time |   Cmp Noise |       Diff |   %Diff |  Status  |
|---------|---------------|----------------|------------|-------------|------------|-------------|------------|---------|----------|
|   I8    |      I32      |      2^16      |  12.523 us |       9.02% |  12.337 us |       7.95% |  -0.186 us |  -1.49% |   SAME   |
|   I8    |      I32      |      2^20      |  17.306 us |       7.97% |  14.526 us |       6.71% |  -2.779 us | -16.06% |   FAST   |
|   I8    |      I32      |      2^24      |  43.585 us |       2.99% |  37.204 us |       3.41% |  -6.381 us | -14.64% |   FAST   |
|   I8    |      I32      |      2^28      | 483.277 us |       0.62% | 398.455 us |       0.99% | -84.822 us | -17.55% |   FAST   |
|   I8    |      I64      |      2^16      |  13.076 us |      10.57% |  13.061 us |       5.50% |  -0.014 us |  -0.11% |   SAME   |
|   I8    |      I64      |      2^20      |  17.198 us |       8.69% |  14.562 us |       6.99% |  -2.636 us | -15.33% |   FAST   |
|   I8    |      I64      |      2^24      |  43.654 us |       2.89% |  41.276 us |       3.37% |  -2.377 us |  -5.45% |   FAST   |
|   I8    |      I64      |      2^28      | 483.495 us |       0.61% | 467.099 us |       1.08% | -16.396 us |  -3.39% |   FAST   |
|   I16   |      I32      |      2^16      |  12.851 us |       7.38% |  13.286 us |       2.34% |   0.434 us |   3.38% |   SLOW   |
|   I16   |      I32      |      2^20      |  17.218 us |       9.20% |  14.375 us |       7.09% |  -2.842 us | -16.51% |   FAST   |
|   I16   |      I32      |      2^24      |  44.569 us |       3.47% |  41.538 us |       2.80% |  -3.031 us |  -6.80% |   FAST   |
|   I16   |      I32      |      2^28      | 491.371 us |       0.83% | 463.474 us |       1.04% | -27.896 us |  -5.68% |   FAST   |
|   I16   |      I64      |      2^16      |  12.669 us |       7.53% |  13.224 us |       4.74% |   0.554 us |   4.37% |   SAME   |
|   I16   |      I64      |      2^20      |  17.250 us |       9.26% |  17.509 us |       9.76% |   0.259 us |   1.50% |   SAME   |
|   I16   |      I64      |      2^24      |  44.776 us |       3.17% |  45.189 us |       2.80% |   0.412 us |   0.92% |   SAME   |
|   I16   |      I64      |      2^28      | 493.139 us |       0.75% | 492.838 us |       0.76% |  -0.301 us |  -0.06% |   SAME   |
|   I32   |      I32      |      2^16      |  13.220 us |       8.45% |  13.479 us |       5.71% |   0.258 us |   1.96% |   SAME   |
|   I32   |      I32      |      2^20      |  17.984 us |       7.95% |  14.476 us |       7.54% |  -3.508 us | -19.51% |   FAST   |
|   I32   |      I32      |      2^24      |  49.083 us |       3.77% |  46.030 us |       3.52% |  -3.053 us |  -6.22% |   FAST   |
|   I32   |      I32      |      2^28      | 548.118 us |       1.00% | 543.713 us |       1.50% |  -4.404 us |  -0.80% |   SAME   |
|   I32   |      I64      |      2^16      |  12.790 us |       8.01% |  13.245 us |       3.72% |   0.455 us |   3.55% |   SAME   |
|   I32   |      I64      |      2^20      |  17.930 us |       8.36% |  14.820 us |       9.83% |  -3.110 us | -17.34% |   FAST   |
|   I32   |      I64      |      2^24      |  49.258 us |       3.43% |  46.212 us |       3.69% |  -3.046 us |  -6.18% |   FAST   |
|   I32   |      I64      |      2^28      | 548.062 us |       0.96% | 545.603 us |       1.55% |  -2.459 us |  -0.45% |   SAME   |
|   I64   |      I32      |      2^16      |  12.958 us |       9.41% |  13.537 us |       5.70% |   0.579 us |   4.47% |   SAME   |
|   I64   |      I32      |      2^20      |  18.931 us |       5.78% |  17.250 us |       3.72% |  -1.681 us |  -8.88% |   FAST   |
|   I64   |      I32      |      2^24      |  73.898 us |       1.74% |  72.687 us |       2.05% |  -1.211 us |  -1.64% |   SAME   |
|   I64   |      I32      |      2^28      | 951.918 us |       0.40% | 922.445 us |       0.65% | -29.474 us |  -3.10% |   FAST   |
|   I64   |      I64      |      2^16      |  12.999 us |       5.81% |  13.349 us |       1.99% |   0.350 us |   2.69% |   SLOW   |
|   I64   |      I64      |      2^20      |  18.881 us |       6.22% |  17.238 us |       4.30% |  -1.643 us |  -8.70% |   FAST   |
|   I64   |      I64      |      2^24      |  73.451 us |       1.83% |  72.145 us |       2.55% |  -1.306 us |  -1.78% |   SAME   |
|   I64   |      I64      |      2^28      | 950.586 us |       0.34% | 927.345 us |       0.69% | -23.241 us |  -2.44% |   FAST   |
|  I128   |      I32      |      2^16      |  17.178 us |       3.81% |  17.404 us |       1.46% |   0.226 us |   1.32% |   SAME   |
|  I128   |      I32      |      2^20      |  30.885 us |       4.68% |  31.253 us |       4.83% |   0.367 us |   1.19% |   SAME   |
|  I128   |      I32      |      2^24      | 217.882 us |       0.69% | 217.974 us |       0.70% |   0.093 us |   0.04% |   SAME   |
|  I128   |      I32      |      2^28      |   3.218 ms |       0.15% |   3.218 ms |       0.14% |   0.260 us |   0.01% |   SAME   |
|  I128   |      I64      |      2^16      |  16.990 us |       6.09% |  17.012 us |       6.16% |   0.022 us |   0.13% |   SAME   |
|  I128   |      I64      |      2^20      |  31.021 us |       4.84% |  31.064 us |       4.40% |   0.043 us |   0.14% |   SAME   |
|  I128   |      I64      |      2^24      | 219.938 us |       0.70% | 219.851 us |       0.70% |  -0.087 us |  -0.04% |   SAME   |
|  I128   |      I64      |      2^28      |   3.255 ms |       0.14% |   3.255 ms |       0.14% |   0.106 us |   0.00% |   SAME   |
|   F32   |      I32      |      2^16      |  13.302 us |       6.70% |  13.179 us |       5.70% |  -0.122 us |  -0.92% |   SAME   |
|   F32   |      I32      |      2^20      |  17.864 us |       8.23% |  14.031 us |       7.23% |  -3.833 us | -21.46% |   FAST   |
|   F32   |      I32      |      2^24      |  48.915 us |       3.83% |  45.910 us |       3.78% |  -3.005 us |  -6.14% |   FAST   |
|   F32   |      I32      |      2^28      | 544.063 us |       1.05% | 543.886 us |       1.49% |  -0.177 us |  -0.03% |   SAME   |
|   F32   |      I64      |      2^16      |  13.080 us |       5.57% |  13.125 us |       5.71% |   0.045 us |   0.34% |   SAME   |
|   F32   |      I64      |      2^20      |  17.750 us |       8.07% |  14.693 us |       9.46% |  -3.057 us | -17.22% |   FAST   |
|   F32   |      I64      |      2^24      |  48.754 us |       3.93% |  45.681 us |       3.79% |  -3.073 us |  -6.30% |   FAST   |
|   F32   |      I64      |      2^28      | 545.632 us |       1.00% | 546.728 us |       1.61% |   1.096 us |   0.20% |   SAME   |
|   F64   |      I32      |      2^16      |  13.218 us |       6.14% |  13.060 us |       5.43% |  -0.158 us |  -1.19% |   SAME   |
|   F64   |      I32      |      2^20      |  18.802 us |       7.01% |  16.503 us |       6.54% |  -2.298 us | -12.22% |   FAST   |
|   F64   |      I32      |      2^24      |  74.640 us |       1.76% |  73.153 us |       2.63% |  -1.487 us |  -1.99% |   FAST   |
|   F64   |      I32      |      2^28      | 963.979 us |       0.32% | 932.343 us |       0.63% | -31.635 us |  -3.28% |   FAST   |
|   F64   |      I64      |      2^16      |  13.227 us |       9.30% |  13.075 us |       8.79% |  -0.152 us |  -1.15% |   SAME   |
|   F64   |      I64      |      2^20      |  18.778 us |       6.82% |  18.733 us |       6.67% |  -0.045 us |  -0.24% |   SAME   |
|   F64   |      I64      |      2^24      |  74.499 us |       1.72% |  74.487 us |       1.71% |  -0.012 us |  -0.02% |   SAME   |
|   F64   |      I64      |      2^28      | 964.677 us |       0.31% | 965.107 us |       0.31% |   0.430 us |   0.04% |   SAME   |
|   C64   |      I32      |      2^16      |  17.151 us |       5.20% |  16.997 us |       5.92% |  -0.154 us |  -0.90% |   SAME   |
|   C64   |      I32      |      2^20      |  28.754 us |       4.35% |  28.754 us |       4.15% |   0.000 us |   0.00% |   SAME   |
|   C64   |      I32      |      2^24      | 209.494 us |       1.20% | 209.443 us |       1.16% |  -0.051 us |  -0.02% |   SAME   |
|   C64   |      I32      |      2^28      |   3.135 ms |       0.26% |   3.135 ms |       0.24% |  -0.313 us |  -0.01% |   SAME   |
|   C64   |      I64      |      2^16      |  16.854 us |       6.08% |  16.928 us |       5.83% |   0.074 us |   0.44% |   SAME   |
|   C64   |      I64      |      2^20      |  28.489 us |       4.20% |  28.384 us |       4.46% |  -0.105 us |  -0.37% |   SAME   |
|   C64   |      I64      |      2^24      | 207.781 us |       1.17% | 207.469 us |       1.12% |  -0.312 us |  -0.15% |   SAME   |
|   C64   |      I64      |      2^28      |   3.097 ms |       0.25% |   3.096 ms |       0.24% |  -0.653 us |  -0.02% |   SAME   |

Co-authored-by: Georgii Evtushenko <[email protected]>

After discussion with Georgii

bernhardmgruber · 2025-02-06T19:14:04Z

I diffed the SASS for SM100 from the commit on which @gonidelis did his benchmark to the tip of this PR including all my tuning logic selection changes, and nothing changed except kernel symbol names. I therefore conclude that @gonidelis benchmark is still valid.

bernhardmgruber · 2025-02-06T19:16:05Z

I dropped the max tunings because that is not a known operator to CUB. See clarification here: #3709

github-actions · 2025-02-06T22:03:32Z

🟩 CI finished in 1h 07m: Pass: 100%/90 | Total: 23h 31m | Avg: 15m 40s | Max: 37m 35s | Hits: 89%/132225

🟩 cub: Pass: 100%/44 | Total: 8h 03m | Avg: 10m 59s | Max: 31m 14s | Hits: 93%/52320

🟩 cpu
  🟩 amd64              Pass: 100%/42  | Total:  7h 52m | Avg: 11m 14s | Max: 31m 14s | Hits:  92%/49888 
  🟩 arm64              Pass: 100%/2   | Total: 11m 07s | Avg:  5m 33s | Max:  5m 53s | Hits:  99%/2432  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 50m 37s | Avg: 10m 07s | Max: 27m 37s | Hits:  85%/5914  
  🟩 12.5               Pass: 100%/2   | Total: 20m 30s | Avg: 10m 15s | Max: 10m 30s | Hits:  98%/2250  
  🟩 12.8               Pass: 100%/37  | Total:  6h 52m | Avg: 11m 08s | Max: 31m 14s | Hits:  93%/44156 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 59s | Avg:  4m 59s | Max:  5m 00s | Hits: 100%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 50m 37s | Avg: 10m 07s | Max: 27m 37s | Hits:  85%/5914  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 20m 30s | Avg: 10m 15s | Max: 10m 30s | Hits:  98%/2250  
  🟩 nvcc12.8           Pass: 100%/35  | Total:  6h 42m | Avg: 11m 29s | Max: 31m 14s | Hits:  93%/42052 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 59s | Avg:  4m 59s | Max:  5m 00s | Hits: 100%/2104  
  🟩 nvcc               Pass: 100%/42  | Total:  7h 53m | Avg: 11m 16s | Max: 31m 14s | Hits:  92%/50216 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 23m 07s | Avg:  5m 46s | Max:  6m 15s | Hits: 100%/4872  
  🟩 Clang15            Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max:  6m 26s | Hits: 100%/2432  
  🟩 Clang16            Pass: 100%/2   | Total: 12m 42s | Avg:  6m 21s | Max:  6m 34s | Hits: 100%/2432  
  🟩 Clang17            Pass: 100%/2   | Total: 12m 50s | Avg:  6m 25s | Max:  6m 26s | Hits: 100%/2432  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 11m | Avg: 10m 14s | Max: 24m 19s | Hits: 100%/8184  
  🟩 GCC7               Pass: 100%/2   | Total: 11m 50s | Avg:  5m 55s | Max:  5m 56s | Hits:  99%/2436  
  🟩 GCC8               Pass: 100%/1   | Total:  6m 14s | Avg:  6m 14s | Max:  6m 14s | Hits:  99%/1218  
  🟩 GCC9               Pass: 100%/2   | Total: 12m 22s | Avg:  6m 11s | Max:  6m 12s | Hits:  99%/2436  
  🟩 GCC10              Pass: 100%/2   | Total: 12m 26s | Avg:  6m 13s | Max:  6m 27s | Hits:  99%/2436  
  🟩 GCC11              Pass: 100%/2   | Total: 12m 45s | Avg:  6m 22s | Max:  6m 23s | Hits:  99%/2432  
  🟩 GCC12              Pass: 100%/2   | Total: 13m 00s | Avg:  6m 30s | Max:  6m 35s | Hits:  99%/2432  
  🟩 GCC13              Pass: 100%/10  | Total:  2h 23m | Avg: 14m 18s | Max: 25m 35s | Hits:  99%/12160 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 56m 57s | Avg: 28m 28s | Max: 29m 20s | Hits:  16%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 00m | Avg: 30m 29s | Max: 31m 14s | Hits:  16%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 20m 30s | Avg: 10m 15s | Max: 10m 30s | Hits:  98%/2250  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 13m | Avg:  7m 50s | Max: 24m 19s | Hits: 100%/20352 
  🟩 GCC                Pass: 100%/21  | Total:  3h 31m | Avg: 10m 04s | Max: 25m 35s | Hits:  99%/25550 
  🟩 MSVC               Pass: 100%/4   | Total:  1h 57m | Avg: 29m 29s | Max: 31m 14s | Hits:  16%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total: 20m 30s | Avg: 10m 15s | Max: 10m 30s | Hits:  98%/2250  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 30m 18s | Avg: 15m 09s | Max: 25m 35s | Hits:  99%/2432  
  🟩 rtx2080            Pass: 100%/34  | Total:  5h 09m | Avg:  9m 06s | Max: 31m 14s | Hits:  91%/40160 
  🟩 rtxa6000           Pass: 100%/8   | Total:  2h 23m | Avg: 17m 56s | Max: 25m 32s | Hits:  99%/9728  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  5h 27m | Avg:  8m 50s | Max: 31m 14s | Hits:  91%/43808 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 21m 37s | Avg: 21m 37s | Max: 21m 37s | Hits:  99%/1216  
  🟩 GraphCapture       Pass: 100%/1   | Total: 17m 50s | Avg: 17m 50s | Max: 17m 50s | Hits:  99%/1216  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 15m | Avg: 25m 08s | Max: 25m 35s | Hits:  99%/3648  
  🟩 TestGPU            Pass: 100%/2   | Total: 41m 16s | Avg: 20m 38s | Max: 21m 21s | Hits:  99%/2432  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 30m 18s | Avg: 15m 09s | Max: 25m 35s | Hits:  99%/2432  
  🟩 90;90a;100         Pass: 100%/1   | Total:  7m 03s | Avg:  7m 03s | Max:  7m 03s | Hits:  99%/1216  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 15m | Avg:  9m 47s | Max: 31m 14s | Hits:  88%/23559 
  🟩 20                 Pass: 100%/24  | Total:  4h 47m | Avg: 11m 58s | Max: 29m 45s | Hits:  96%/28761

🟩 thrust: Pass: 100%/43 | Total: 14h 49m | Avg: 20m 41s | Max: 37m 35s | Hits: 87%/79625

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 28m 20s | Avg: 14m 10s | Max: 16m 54s | Hits:  94%/3706  
🟩 cpu
  🟩 amd64              Pass: 100%/41  | Total: 14h 13m | Avg: 20m 48s | Max: 37m 35s | Hits:  87%/75920 
  🟩 arm64              Pass: 100%/2   | Total: 36m 22s | Avg: 18m 11s | Max: 19m 05s | Hits:  88%/3705  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 48m | Avg: 21m 39s | Max: 27m 31s | Hits:  85%/9256  
  🟩 12.5               Pass: 100%/2   | Total:  1h 11m | Avg: 35m 36s | Max: 37m 35s | Hits:  87%/3704  
  🟩 12.8               Pass: 100%/36  | Total: 11h 49m | Avg: 19m 43s | Max: 30m 59s | Hits:  88%/66665 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 38m 59s | Avg: 19m 29s | Max: 19m 44s | Hits:  88%/3704  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 48m | Avg: 21m 39s | Max: 27m 31s | Hits:  85%/9256  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 11m | Avg: 35m 36s | Max: 37m 35s | Hits:  87%/3704  
  🟩 nvcc12.8           Pass: 100%/34  | Total: 11h 10m | Avg: 19m 43s | Max: 30m 59s | Hits:  88%/62961 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 38m 59s | Avg: 19m 29s | Max: 19m 44s | Hits:  88%/3704  
  🟩 nvcc               Pass: 100%/41  | Total: 14h 10m | Avg: 20m 44s | Max: 37m 35s | Hits:  87%/75921 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 19m | Avg: 19m 51s | Max: 21m 14s | Hits:  88%/7408  
  🟩 Clang15            Pass: 100%/2   | Total: 37m 42s | Avg: 18m 51s | Max: 19m 34s | Hits:  88%/3704  
  🟩 Clang16            Pass: 100%/2   | Total: 38m 56s | Avg: 19m 28s | Max: 20m 18s | Hits:  88%/3704  
  🟩 Clang17            Pass: 100%/2   | Total: 40m 09s | Avg: 20m 04s | Max: 20m 25s | Hits:  88%/3704  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 52m | Avg: 16m 05s | Max: 19m 54s | Hits:  92%/12964 
  🟩 GCC7               Pass: 100%/2   | Total: 38m 01s | Avg: 19m 00s | Max: 19m 32s | Hits:  88%/3706  
  🟩 GCC8               Pass: 100%/1   | Total: 20m 36s | Avg: 20m 36s | Max: 20m 36s | Hits:  88%/1853  
  🟩 GCC9               Pass: 100%/2   | Total: 43m 43s | Avg: 21m 51s | Max: 21m 56s | Hits:  88%/3706  
  🟩 GCC10              Pass: 100%/2   | Total: 41m 41s | Avg: 20m 50s | Max: 21m 39s | Hits:  88%/3706  
  🟩 GCC11              Pass: 100%/2   | Total: 43m 17s | Avg: 21m 38s | Max: 22m 49s | Hits:  88%/3706  
  🟩 GCC12              Pass: 100%/2   | Total: 44m 16s | Avg: 22m 08s | Max: 23m 22s | Hits:  88%/3706  
  🟩 GCC13              Pass: 100%/8   | Total:  2h 12m | Avg: 16m 31s | Max: 22m 52s | Hits:  92%/14824 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 56m 50s | Avg: 28m 25s | Max: 29m 19s | Hits:  69%/3692  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 28m | Avg: 29m 35s | Max: 30m 59s | Hits:  69%/5538  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 11m | Avg: 35m 36s | Max: 37m 35s | Hits:  87%/3704  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  5h 08m | Avg: 18m 10s | Max: 21m 14s | Hits:  90%/31484 
  🟩 GCC                Pass: 100%/19  | Total:  6h 03m | Avg: 19m 08s | Max: 23m 22s | Hits:  90%/35207 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 25m | Avg: 29m 07s | Max: 30m 59s | Hits:  69%/9230  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 11m | Avg: 35m 36s | Max: 37m 35s | Hits:  87%/3704  
🟩 gpu
  🟩 rtx2080            Pass: 100%/33  | Total: 11h 58m | Avg: 21m 47s | Max: 37m 35s | Hits:  87%/61112 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 50m | Avg: 17m 03s | Max: 30m 59s | Hits:  90%/18513 
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total: 13h 29m | Avg: 21m 52s | Max: 37m 35s | Hits:  86%/68516 
  🟩 TestCPU            Pass: 100%/3   | Total: 46m 39s | Avg: 15m 33s | Max: 30m 59s | Hits:  89%/5551  
  🟩 TestGPU            Pass: 100%/3   | Total: 33m 33s | Avg: 11m 11s | Max: 11m 41s | Hits:  99%/5558  
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total: 21m 50s | Avg: 21m 50s | Max: 21m 50s | Hits:  88%/1853  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  7h 29m | Avg: 22m 27s | Max: 37m 35s | Hits:  85%/37031 
  🟩 20                 Pass: 100%/21  | Total:  6h 52m | Avg: 19m 37s | Max: 33m 37s | Hits:  89%/38888

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 7m 50s | Avg: 3m 55s | Max: 5m 30s | Hits: 98%/280

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total:  7m 50s | Avg:  3m 55s | Max:  5m 30s | Hits:  98%/280   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 20s | Avg:  2m 20s | Max:  2m 20s | Hits:  98%/140   
  🟩 Test               Pass: 100%/1   | Total:  5m 30s | Avg:  5m 30s | Max:  5m 30s | Hits:  98%/140

🟩 python: Pass: 100%/1 | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

github-actions · 2025-02-07T09:58:25Z

Backport failed for branch/2.8.x, because it was unable to cherry-pick the commit(s).

Please cherry-pick the changes locally and resolve any conflicts.

git fetch origin branch/2.8.x
git worktree add -d .worktree/backport-3559-to-branch/2.8.x origin/branch/2.8.x
cd .worktree/backport-3559-to-branch/2.8.x
git switch --create backport-3559-to-branch/2.8.x
git cherry-pick -x 25523da2f942a045facfe2ec6839f448c60c2c4e

* Drop unused struct * Refactor * Clarify input type in scan benchmark * Redesign scan policy selection after discussion with Georgii Co-authored-by: Giannis Gonidelis <[email protected]> Co-authored-by: Georgii Evtushenko <[email protected]>

bernhardmgruber requested review from a team as code owners January 28, 2025 07:56

bernhardmgruber requested a review from gevtushenko January 28, 2025 07:56

bernhardmgruber changed the title ~~scan.exclusive.max/sum tuning~~ scan.exclusive.max/sum tuning for b200 Jan 28, 2025

bernhardmgruber requested a review from gonidelis January 28, 2025 07:57

bernhardmgruber added the backport branch/2.8.x label Jan 28, 2025

miscco approved these changes Jan 28, 2025

View reviewed changes

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 24683b8 to 7c50dcc Compare January 28, 2025 08:32

bernhardmgruber changed the title ~~scan.exclusive.max/sum tuning for b200~~ Add b200 tunings for scan.exclusive.max/sum Jan 28, 2025

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 7c50dcc to 2e2caa7 Compare January 28, 2025 13:47

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 2e2caa7 to 3f68101 Compare February 5, 2025 12:17

bernhardmgruber commented Feb 5, 2025

View reviewed changes

cub/cub/device/dispatch/tuning/tuning_scan.cuh Outdated Show resolved Hide resolved

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 3f68101 to 65ef2c5 Compare February 5, 2025 17:22

bernhardmgruber commented Feb 5, 2025

View reviewed changes

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 2971ed6 to de36890 Compare February 6, 2025 11:07

gonidelis and others added 9 commits February 6, 2025 17:52

scan.exclusive.max/sum tuning

7be813a

Drop unused struct

886813b

Refactor

5ffe2f9

Consider value and accum type for SM100 tuning selection

4991876

Default back i16,i64 and f64,i64 for scan.sum due regressions

86b5c3a

Workaround non-addable value types

89a40f4

Relace use of cub::Traits

f80397d

Clarify input type in scan benchmark

c6c7d25

Co-authored-by: Georgii Evtushenko <[email protected]>

Redesign scan policy selection

8b8e992

After discussion with Georgii

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 8502137 to 622450c Compare February 6, 2025 19:14

bernhardmgruber requested a review from a team as a code owner February 6, 2025 19:14

bernhardmgruber changed the title ~~Add b200 tunings for scan.exclusive.max/sum~~ Add b200 tunings for scan.exclusive.sum Feb 6, 2025

Drop max benchmarks

9df7a86

bernhardmgruber force-pushed the tune_scan_exc_max_sum branch from 622450c to 9df7a86 Compare February 6, 2025 19:16

bernhardmgruber requested a review from elstehle February 6, 2025 19:20

Fix iterator traits

d52cf58

bernhardmgruber enabled auto-merge (squash) February 6, 2025 22:43

elstehle approved these changes Feb 7, 2025

View reviewed changes

bernhardmgruber merged commit 25523da into NVIDIA:main Feb 7, 2025
102 of 104 checks passed

bernhardmgruber deleted the tune_scan_exc_max_sum branch February 7, 2025 09:59

Add b200 tunings for scan.exclusive.sum #3559

Add b200 tunings for scan.exclusive.sum #3559

Conversation

bernhardmgruber commented Jan 28, 2025 • edited Loading

github-actions bot commented Jan 28, 2025

🟨 cub: Pass: 95%/44 | Total: 1d 14h | Avg: 52m 07s | Max: 1h 12m | Hits: 339%/3552

🟨 thrust: Pass: 97%/43 | Total: 23h 42m | Avg: 33m 04s | Max: 1h 06m | Hits: 224%/7376

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 51s | Avg: 5m 25s | Max: 8m 34s

🟩 python: Pass: 100%/1 | Total: 47m 15s | Avg: 47m 15s | Max: 47m 15s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

github-actions bot commented Jan 28, 2025

🟩 cub: Pass: 100%/44 | Total: 7h 59m | Avg: 10m 53s | Max: 32m 44s | Hits: 540%/3552

🟩 thrust: Pass: 100%/42 | Total: 6h 18m | Avg: 9m 00s | Max: 31m 31s | Hits: 365%/7376

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 33s | Avg: 5m 16s | Max: 8m 27s

🟩 python: Pass: 100%/1 | Total: 57m 52s | Avg: 57m 52s | Max: 57m 52s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 89)

github-actions bot commented Feb 5, 2025

🟨 cub: Pass: 97%/44 | Total: 1d 15h | Avg: 54m 04s | Max: 1h 24m | Hits: 334%/4168

🟩 thrust: Pass: 100%/43 | Total: 23h 48m | Avg: 33m 13s | Max: 1h 01m | Hits: 209%/9230

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 7m 10s | Avg: 3m 35s | Max: 4m 49s

🟩 python: Pass: 100%/1 | Total: 26m 50s | Avg: 26m 50s | Max: 26m 50s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

bernhardmgruber left a comment

Choose a reason for hiding this comment

bernhardmgruber Feb 5, 2025

Choose a reason for hiding this comment

bernhardmgruber Feb 5, 2025

Choose a reason for hiding this comment

gonidelis commented Feb 6, 2025 • edited Loading

bernhardmgruber commented Feb 6, 2025

bernhardmgruber commented Feb 6, 2025

github-actions bot commented Feb 6, 2025

🟩 cub: Pass: 100%/44 | Total: 8h 03m | Avg: 10m 59s | Max: 31m 14s | Hits: 93%/52320

🟩 thrust: Pass: 100%/43 | Total: 14h 49m | Avg: 20m 41s | Max: 37m 35s | Hits: 87%/79625

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 7m 50s | Avg: 3m 55s | Max: 5m 30s | Hits: 98%/280

🟩 python: Pass: 100%/1 | Total: 30m 28s | Avg: 30m 28s | Max: 30m 28s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

github-actions bot commented Feb 7, 2025

bernhardmgruber commented Jan 28, 2025 •

edited

Loading

gonidelis commented Feb 6, 2025 •

edited

Loading