Add oneDNN(DNNL) backend (new simplified version)

* Backend logic is based on BLAS backend * Implemented support for MUL_MAT operation * Implemented MUL_MAT fusing with subsequential ADD as bias-add * Implemented weights 'pre-packing'(reordering) for MUL_MAT operation Notes: * This it is the second version of the DNNL-backend based on refactored ggml backend support implemented together with BLAS-backend * It is recommended to enable GGML_OPENMP when oneDNN compiled with DNNL_CPU_RUNTIME=OMP(default)
ggml-org · Jun 28, 2024 · a5d602d · a5d602d
1 parent e002d05
commit a5d602d
Show file tree

Hide file tree

Showing 5 changed files with 493 additions and 0 deletions.
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -105,6 +105,7 @@ option(GGML_BLAS                            "ggml: use BLAS"
 set(GGML_BLAS_VENDOR ${GGML_BLAS_VENDOR_DEFAULT} CACHE STRING
                                             "ggml: BLAS library vendor")
 option(GGML_LLAMAFILE                       "ggml: use ggml SGEMM"                            OFF)
+option(GGML_DNNL                            "ggml: use OneDNN"                                OFF)
 
 option(GGML_CUDA                            "ggml: use CUDA"                                  OFF)
 option(GGML_CUDA_FORCE_DMMV                 "ggml: use dmmv instead of mmvq CUDA kernels"     OFF)

diff --git a/examples/gpt-2/main-sched.cpp b/examples/gpt-2/main-sched.cpp
@@ -14,6 +14,10 @@
 #include "ggml-blas.h"
 #endif
 
+#ifdef GGML_USE_DNNL
+#include "ggml-dnnl.h"
+#endif
+
 #include "common.h"
 #include "common-ggml.h"
 
@@ -145,6 +149,15 @@ void init_backends(gpt2_model & model, const gpt_params & params) {
     }
 #endif
 
+#ifdef GGML_USE_DNNL
+    ggml_backend_t dnnl_backend = ggml_backend_dnnl_init();
+    if (!dnnl_backend) {
+        fprintf(stderr, "%s: failed to initialize DNNL backend\n", __func__);
+    } else {
+        model.backends.push_back(dnnl_backend);
+    }
+#endif
+
     // always add the CPU backend as a fallback
     ggml_backend_t cpu_backend = ggml_backend_cpu_init();
     ggml_backend_cpu_set_n_threads(cpu_backend, params.n_threads);

diff --git a/include/ggml-dnnl.h b/include/ggml-dnnl.h
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "ggml.h"
+#include "ggml-backend.h"
+
+#ifdef  __cplusplus
+extern "C" {
+#endif
+
+// backend API
+GGML_API GGML_CALL ggml_backend_t ggml_backend_dnnl_init();
+GGML_API GGML_CALL bool ggml_backend_is_dnnl(ggml_backend_t backend);
+
+#ifdef  __cplusplus
+}
+#endif
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -246,6 +246,24 @@ if (GGML_LLAMAFILE)
     set(GGML_SOURCES_LLAMAFILE sgemm.cpp)
 endif()
 
+if (GGML_DNNL)
+    find_package(dnnl)
+    if (dnnl_FOUND)
+        message(STATUS "OneDNN found")
+
+        add_compile_definitions(GGML_USE_DNNL)
+
+        set(GGML_HEADERS_DNNL ../include/ggml-dnnl.h)
+        set(GGML_SOURCES_DNNL ggml-dnnl.cpp)
+
+        set(GGML_EXTRA_LIBS  ${GGML_EXTRA_LIBS} DNNL::dnnl)
+        list(APPEND GGML_CDEF_PUBLIC GGML_USE_DNNL)
+
+    else()
+        message(WARNING "OneDNN not found")
+    endif()
+endif()
+
 if (GGML_CUDA)
     cmake_minimum_required(VERSION 3.18)  # for CMAKE_CUDA_ARCHITECTURES
 
@@ -1151,6 +1169,7 @@ add_library(ggml
             ${GGML_SOURCES_ROCM}      ${GGML_HEADERS_ROCM}
             ${GGML_SOURCES_BLAS}      ${GGML_HEADERS_BLAS}
             ${GGML_SOURCES_LLAMAFILE} ${GGML_HEADERS_LLAMAFILE}
+            ${GGML_SOURCES_DNNL}      ${GGML_HEADERS_DNNL}
             )
 
 if (EMSCRIPTEN)