davebayer
diff --git a/‎.github/CODEOWNERS
+2-2 b/‎.github/CODEOWNERS
+2-2
diff --git a/‎cub/benchmarks/bench/reduce/custom.cu
-42 b/‎cub/benchmarks/bench/reduce/custom.cu
-42
diff --git a/‎docs/libcudacxx/standard_api/c_library.rst
+3 b/‎docs/libcudacxx/standard_api/c_library.rst
+3
diff --git a/‎libcudacxx/include/cuda/__memcpy_async/dispatch_memcpy_async.h
+2-2 b/‎libcudacxx/include/cuda/__memcpy_async/dispatch_memcpy_async.h
+2-2
diff --git a/‎libcudacxx/include/cuda/std/__algorithm/copy.h
+2-2 b/‎libcudacxx/include/cuda/std/__algorithm/copy.h
+2-2
diff --git a/‎libcudacxx/include/cuda/std/__atomic/functions/cuda_local.h
+8-7 b/‎libcudacxx/include/cuda/std/__atomic/functions/cuda_local.h
+8-7
diff --git a/‎libcudacxx/include/cuda/std/__atomic/types/common.h
+2-2 b/‎libcudacxx/include/cuda/std/__atomic/types/common.h
+2-2
diff --git a/‎libcudacxx/include/cuda/std/__atomic/types/small.h
+3-2 b/‎libcudacxx/include/cuda/std/__atomic/types/small.h
+3-2
diff --git a/‎libcudacxx/include/cuda/std/__atomic/wait/notify_wait.h
+5-1 b/‎libcudacxx/include/cuda/std/__atomic/wait/notify_wait.h
+5-1
diff --git a/‎libcudacxx/include/cuda/std/__bit/bit_cast.h
+1-1 b/‎libcudacxx/include/cuda/std/__bit/bit_cast.h
+1-1
diff --git a/‎libcudacxx/include/cuda/std/__bit/reference.h
-1 b/‎libcudacxx/include/cuda/std/__bit/reference.h
-1
diff --git a/‎libcudacxx/include/cuda/std/__functional/hash.h
+2-2 b/‎libcudacxx/include/cuda/std/__functional/hash.h
+2-2
diff --git a/‎libcudacxx/include/cuda/std/__memory/allocator_traits.h
+1-1 b/‎libcudacxx/include/cuda/std/__memory/allocator_traits.h
+1-1
diff --git a/‎libcudacxx/include/cuda/std/cstring
+103 b/‎libcudacxx/include/cuda/std/cstring
+103
diff --git a/‎libcudacxx/include/cuda/std/detail/libcxx/include/algorithm
-1 b/‎libcudacxx/include/cuda/std/detail/libcxx/include/algorithm
-1
@@ -25,5 +25,5 @@ benchmarks/ @nvidia/cccl-benchmark-codeowners
 **/benchmarks @nvidia/cccl-benchmark-codeowners
 
 # docs
-docs/ @nvidia/cccl-codeowners
-examples/ @nvidia/cccl-codeowners
+docs/ @nvidia/cccl-docs-codeowners
+examples/ @nvidia/cccl-docs-codeowners
@@ -30,3 +30,6 @@ Any Standard C++ header not listed below is omitted.
    * - `\<cuda/std/cstdlib\> <https://en.cppreference.com/w/cpp/header/cstdlib>`_
      - Common utilities
      - libcu++ 2.2.0 / CCCL 2.2.0 / CUDA 12.3
+   * - `\<cuda/std/cstring\> <https://en.cppreference.com/w/cpp/header/cstring>`_
+     - Provides array manipulation functions such as ``memcpy``, ``memset`` and ``memcmp``
+     - CCCL 3.0.0
@@ -28,7 +28,7 @@
 #include <cuda/__memcpy_async/cp_async_shared_global.h>
 #include <cuda/std/cstddef>
 #include <cuda/std/cstdint>
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstring>
 
 #include <nv/target>
 
@@ -135,7 +135,7 @@ _CCCL_NODISCARD _LIBCUDACXX_HIDE_FROM_ABI __completion_mechanism __dispatch_memc
     (
       // Host code path:
       if (__group.thread_rank() == 0) {
-        memcpy(__dest_char, __src_char, __size);
+        _CUDA_VSTD::memcpy(__dest_char, __src_char, __size);
       } return __completion_mechanism::__sync;));
 }
 
 
@@ -28,8 +28,8 @@
 #include <cuda/std/__type_traits/is_trivially_copyable.h>
 #include <cuda/std/__type_traits/remove_const.h>
 #include <cuda/std/cstdint>
-#include <cuda/std/cstdlib> // ::memmove
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstdlib>
+#include <cuda/std/cstring> // memmove
 
 _LIBCUDACXX_BEGIN_NAMESPACE_STD
 
 
@@ -22,6 +22,7 @@
 
 #include <cuda/std/__atomic/types/common.h>
 #include <cuda/std/cstdint>
+#include <cuda/std/cstring>
 
 // This file works around a bug in CUDA in which the compiler miscompiles
 // atomics to automatic storage (local memory). This bug is not fixed on any
@@ -96,7 +97,7 @@ _CCCL_DEVICE inline bool __cuda_load_weak_if_local(const volatile void* __ptr, v
   {
     return false;
   }
-  memcpy(__ret, const_cast<const void*>(__ptr), __size);
+  _CUDA_VSTD::memcpy(__ret, const_cast<const void*>(__ptr), __size);
   // Required to workaround a compiler bug, see nvbug/4064730
   NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))
   return true;
@@ -108,7 +109,7 @@ _CCCL_DEVICE inline bool __cuda_store_weak_if_local(volatile void* __ptr, const
   {
     return false;
   }
-  memcpy(const_cast<void*>(__ptr), __val, __size);
+  _CUDA_VSTD::memcpy(const_cast<void*>(__ptr), __val, __size);
   return true;
 }
 
@@ -122,12 +123,12 @@ __cuda_compare_exchange_weak_if_local(volatile _Type* __ptr, _Type* __expected,
   }
   if (__atomic_memcmp(const_cast<const _Type*>(__ptr), const_cast<const _Type*>(__expected), sizeof(_Type)) == 0)
   {
-    memcpy(const_cast<_Type*>(__ptr), const_cast<_Type const*>(__desired), sizeof(_Type));
+    _CUDA_VSTD::memcpy(const_cast<_Type*>(__ptr), const_cast<_Type const*>(__desired), sizeof(_Type));
     *__success = true;
   }
   else
   {
-    memcpy(const_cast<_Type*>(__expected), const_cast<_Type const*>(__ptr), sizeof(_Type));
+    _CUDA_VSTD::memcpy(const_cast<_Type*>(__expected), const_cast<_Type const*>(__ptr), sizeof(_Type));
     *__success = false;
   }
   NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))
@@ -141,8 +142,8 @@ _CCCL_DEVICE bool __cuda_exchange_weak_if_local(volatile _Type* __ptr, _Type* __
   {
     return false;
   }
-  memcpy(const_cast<_Type*>(__ret), const_cast<const _Type*>(__ptr), sizeof(_Type));
-  memcpy(const_cast<_Type*>(__ptr), const_cast<const _Type*>(__val), sizeof(_Type));
+  _CUDA_VSTD::memcpy(const_cast<_Type*>(__ret), const_cast<const _Type*>(__ptr), sizeof(_Type));
+  _CUDA_VSTD::memcpy(const_cast<_Type*>(__ptr), const_cast<const _Type*>(__val), sizeof(_Type));
   NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))
   return true;
 }
@@ -154,7 +155,7 @@ _CCCL_DEVICE bool __cuda_fetch_weak_if_local(volatile _Type* __ptr, _Type __val,
   {
     return false;
   }
-  memcpy(const_cast<_Type*>(__ret), const_cast<const _Type*>(__ptr), sizeof(_Type));
+  _CUDA_VSTD::memcpy(const_cast<_Type*>(__ret), const_cast<const _Type*>(__ptr), sizeof(_Type));
   __bop(*__ptr, __val);
   NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))
   return true;
 
@@ -25,7 +25,7 @@
 #include <cuda/std/__type_traits/is_assignable.h>
 #include <cuda/std/__type_traits/remove_cv.h>
 #include <cuda/std/__type_traits/remove_cvref.h>
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstring>
 
 _LIBCUDACXX_BEGIN_NAMESPACE_STD
 
@@ -92,7 +92,7 @@ _CCCL_HOST_DEVICE inline int __atomic_memcmp(void const* __lhs, void const* __rh
        }
      } return 0;),
     NV_IS_HOST,
-    (return memcmp(__lhs, __rhs, __count);))
+    (return _CUDA_VSTD::memcmp(__lhs, __rhs, __count);))
 }
 
 _LIBCUDACXX_END_NAMESPACE_STD
 
@@ -28,6 +28,7 @@
 #include <cuda/std/__type_traits/enable_if.h>
 #include <cuda/std/__type_traits/is_arithmetic.h>
 #include <cuda/std/__type_traits/is_signed.h>
+#include <cuda/std/cstring>
 
 _LIBCUDACXX_BEGIN_NAMESPACE_STD
 
@@ -53,15 +54,15 @@ template <class _Tp, enable_if_t<!_CCCL_TRAIT(is_arithmetic, _Tp), int> = 0>
 _CCCL_HOST_DEVICE inline __atomic_small_proxy_t<_Tp> __atomic_small_to_32(_Tp __val)
 {
   __atomic_small_proxy_t<_Tp> __temp{};
-  memcpy(&__temp, &__val, sizeof(_Tp));
+  _CUDA_VSTD::memcpy(&__temp, &__val, sizeof(_Tp));
   return __temp;
 }
 
 template <class _Tp, enable_if_t<!_CCCL_TRAIT(is_arithmetic, _Tp), int> = 0>
 _CCCL_HOST_DEVICE inline _Tp __atomic_small_from_32(__atomic_small_proxy_t<_Tp> __val)
 {
   _Tp __temp{};
-  memcpy(&__temp, &__val, sizeof(_Tp));
+  _CUDA_VSTD::memcpy(&__temp, &__val, sizeof(_Tp));
   return __temp;
 }
 
 
@@ -25,6 +25,10 @@
 #include <cuda/std/__atomic/scopes.h>
 #include <cuda/std/__atomic/wait/polling.h>
 
+#if !_CCCL_COMPILER(NVRTC)
+#  include <cstring>
+#endif // !_CCCL_COMPILER(NVRTC)
+
 _LIBCUDACXX_BEGIN_NAMESPACE_STD
 
 extern "C" _CCCL_DEVICE void __atomic_try_wait_unsupported_before_SM_70__();
@@ -56,7 +60,7 @@ _LIBCUDACXX_HIDE_FROM_ABI bool __nonatomic_compare_equal(_Tp const& __lhs, _Tp c
 #if _CCCL_HAS_CUDA_COMPILER
   return __lhs == __rhs;
 #else
-  return memcmp(&__lhs, &__rhs, sizeof(_Tp)) == 0;
+  return _CUDA_VSTD::memcmp(&__lhs, &__rhs, sizeof(_Tp)) == 0;
 #endif
 }
 
 
@@ -25,7 +25,7 @@
 #include <cuda/std/__type_traits/is_extended_floating_point.h>
 #include <cuda/std/__type_traits/is_trivially_copyable.h>
 #include <cuda/std/__type_traits/is_trivially_default_constructible.h>
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstring>
 
 _LIBCUDACXX_BEGIN_NAMESPACE_STD
 
 
@@ -30,7 +30,6 @@
 #include <cuda/std/__memory/pointer_traits.h>
 #include <cuda/std/__type_traits/conditional.h>
 #include <cuda/std/__utility/swap.h>
-#include <cuda/std/detail/libcxx/include/cstring>
 
 _CCCL_PUSH_MACROS
 
 
@@ -35,7 +35,7 @@
 #include <cuda/std/__utility/pair.h>
 #include <cuda/std/__utility/swap.h>
 #include <cuda/std/cstdint>
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstring>
 
 #ifndef __cuda_std__
 
@@ -45,7 +45,7 @@ template <class _Size>
 _LIBCUDACXX_HIDE_FROM_ABI _Size __loadword(const void* __p)
 {
   _Size __r;
-  std::memcpy(&__r, __p, sizeof(__r));
+  _CUDA_VSTD::memcpy(&__r, __p, sizeof(__r));
   return __r;
 }
 
 
@@ -35,7 +35,7 @@
 #include <cuda/std/__type_traits/void_t.h>
 #include <cuda/std/__utility/declval.h>
 #include <cuda/std/__utility/forward.h>
-#include <cuda/std/detail/libcxx/include/cstring>
+#include <cuda/std/cstring>
 #include <cuda/std/limits>
 
 _CCCL_PUSH_MACROS
 
@@ -0,0 +1,103 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of libcu++, the C++ Standard Library for your entire system,
+// under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+// SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES.
+//
+//===----------------------------------------------------------------------===//
+
+#ifndef _CUDA_STD_CSTRING
+#define _CUDA_STD_CSTRING
+
+#include <cuda/std/detail/__config>
+
+#if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)
+#  pragma GCC system_header
+#elif defined(_CCCL_IMPLICIT_SYSTEM_HEADER_CLANG)
+#  pragma clang system_header
+#elif defined(_CCCL_IMPLICIT_SYSTEM_HEADER_MSVC)
+#  pragma system_header
+#endif // no system header
+
+#include <cuda/std/__cstddef/types.h>
+
+#if !_CCCL_COMPILER(NVRTC)
+#  include <cstring>
+#endif // !_CCCL_COMPILER(NVRTC)
+
+_LIBCUDACXX_BEGIN_NAMESPACE_STD
+
+using ::memcpy;
+using ::memset;
+using ::size_t;
+
+_LIBCUDACXX_HIDE_FROM_ABI const void* memchr(const void* __ptr, int __c, size_t __n) noexcept
+{
+  NV_IF_ELSE_TARGET(
+    NV_IS_HOST,
+    (return ::std::memchr(__ptr, __c, __n);),
+    (auto __p = static_cast<const unsigned char*>(__ptr); const auto __p_end = __p + __n;
+
+     while (__p != __p_end) {
+       if (*__p == static_cast<unsigned char>(__c))
+       {
+         return __p;
+       }
+       ++__p;
+     }
+
+     return nullptr;))
+}
+
+_LIBCUDACXX_HIDE_FROM_ABI void* memchr(void* __ptr, int __c, size_t __n) noexcept
+{
+  NV_IF_ELSE_TARGET(NV_IS_HOST,
+                    (return ::std::memchr(__ptr, __c, __n);),
+                    (return const_cast<void*>(_CUDA_VSTD::memchr(const_cast<const void*>(__ptr), __c, __n));))
+}
+
+_LIBCUDACXX_HIDE_FROM_ABI void* memmove(void* __dst, const void* __src, size_t __n) noexcept
+{
+  NV_IF_ELSE_TARGET(
+    NV_IS_HOST,
+    (return ::std::memmove(__dst, __src, __n);),
+    (auto __d = (__dst <= __src) ? static_cast<unsigned char*>(__dst) : (static_cast<unsigned char*>(__dst) + __n - 1);
+     auto __s = (__dst <= __src) ? static_cast<const unsigned char*>(__src)
+                                 : (static_cast<const unsigned char*>(__src) + __n - 1);
+     const auto __inc   = (__dst <= __src) ? 1 : -1;
+     const auto __d_end = (__dst <= __src) ? (__d + __n) : (static_cast<unsigned char*>(__dst) - 1);
+
+     while (__d != __d_end) {
+       *__d = *__s;
+       __d += __inc;
+       __s += __inc;
+     }
+
+     return __dst;))
+}
+
+_LIBCUDACXX_HIDE_FROM_ABI int memcmp(const void* __lhs, const void* __rhs, size_t __n) noexcept
+{
+  NV_IF_ELSE_TARGET(
+    NV_IS_HOST,
+    (return ::std::memcmp(__lhs, __rhs, __n);),
+    (auto __l = static_cast<const unsigned char*>(__lhs); auto __r = static_cast<const unsigned char*>(__rhs);
+     const auto __l_end                                            = __l + __n;
+
+     while (__l != __l_end) {
+       if (*__l != *__r)
+       {
+         return *__l < *__r ? -1 : 1;
+       }
+       ++__l;
+       ++__r;
+     }
+
+     return 0;))
+}
+
+_LIBCUDACXX_END_NAMESPACE_STD
+
+#endif // _CUDA_STD_CSTRING
@@ -751,7 +751,6 @@ template <class BidirectionalIterator, class Compare>
 #include <cuda/std/__type_traits/remove_const.h>
 #include <cuda/std/bit>
 #include <cuda/std/cstddef>
-#include <cuda/std/detail/libcxx/include/cstring>
 #include <cuda/std/functional>
 #include <cuda/std/initializer_list>
 #include <cuda/std/type_traits>
Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@`
`28`	`28`	`#include <cuda/__memcpy_async/cp_async_shared_global.h>`
`29`	`29`	`#include <cuda/std/cstddef>`
`30`	`30`	`#include <cuda/std/cstdint>`
`31`		`-#include <cuda/std/detail/libcxx/include/cstring>`
	`31`	`+#include <cuda/std/cstring>`
`32`	`32`
`33`	`33`	`#include <nv/target>`
`34`	`34`
`@@ -135,7 +135,7 @@ _CCCL_NODISCARD _LIBCUDACXX_HIDE_FROM_ABI __completion_mechanism __dispatch_memc`
`135`	`135`	`(`
`136`	`136`	`// Host code path:`
`137`	`137`	`if (__group.thread_rank() == 0) {`
`138`		`- memcpy(__dest_char, __src_char, __size);`
	`138`	`+ _CUDA_VSTD::memcpy(__dest_char, __src_char, __size);`
`139`	`139`	`} return __completion_mechanism::__sync;));`
`140`	`140`	`}`
`141`	`141`
Original file line number	Diff line number	Diff line change
`@@ -22,6 +22,7 @@`
`22`	`22`
`23`	`23`	`#include <cuda/std/__atomic/types/common.h>`
`24`	`24`	`#include <cuda/std/cstdint>`
	`25`	`+#include <cuda/std/cstring>`
`25`	`26`
`26`	`27`	`// This file works around a bug in CUDA in which the compiler miscompiles`
`27`	`28`	`// atomics to automatic storage (local memory). This bug is not fixed on any`
`@@ -96,7 +97,7 @@ _CCCL_DEVICE inline bool __cuda_load_weak_if_local(const volatile void* __ptr, v`
`96`	`97`	`{`
`97`	`98`	`return false;`
`98`	`99`	`}`
`99`		`- memcpy(__ret, const_cast<const void*>(__ptr), __size);`
	`100`	`+ _CUDA_VSTD::memcpy(__ret, const_cast<const void*>(__ptr), __size);`
`100`	`101`	`// Required to workaround a compiler bug, see nvbug/4064730`
`101`	`102`	`NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))`
`102`	`103`	`return true;`
`@@ -108,7 +109,7 @@ _CCCL_DEVICE inline bool __cuda_store_weak_if_local(volatile void* __ptr, const`
`108`	`109`	`{`
`109`	`110`	`return false;`
`110`	`111`	`}`
`111`		`- memcpy(const_cast<void*>(__ptr), __val, __size);`
	`112`	`+ _CUDA_VSTD::memcpy(const_cast<void*>(__ptr), __val, __size);`
`112`	`113`	`return true;`
`113`	`114`	`}`
`114`	`115`
`@@ -122,12 +123,12 @@ __cuda_compare_exchange_weak_if_local(volatile _Type* __ptr, _Type* __expected,`
`122`	`123`	`}`
`123`	`124`	`if (__atomic_memcmp(const_cast<const _Type>(__ptr), const_cast<const _Type>(__expected), sizeof(_Type)) == 0)`
`124`	`125`	`{`
`125`		`- memcpy(const_cast<_Type>(__ptr), const_cast<_Type const>(__desired), sizeof(_Type));`
	`126`	`+ _CUDA_VSTD::memcpy(const_cast<_Type>(__ptr), const_cast<_Type const>(__desired), sizeof(_Type));`
`126`	`127`	`*__success = true;`
`127`	`128`	`}`
`128`	`129`	`else`
`129`	`130`	`{`
`130`		`- memcpy(const_cast<_Type>(__expected), const_cast<_Type const>(__ptr), sizeof(_Type));`
	`131`	`+ _CUDA_VSTD::memcpy(const_cast<_Type>(__expected), const_cast<_Type const>(__ptr), sizeof(_Type));`
`131`	`132`	`*__success = false;`
`132`	`133`	`}`
`133`	`134`	`NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))`
`@@ -141,8 +142,8 @@ _CCCL_DEVICE bool __cuda_exchange_weak_if_local(volatile _Type* __ptr, _Type* __`
`141`	`142`	`{`
`142`	`143`	`return false;`
`143`	`144`	`}`
`144`		`- memcpy(const_cast<_Type>(__ret), const_cast<const _Type>(__ptr), sizeof(_Type));`
`145`		`- memcpy(const_cast<_Type>(__ptr), const_cast<const _Type>(__val), sizeof(_Type));`
	`145`	`+ _CUDA_VSTD::memcpy(const_cast<_Type>(__ret), const_cast<const _Type>(__ptr), sizeof(_Type));`
	`146`	`+ _CUDA_VSTD::memcpy(const_cast<_Type>(__ptr), const_cast<const _Type>(__val), sizeof(_Type));`
`146`	`147`	`NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))`
`147`	`148`	`return true;`
`148`	`149`	`}`
`@@ -154,7 +155,7 @@ _CCCL_DEVICE bool __cuda_fetch_weak_if_local(volatile _Type* __ptr, _Type __val,`
`154`	`155`	`{`
`155`	`156`	`return false;`
`156`	`157`	`}`
`157`		`- memcpy(const_cast<_Type>(__ret), const_cast<const _Type>(__ptr), sizeof(_Type));`
	`158`	`+ _CUDA_VSTD::memcpy(const_cast<_Type>(__ret), const_cast<const _Type>(__ptr), sizeof(_Type));`
`158`	`159`	`__bop(*__ptr, __val);`
`159`	`160`	`NV_IF_TARGET(NV_PROVIDES_SM_70, (__nanosleep(0);))`
`160`	`161`	`return true;`
Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@`
`25`	`25`	`#include <cuda/std/__type_traits/is_assignable.h>`
`26`	`26`	`#include <cuda/std/__type_traits/remove_cv.h>`
`27`	`27`	`#include <cuda/std/__type_traits/remove_cvref.h>`
`28`		`-#include <cuda/std/detail/libcxx/include/cstring>`
	`28`	`+#include <cuda/std/cstring>`
`29`	`29`
`30`	`30`	`_LIBCUDACXX_BEGIN_NAMESPACE_STD`
`31`	`31`
`@@ -92,7 +92,7 @@ _CCCL_HOST_DEVICE inline int __atomic_memcmp(void const* __lhs, void const* __rh`
`92`	`92`	`}`
`93`	`93`	`} return 0;),`
`94`	`94`	`NV_IS_HOST,`
`95`		`- (return memcmp(__lhs, __rhs, __count);))`
	`95`	`+ (return _CUDA_VSTD::memcmp(__lhs, __rhs, __count);))`
`96`	`96`	`}`
`97`	`97`
`98`	`98`	`_LIBCUDACXX_END_NAMESPACE_STD`
Original file line number	Diff line number	Diff line change
`@@ -28,6 +28,7 @@`
`28`	`28`	`#include <cuda/std/__type_traits/enable_if.h>`
`29`	`29`	`#include <cuda/std/__type_traits/is_arithmetic.h>`
`30`	`30`	`#include <cuda/std/__type_traits/is_signed.h>`
	`31`	`+#include <cuda/std/cstring>`
`31`	`32`
`32`	`33`	`_LIBCUDACXX_BEGIN_NAMESPACE_STD`
`33`	`34`
`@@ -53,15 +54,15 @@ template <class _Tp, enable_if_t<!_CCCL_TRAIT(is_arithmetic, _Tp), int> = 0>`
`53`	`54`	`_CCCL_HOST_DEVICE inline __atomic_small_proxy_t<_Tp> __atomic_small_to_32(_Tp __val)`
`54`	`55`	`{`
`55`	`56`	`__atomic_small_proxy_t<_Tp> __temp{};`
`56`		`- memcpy(&__temp, &__val, sizeof(_Tp));`
	`57`	`+ _CUDA_VSTD::memcpy(&__temp, &__val, sizeof(_Tp));`
`57`	`58`	`return __temp;`
`58`	`59`	`}`
`59`	`60`
`60`	`61`	`template <class _Tp, enable_if_t<!_CCCL_TRAIT(is_arithmetic, _Tp), int> = 0>`
`61`	`62`	`_CCCL_HOST_DEVICE inline _Tp __atomic_small_from_32(__atomic_small_proxy_t<_Tp> __val)`
`62`	`63`	`{`
`63`	`64`	`_Tp __temp{};`
`64`		`- memcpy(&__temp, &__val, sizeof(_Tp));`
	`65`	`+ _CUDA_VSTD::memcpy(&__temp, &__val, sizeof(_Tp));`
`65`	`66`	`return __temp;`
`66`	`67`	`}`
`67`	`68`
Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@`
`35`	`35`	`#include <cuda/std/__utility/pair.h>`
`36`	`36`	`#include <cuda/std/__utility/swap.h>`
`37`	`37`	`#include <cuda/std/cstdint>`
`38`		`-#include <cuda/std/detail/libcxx/include/cstring>`
	`38`	`+#include <cuda/std/cstring>`
`39`	`39`
`40`	`40`	`#ifndef __cuda_std__`
`41`	`41`
`@@ -45,7 +45,7 @@ template <class _Size>`
`45`	`45`	`_LIBCUDACXX_HIDE_FROM_ABI _Size __loadword(const void* __p)`
`46`	`46`	`{`
`47`	`47`	`_Size __r;`
`48`		`- std::memcpy(&__r, __p, sizeof(__r));`
	`48`	`+ _CUDA_VSTD::memcpy(&__r, __p, sizeof(__r));`
`49`	`49`	`return __r;`
`50`	`50`	`}`
`51`	`51`