Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into fix_class_center_sample

HeyDavid633 · HeyDavid633 · commit 2cafe8ac8782 · 2025-08-01T14:42:42.000+08:00
diff --git a/paddle/fluid/pir/serialize_deserialize/CMakeLists.txt b/paddle/fluid/pir/serialize_deserialize/CMakeLists.txt
@@ -13,7 +13,7 @@ endif()
 
 file(GLOB_RECURSE YAML_PATCH_FILES "*.yaml")
 # change pir version when new patches are added
-add_definitions(-DDEVELOP_VERSION=2)
+add_definitions(-DDEVELOP_VERSION=0)
 add_definitions(-DRELEASE_VERSION=2)
 set(TEMPLATE_FILE ${CMAKE_CURRENT_SOURCE_DIR}/patch/template.h.in)
 set(PATCH_HEADER ${CMAKE_CURRENT_BINARY_DIR}/patch/patch.h)
diff --git a/paddle/fluid/pir/serialize_deserialize/patch/Readme.md b/paddle/fluid/pir/serialize_deserialize/patch/Readme.md
@@ -146,6 +146,7 @@ type_patches:
       - type : pir::Int64Attribute       # 新增属性类型为Int64Attribute
       - data : 0                      # 新增属性默认值
 ```
+更多patch配置案例可以参考相关单测，在`Paddle/test/cpp/pir/serialize_deserialize` 目录下。
 
 ## pir_version 配置说明
 ### C++端版本号管理与CMake配置
@@ -162,11 +163,12 @@ type_patches:
   │  ├─0.yaml
   │  └─1.yaml
   ```
-  - RELEASE_VERSION 为已发布的版本中PIR版本号，即为patch yaml文件名的最大值。
-  - DEVELOP_VERSION 为当前develop分支下的PIR版本号，若存在未发布的新增patch，配置在`0.yaml`中，且当前的develop pir 版本号为0。
+  - RELEASE_VERSION 为已发布的版本中PIR版本号，即为patch yaml文件名的最大值，每次新版本发布且存在新增patch时，`RELEASE_VERSION + 1`，若无新增patch则无需修改。
+  - DEVELOP_VERSION 为当前develop分支下的PIR版本号，若需要新增patch，配置在`0.yaml`中（没有则说明当前为新版本发布后第一次新增patch，需要新建文件），并将`-DDEVELOP_VERSION`设置为0。
 
 - ReadModule和WriteModule参数中的pir_version设为默认值，可以不用传递。pir_version 函数默认值为-1，进入函数后会获取CMake中配置的当前的PIR版本号。
 
+- 完整修改配置流程可以参考PR：https://github.com/PaddlePaddle/Paddle/pull/72751（修改DDEVELOP_VERSION），https://github.com/PaddlePaddle/Paddle/pull/72639（新增patch yaml）
 ### Python端
 - Paddle的主版本号定义在Python端，与PIR version不产生关联。Python端不再需要获取和传入pir_version，直接使用默认值即可。
 ### Paddle发版要求
diff --git a/paddle/fluid/pybind/eager_method.cc b/paddle/fluid/pybind/eager_method.cc
@@ -1414,7 +1414,8 @@ static PyObject* tensor_method_set_underline_tensor(TensorObject* self,
     if (self->tensor.is_dense_tensor()) {
       auto* dst_tensor =
           static_cast<phi::DenseTensor*>(self->tensor.impl().get());
-      if (!dst_tensor->meta().is_contiguous() ||
+      if (self->tensor.has_allocation() &&
+              !dst_tensor->meta().is_contiguous() ||
           !src_tensor->meta().is_contiguous()) {
         VLOG(8) << "set_tensor() method , src or dst tensor is not contiguous";
         if (!FLAGS_use_stride_kernel) {
diff --git a/paddle/phi/kernels/gpu/cross_entropy_kernel.cu b/paddle/phi/kernels/gpu/cross_entropy_kernel.cu
@@ -713,14 +713,16 @@ template <typename T>
 static void SoftmaxWithCrossEntropySoftLabel(const GPUContext& dev_ctx,
                                              const int rank,
                                              const int axis,
-                                             const T* logits_data,
+                                             const DenseTensor& logits,
                                              const T* labels_data,
-                                             T* softmax_data,
+                                             DenseTensor* softmax,
                                              T* loss_data,
                                              int N,
                                              int dim,
                                              int D) {
   constexpr int kMaxBlockDim = 512;
+  auto* logits_data = logits.data<T>();
+  auto* softmax_data = softmax->data<T>();
   int64_t block_dim = dim >= kMaxBlockDim
                           ? kMaxBlockDim
                           : (1 << static_cast<int>(std::log2(dim)));
@@ -762,13 +764,7 @@ static void SoftmaxWithCrossEntropySoftLabel(const GPUContext& dev_ctx,
     GPUDNNDataLayout layout = GPUDNNDataLayout::kNCHW;
 #ifdef PADDLE_WITH_HIP
     miopenTensorDescriptor_t descp = desc.descriptor<T>(layout, tensor_dims);
-#else
-    cudnnTensorDescriptor_t descp = desc.descriptor<T>(layout, tensor_dims);
-#endif
-
     auto handle = dev_ctx.cudnn_handle();
-
-#ifdef PADDLE_WITH_HIP
     auto mode = axis == rank - 1 ? MIOPEN_SOFTMAX_MODE_INSTANCE
                                  : MIOPEN_SOFTMAX_MODE_CHANNEL;
     PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::miopenSoftmaxForward_V2(
@@ -782,18 +778,8 @@ static void SoftmaxWithCrossEntropySoftLabel(const GPUContext& dev_ctx,
         MIOPEN_SOFTMAX_LOG,
         mode));
 #else
-    auto mode = axis == rank - 1 ? CUDNN_SOFTMAX_MODE_INSTANCE
-                                 : CUDNN_SOFTMAX_MODE_CHANNEL;
-    PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::cudnnSoftmaxForward(
-        handle,
-        CUDNN_SOFTMAX_LOG,
-        mode,
-        phi::backends::gpu::CudnnDataType<T>::kOne(),
-        descp,
-        logits_data,
-        phi::backends::gpu::CudnnDataType<T>::kZero(),
-        descp,
-        softmax_data));
+    SoftmaxForwardCUDAKernelDriver<T, true>(dev_ctx, logits, axis, softmax);
+    softmax_data = softmax->data<T>();
 #endif
 
     const int kDimLog2 = static_cast<int>(Log2Ceil(dim));
@@ -1170,7 +1156,7 @@ static void SoftmaxWithCrossEntropyHardLabel(const GPUContext& dev_ctx,
   VLOG(7) << "rank=" << rank << ", axis = " << axis << ", N = " << N
           << ", dim = " << dim << ", D = " << D;
   auto* logits_data = logits.data<T>();
-  auto* softmax_data = dev_ctx.template Alloc<T>(softmax);
+  auto* softmax_data = softmax->data<T>();
   auto stream = dev_ctx.stream();
   constexpr int max_dim = 320;
   if (D == 1) {
@@ -1216,8 +1202,6 @@ static void SoftmaxWithCrossEntropyHardLabel(const GPUContext& dev_ctx,
         MIOPEN_SOFTMAX_LOG,
         mode));
 #else
-    auto mode = axis == rank - 1 ? CUDNN_SOFTMAX_MODE_INSTANCE
-                                 : CUDNN_SOFTMAX_MODE_CHANNEL;
     SoftmaxForwardCUDAKernelDriver<T, true>(dev_ctx, logits, axis, softmax);
     softmax_data = softmax->data<T>();
 #endif
@@ -1352,14 +1336,13 @@ void CrossEntropyWithSoftmaxCUDAKernel(const GPUContext& dev_ctx,
   }
 
   if (soft_label) {
-    auto* logits_data = logits.data<T>();
     auto* labels_data = label.data<T>();
     SoftmaxWithCrossEntropySoftLabel<T>(dev_ctx,
                                         rank,
                                         axis_v,
-                                        logits_data,
+                                        logits,
                                         labels_data,
-                                        softmax_data,
+                                        softmax,
                                         loss_data,
                                         n,
                                         axis_dim,
diff --git a/python/paddle/tensor/manipulation.py b/python/paddle/tensor/manipulation.py
@@ -6680,10 +6680,15 @@ def take_along_axis(
         )
     axis = non_negative_axis(arr, axis)
     if broadcast:
-        broadcast_shape = infer_broadcast_shape(arr, indices, axis)
-        if not broadcast_shape:
-            # if indices matrix have larger size than arr, arr should broadcast into indices shape.
-            broadcast_shape = indices.shape
+        broadcast_shape_list = list(arr.shape)
+        for i in range(len(arr.shape)):
+            if indices.shape[i] == 0 or arr.shape[i] == 0:
+                broadcast_shape_list[i] = 0
+            else:
+                broadcast_shape_list[i] = max(arr.shape[i], indices.shape[i])
+        broadcast_shape_list[axis] = list(indices.shape)[axis]
+        broadcast_shape = tuple(broadcast_shape_list)
+
         indices = paddle.broadcast_to(indices, broadcast_shape)
         broadcast_shape_list = list(broadcast_shape)
         broadcast_shape_list[axis] = list(arr.shape)[axis]