rapidsai · rapids-bot · Aug 8, 2025 · Aug 5, 2025 · Aug 5, 2025 · Aug 5, 2025
@@ -45,6 +45,7 @@
 import com.nvidia.cuvs.CuVSMatrix;
 import com.nvidia.cuvs.CuVSResources;
 import com.nvidia.cuvs.SearchResults;
+import com.nvidia.cuvs.internal.common.CloseableRMMAllocation;
 import com.nvidia.cuvs.internal.panama.cuvsFilter;
 import java.io.InputStream;
 import java.io.OutputStream;
@@ -158,25 +159,28 @@ private IndexReference build(
 
     try (var resourcesAccessor = resources.access()) {
       long cuvsResources = resourcesAccessor.handle();
-      MemorySegment datasetMemorySegmentP = allocateRMMSegment(cuvsResources, datasetBytes);
+      try (var closeableDataMemorySegmentP = allocateRMMSegment(cuvsResources, datasetBytes)) {
+        MemorySegment datasetMemorySegmentP = closeableDataMemorySegmentP.handle();
 
-      cudaMemcpy(datasetMemorySegmentP, datasetMemSegment, datasetBytes, INFER_DIRECTION);
+        cudaMemcpy(datasetMemorySegmentP, datasetMemSegment, datasetBytes, INFER_DIRECTION);
 
-      long[] datasetShape = {rows, cols};
-      var tensorDataArena = Arena.ofShared();
-      MemorySegment datasetTensor =
-          prepareTensor(tensorDataArena, datasetMemorySegmentP, datasetShape, 2, 32, 2, 1);
+        long[] datasetShape = {rows, cols};
+        var tensorDataArena = Arena.ofShared();
+        MemorySegment datasetTensor =
+            prepareTensor(tensorDataArena, datasetMemorySegmentP, datasetShape, 2, 32, 2, 1);
 
-      var returnValue = cuvsStreamSync(cuvsResources);
-      checkCuVSError(returnValue, "cuvsStreamSync");
+        var returnValue = cuvsStreamSync(cuvsResources);
+        checkCuVSError(returnValue, "cuvsStreamSync");
 
-      returnValue = cuvsBruteForceBuild(cuvsResources, datasetTensor, 0, 0.0f, index);
-      checkCuVSError(returnValue, "cuvsBruteForceBuild");
+        returnValue = cuvsBruteForceBuild(cuvsResources, datasetTensor, 0, 0.0f, index);
+        checkCuVSError(returnValue, "cuvsBruteForceBuild");
 
-      returnValue = cuvsStreamSync(cuvsResources);
-      checkCuVSError(returnValue, "cuvsStreamSync");
+        returnValue = cuvsStreamSync(cuvsResources);
+        checkCuVSError(returnValue, "cuvsStreamSync");
 
-      return new IndexReference(datasetMemorySegmentP, datasetBytes, tensorDataArena, index);
+        closeableDataMemorySegmentP.release();
+        return new IndexReference(datasetMemorySegmentP, datasetBytes, tensorDataArena, index);
+      }
     } finally {
       omp_set_num_threads(1);
     }
@@ -205,15 +209,19 @@ public SearchResults search(BruteForceQuery cuvsQuery) throws Throwable {
 
       // prepare the prefiltering data
       final long prefilterDataLength;
+      final long prefilterBytes;
       final MemorySegment prefilterDataMemorySegment;
       BitSet[] prefilters = cuvsQuery.getPrefilters();
       if (prefilters != null && prefilters.length > 0) {
         BitSet concatenatedFilters = concatenate(prefilters, cuvsQuery.getNumDocs());
         long[] filters = concatenatedFilters.toLongArray();
         prefilterDataMemorySegment = buildMemorySegment(localArena, filters);
         prefilterDataLength = (long) cuvsQuery.getNumDocs() * prefilters.length;
+        long[] prefilterShape = {(prefilterDataLength + 31) / 32};
+        prefilterBytes = C_INT_BYTE_SIZE * prefilterShape[0];
       } else {
         prefilterDataLength = 0;
+        prefilterBytes = 0;
         prefilterDataMemorySegment = MemorySegment.NULL;
       }
 
@@ -223,77 +231,66 @@ public SearchResults search(BruteForceQuery cuvsQuery) throws Throwable {
       try (var resourcesAccessor = cuvsQuery.getResources().access()) {
         long cuvsResources = resourcesAccessor.handle();
 
-        long queriesBytes = C_FLOAT_BYTE_SIZE * numQueries * vectorDimension;
-        long neighborsBytes = C_LONG_BYTE_SIZE * numQueries * topk;
-        long distanceBytes = C_FLOAT_BYTE_SIZE * numQueries * topk;
-        long prefilterBytes = 0; // size assigned later
-
-        MemorySegment queriesDP = allocateRMMSegment(cuvsResources, queriesBytes);
-        MemorySegment neighborsDP = allocateRMMSegment(cuvsResources, neighborsBytes);
-        MemorySegment distancesDP = allocateRMMSegment(cuvsResources, distanceBytes);
-        MemorySegment prefilterDP = MemorySegment.NULL;
-
-        cudaMemcpy(queriesDP, querySeg, queriesBytes, INFER_DIRECTION);
-
-        long[] queriesShape = {numQueries, vectorDimension};
-        MemorySegment queriesTensor =
-            prepareTensor(localArena, queriesDP, queriesShape, 2, 32, 2, 1);
-        long[] neighborsShape = {numQueries, topk};
-        MemorySegment neighborsTensor =
-            prepareTensor(localArena, neighborsDP, neighborsShape, 0, 64, 2, 1);
-        long[] distancesShape = {numQueries, topk};
-        MemorySegment distancesTensor =
-            prepareTensor(localArena, distancesDP, distancesShape, 2, 32, 2, 1);
-
-        MemorySegment prefilter = cuvsFilter.allocate(localArena);
-        MemorySegment prefilterTensor;
-
-        if (prefilterDataMemorySegment == MemorySegment.NULL) {
-          cuvsFilter.type(prefilter, 0); // NO_FILTER
-          cuvsFilter.addr(prefilter, 0);
-        } else {
-          long[] prefilterShape = {(prefilterDataLength + 31) / 32};
-          long prefilterLen = prefilterShape[0];
-          prefilterBytes = C_INT_BYTE_SIZE * prefilterLen;
-
-          prefilterDP = allocateRMMSegment(cuvsResources, prefilterBytes);
-
-          cudaMemcpy(prefilterDP, prefilterDataMemorySegment, prefilterBytes, HOST_TO_DEVICE);
-
-          prefilterTensor = prepareTensor(localArena, prefilterDP, prefilterShape, 1, 32, 2, 1);
-
-          cuvsFilter.type(prefilter, 2);
-          cuvsFilter.addr(prefilter, prefilterTensor.address());
-        }
-
-        var returnValue = cuvsStreamSync(cuvsResources);
-        checkCuVSError(returnValue, "cuvsStreamSync");
-
-        returnValue =
-            cuvsBruteForceSearch(
-                cuvsResources,
-                bruteForceIndexReference.indexPtr,
-                queriesTensor,
-                neighborsTensor,
-                distancesTensor,
-                prefilter);
-        checkCuVSError(returnValue, "cuvsBruteForceSearch");
-
-        returnValue = cuvsStreamSync(cuvsResources);
-        checkCuVSError(returnValue, "cuvsStreamSync");
-
-        cudaMemcpy(neighborsMemorySegment, neighborsDP, neighborsBytes, INFER_DIRECTION);
-        cudaMemcpy(distancesMemorySegment, distancesDP, distanceBytes, INFER_DIRECTION);
-
-        returnValue = cuvsRMMFree(cuvsResources, neighborsDP, neighborsBytes);
-        checkCuVSError(returnValue, "cuvsRMMFree");
-        returnValue = cuvsRMMFree(cuvsResources, distancesDP, distanceBytes);
-        checkCuVSError(returnValue, "cuvsRMMFree");
-        returnValue = cuvsRMMFree(cuvsResources, queriesDP, queriesBytes);
-        checkCuVSError(returnValue, "cuvsRMMFree");
-        if (prefilterBytes > 0) {
-          returnValue = cuvsRMMFree(cuvsResources, prefilterDP, prefilterBytes);
-          checkCuVSError(returnValue, "cuvsRMMFree");
+        final long queriesBytes = C_FLOAT_BYTE_SIZE * numQueries * vectorDimension;
+        final long neighborsBytes = C_LONG_BYTE_SIZE * numQueries * topk;
+        final long distanceBytes = C_FLOAT_BYTE_SIZE * numQueries * topk;
+
+        try (var queriesDP = allocateRMMSegment(cuvsResources, queriesBytes);
+            var neighborsDP = allocateRMMSegment(cuvsResources, neighborsBytes);
+            var distancesDP = allocateRMMSegment(cuvsResources, distanceBytes);
+            var prefilterDP =
+                prefilterBytes > 0
+                    ? allocateRMMSegment(cuvsResources, prefilterBytes)
+                    : CloseableRMMAllocation.EMPTY) {
+
+          cudaMemcpy(queriesDP.handle(), querySeg, queriesBytes, INFER_DIRECTION);
+
+          long[] queriesShape = {numQueries, vectorDimension};
+          MemorySegment queriesTensor =
+              prepareTensor(localArena, queriesDP.handle(), queriesShape, 2, 32, 2, 1);
+          long[] neighborsShape = {numQueries, topk};
+          MemorySegment neighborsTensor =
+              prepareTensor(localArena, neighborsDP.handle(), neighborsShape, 0, 64, 2, 1);
+          long[] distancesShape = {numQueries, topk};
+          MemorySegment distancesTensor =
+              prepareTensor(localArena, distancesDP.handle(), distancesShape, 2, 32, 2, 1);
+
+          MemorySegment prefilter = cuvsFilter.allocate(localArena);
+          MemorySegment prefilterTensor;
+
+          if (prefilterDataMemorySegment == MemorySegment.NULL) {
+            cuvsFilter.type(prefilter, 0); // NO_FILTER
+            cuvsFilter.addr(prefilter, 0);
+          } else {
+            long[] prefilterShape = {(prefilterDataLength + 31) / 32};
+            cudaMemcpy(
+                prefilterDP.handle(), prefilterDataMemorySegment, prefilterBytes, HOST_TO_DEVICE);
+
+            prefilterTensor =
+                prepareTensor(localArena, prefilterDP.handle(), prefilterShape, 1, 32, 2, 1);
+
+            cuvsFilter.type(prefilter, 2);
+            cuvsFilter.addr(prefilter, prefilterTensor.address());
+          }
+
+          var returnValue = cuvsStreamSync(cuvsResources);
+          checkCuVSError(returnValue, "cuvsStreamSync");
+
+          returnValue =
+              cuvsBruteForceSearch(
+                  cuvsResources,
+                  bruteForceIndexReference.indexPtr,
+                  queriesTensor,
+                  neighborsTensor,
+                  distancesTensor,
+                  prefilter);
+          checkCuVSError(returnValue, "cuvsBruteForceSearch");
+
+          returnValue = cuvsStreamSync(cuvsResources);
+          checkCuVSError(returnValue, "cuvsStreamSync");
+
+          cudaMemcpy(neighborsMemorySegment, neighborsDP.handle(), neighborsBytes, INFER_DIRECTION);
+          cudaMemcpy(distancesMemorySegment, distancesDP.handle(), distanceBytes, INFER_DIRECTION);
         }
       }
       return BruteForceSearchResults.create(