rapidsai · rapids-bot · May 7, 2025 · Apr 9, 2025 · Apr 11, 2025 · Apr 14, 2025
@@ -34,7 +34,7 @@
 )
 
 
-def sklearn_compatible_dataset(X_train, X_test, y_train, _=None):
+def is_sklearn_compatible_dataset(X_train, X_test, y_train, _=None):
     """Check if a dataset is compatible with scikit-learn's requirements.
 
     Parameters
@@ -65,7 +65,7 @@ def sklearn_compatible_dataset(X_train, X_test, y_train, _=None):
     )
 
 
-def cuml_compatible_dataset(X_train, X_test, y_train, _=None):
+def is_cuml_compatible_dataset(X_train, X_test, y_train, _=None):
     """Check if a dataset is compatible with cuML's requirements.
 
     Parameters
@@ -308,8 +308,8 @@ def with_dtype(data, dtype):
 
 __all__ = [
     # Dataset compatibility
-    "sklearn_compatible_dataset",
-    "cuml_compatible_dataset",
+    "is_sklearn_compatible_dataset",
+    "is_cuml_compatible_dataset",
     # Dataset generation
     "make_classification",
     "make_classification_dataset",

@@ -16,12 +16,9 @@
 import cupy as cp
 import numpy as np
 from hypothesis import assume
-from hypothesis.extra.numpy import (
-    array_shapes,
-    arrays,
-    floating_dtypes,
-    integer_dtypes,
-)
+from hypothesis.extra.numpy import array_shapes, arrays
+from hypothesis.extra.numpy import floating_dtypes as np_floating_dtypes
+from hypothesis.extra.numpy import integer_dtypes
 from hypothesis.strategies import (
     composite,
     integers,
@@ -78,6 +75,23 @@
 ]
 
 
+@composite
+def dataset_dtypes(draw, sizes=(32, 64)):
+    """Generate floating point dtypes supported by cuML for datasets.
+
+    This strategy generates only little-endian float32 and float64 dtypes,
+    which are the floating point types supported by cuML for datasets.
+
+    Args:
+        sizes: A tuple of bit sizes to generate dtypes for. Defaults to
+               (32, 64) to generate float32 and float64 dtypes.
+
+    Returns:
+        A strategy that generates numpy dtypes.
+    """
+    return draw(np_floating_dtypes(sizes=sizes, endianness="<"))
+
+
 @composite
 def cuml_array_input_types(draw):
     """Generates all supported cuml array input types."""
@@ -329,7 +343,7 @@ def _get_limits(strategy):
 @composite
 def standard_datasets(
     draw,
-    dtypes=floating_dtypes(),
+    dtypes=dataset_dtypes(),
     n_samples=integers(min_value=0, max_value=200),
     n_features=integers(min_value=0, max_value=200),
     *,
@@ -393,7 +407,7 @@ def combined_datasets_strategy(*datasets, name=None, doc=None):
     @composite
     def strategy(
         draw,
-        dtypes=floating_dtypes(),
+        dtypes=dataset_dtypes(),
         n_samples=integers(min_value=1, max_value=200),
         n_features=integers(min_value=1, max_value=200),
     ):
@@ -467,7 +481,7 @@ def split_datasets(
 @composite
 def standard_regression_datasets(
     draw,
-    dtypes=floating_dtypes(),
+    dtypes=dataset_dtypes(),
     n_samples=integers(min_value=100, max_value=200),
     n_features=integers(min_value=100, max_value=200),
     *,
@@ -562,7 +576,7 @@ def standard_regression_datasets(
 @composite
 def standard_classification_datasets(
     draw,
-    dtypes=floating_dtypes(),
+    dtypes=dataset_dtypes(),
     n_samples=integers(min_value=100, max_value=200),
     n_features=integers(min_value=10, max_value=20),
     *,