apache · alamb · Nov 8, 2024 · Oct 31, 2024 · Nov 1, 2024 · Nov 1, 2024
diff --git a/arrow-string/src/like.rs b/arrow-string/src/like.rs
@@ -1708,7 +1708,93 @@ mod tests {
     }
 
     #[test]
-    fn like_scalar_null() {
+    fn string_null_like_pattern() {
+        // Different patterns have different execution code paths
+        for pattern in &[
+            "",           // can execute as equality check
+            "_",          // can execute as length check
+            "%",          // can execute as starts_with("") or non-null check
+            "a%",         // can execute as starts_with("a")
+            "%a",         // can execute as ends_with("")
+            "a%b",        // can execute as starts_with("a") && ends_with("b")
+            "%a%",        // can_execute as contains("a")
+            "%a%b_c_d%e", // can_execute as regular expression
+        ] {
+            let a = Scalar::new(StringArray::new_null(1));
+            let b = StringArray::new_scalar(pattern);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = Scalar::new(StringArray::new_null(1));
+            let b = StringArray::from_iter_values([pattern]);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = StringArray::new_null(1);
+            let b = StringArray::from_iter_values([pattern]);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = StringArray::new_null(1);
+            let b = StringArray::new_scalar(pattern);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+        }
+    }
+
+    #[test]
+    fn string_view_null_like_pattern() {
+        // Different patterns have different execution code paths
+        for pattern in &[
+            "",           // can execute as equality check
+            "_",          // can execute as length check
+            "%",          // can execute as starts_with("") or non-null check
+            "a%",         // can execute as starts_with("a")
+            "%a",         // can execute as ends_with("")
+            "a%b",        // can execute as starts_with("a") && ends_with("b")
+            "%a%",        // can_execute as contains("a")
+            "%a%b_c_d%e", // can_execute as regular expression
+        ] {
+            let a = Scalar::new(StringViewArray::new_null(1));
+            let b = StringViewArray::new_scalar(pattern);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = Scalar::new(StringViewArray::new_null(1));
+            let b = StringViewArray::from_iter_values([pattern]);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = StringViewArray::new_null(1);
+            let b = StringViewArray::from_iter_values([pattern]);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+
+            let a = StringViewArray::new_null(1);
+            let b = StringViewArray::new_scalar(pattern);
+            let r = like(&a, &b).unwrap();
+            assert_eq!(r.len(), 1, "With pattern {pattern}");
+            assert_eq!(r.null_count(), 1, "With pattern {pattern}");
+            assert!(r.is_null(0), "With pattern {pattern}");
+        }
+    }
+
+    #[test]
+    fn string_like_scalar_null() {
         let a = StringArray::new_scalar("a");
         let b = Scalar::new(StringArray::new_null(1));
         let r = like(&a, &b).unwrap();
@@ -1737,4 +1823,35 @@ mod tests {
         assert_eq!(r.null_count(), 1);
         assert!(r.is_null(0));
     }
+
+    #[test]
+    fn string_view_like_scalar_null() {
+        let a = StringViewArray::new_scalar("a");
+        let b = Scalar::new(StringViewArray::new_null(1));
+        let r = like(&a, &b).unwrap();
+        assert_eq!(r.len(), 1);
+        assert_eq!(r.null_count(), 1);
+        assert!(r.is_null(0));
+
+        let a = StringViewArray::from_iter_values(["a"]);
+        let b = Scalar::new(StringViewArray::new_null(1));
+        let r = like(&a, &b).unwrap();
+        assert_eq!(r.len(), 1);
+        assert_eq!(r.null_count(), 1);
+        assert!(r.is_null(0));
+
+        let a = StringViewArray::from_iter_values(["a"]);
+        let b = StringViewArray::new_null(1);
+        let r = like(&a, &b).unwrap();
+        assert_eq!(r.len(), 1);
+        assert_eq!(r.null_count(), 1);
+        assert!(r.is_null(0));
+
+        let a = StringViewArray::new_scalar("a");
+        let b = StringViewArray::new_null(1);
+        let r = like(&a, &b).unwrap();
+        assert_eq!(r.len(), 1);
+        assert_eq!(r.null_count(), 1);
+        assert!(r.is_null(0));
+    }
 }
diff --git a/arrow-string/src/predicate.rs b/arrow-string/src/predicate.rs
@@ -15,7 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
-use arrow_array::{ArrayAccessor, BooleanArray, StringViewArray};
+use arrow_array::{Array, ArrayAccessor, BooleanArray, StringViewArray};
 use arrow_schema::ArrowError;
 use memchr::memchr2;
 use memchr::memmem::Finder;
@@ -116,10 +116,17 @@ impl<'a> Predicate<'a> {
             }),
             Predicate::Contains(finder) => {
                 if let Some(string_view_array) = array.as_any().downcast_ref::<StringViewArray>() {
+                    let nulls = string_view_array.logical_nulls();
                     BooleanArray::from(
                         string_view_array
                             .bytes_iter()
-                            .map(|haystack| finder.find(haystack).is_some() != negate)
+                            .enumerate()
+                            .map(|(idx, haystack)| {
+                                if nulls.as_ref().map(|n| n.is_null(idx)).unwrap_or_default() {
+                                    return None;
+                                }
+                                Some(finder.find(haystack).is_some() != negate)
+                            })
                             .collect::<Vec<_>>(),
                     )
                 } else {
@@ -130,11 +137,16 @@ impl<'a> Predicate<'a> {
             }
             Predicate::StartsWith(v) => {
                 if let Some(string_view_array) = array.as_any().downcast_ref::<StringViewArray>() {
+                    let nulls = string_view_array.logical_nulls();
                     BooleanArray::from(
                         string_view_array
                             .prefix_bytes_iter(v.len())
-                            .map(|haystack| {
-                                equals_bytes(haystack, v.as_bytes(), equals_kernel) != negate
+                            .enumerate()
+                            .map(|(idx, haystack)| {
+                                if nulls.as_ref().map(|n| n.is_null(idx)).unwrap_or_default() {
+                                    return None;
+                                }
+                                Some(equals_bytes(haystack, v.as_bytes(), equals_kernel) != negate)
                             })
                             .collect::<Vec<_>>(),
                     )
@@ -166,11 +178,16 @@ impl<'a> Predicate<'a> {
             }
             Predicate::EndsWith(v) => {
                 if let Some(string_view_array) = array.as_any().downcast_ref::<StringViewArray>() {
+                    let nulls = string_view_array.logical_nulls();
                     BooleanArray::from(
                         string_view_array
                             .suffix_bytes_iter(v.len())
-                            .map(|haystack| {
-                                equals_bytes(haystack, v.as_bytes(), equals_kernel) != negate
+                            .enumerate()
+                            .map(|(idx, haystack)| {
+                                if nulls.as_ref().map(|n| n.is_null(idx)).unwrap_or_default() {
+                                    return None;
+                                }
+                                Some(equals_bytes(haystack, v.as_bytes(), equals_kernel) != negate)
                             })
                             .collect::<Vec<_>>(),
                     )