apache · pwoody · Mar 29, 2018 · Mar 29, 2018 · Mar 30, 2018 · Mar 31, 2018
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/columnar/ColumnStats.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/columnar/ColumnStats.scala
@@ -18,7 +18,8 @@
 package org.apache.spark.sql.execution.columnar
 
 import org.apache.spark.sql.catalyst.InternalRow
-import org.apache.spark.sql.catalyst.expressions.{Attribute, AttributeMap, AttributeReference}
+import org.apache.spark.sql.catalyst.expressions.{Attribute, AttributeMap, AttributeReference, RowOrdering}
+import org.apache.spark.sql.catalyst.util.TypeUtils
 import org.apache.spark.sql.types._
 import org.apache.spark.unsafe.types.UTF8String
 
@@ -323,18 +324,31 @@ private[columnar] final class DecimalColumnStats(precision: Int, scale: Int) ext
 }
 
 private[columnar] final class ObjectColumnStats(dataType: DataType) extends ColumnStats {
+  protected var upper: Any = null
+  protected var lower: Any = null
+
   val columnType = ColumnType(dataType)
+  val ordering = dataType match {
+    case x if RowOrdering.isOrderable(dataType) && x != NullType =>
+      Option(TypeUtils.getInterpretedOrdering(x))
+    case _ => None
+  }
 
   override def gatherStats(row: InternalRow, ordinal: Int): Unit = {
     if (!row.isNullAt(ordinal)) {
       val size = columnType.actualSize(row, ordinal)
       sizeInBytes += size
       count += 1
+      ordering.foreach { order =>
+        val value = row.get(ordinal, dataType)
+        if (upper == null || order.gt(value, upper)) upper = value
+        if (lower == null || order.lt(value, lower)) lower = value
+      }
     } else {
       gatherNullStats
     }
   }
 
   override def collectedStatistics: Array[Any] =
-    Array[Any](null, null, nullCount, count, sizeInBytes)
+    Array[Any](lower, upper, nullCount, count, sizeInBytes)
 }
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/columnar/ColumnStatsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/columnar/ColumnStatsSuite.scala
@@ -18,18 +18,35 @@
 package org.apache.spark.sql.execution.columnar
 
 import org.apache.spark.SparkFunSuite
+import org.apache.spark.sql.catalyst.expressions.RowOrdering
+import org.apache.spark.sql.catalyst.util.TypeUtils
 import org.apache.spark.sql.types._
 
 class ColumnStatsSuite extends SparkFunSuite {
-  testColumnStats(classOf[BooleanColumnStats], BOOLEAN, Array(true, false, 0))
-  testColumnStats(classOf[ByteColumnStats], BYTE, Array(Byte.MaxValue, Byte.MinValue, 0))
-  testColumnStats(classOf[ShortColumnStats], SHORT, Array(Short.MaxValue, Short.MinValue, 0))
-  testColumnStats(classOf[IntColumnStats], INT, Array(Int.MaxValue, Int.MinValue, 0))
-  testColumnStats(classOf[LongColumnStats], LONG, Array(Long.MaxValue, Long.MinValue, 0))
-  testColumnStats(classOf[FloatColumnStats], FLOAT, Array(Float.MaxValue, Float.MinValue, 0))
-  testColumnStats(classOf[DoubleColumnStats], DOUBLE, Array(Double.MaxValue, Double.MinValue, 0))
-  testColumnStats(classOf[StringColumnStats], STRING, Array(null, null, 0))
-  testDecimalColumnStats(Array(null, null, 0))
+  testColumnStats(classOf[BooleanColumnStats], BOOLEAN, Array(true, false, 0, 0, 0))
+  testColumnStats(classOf[ByteColumnStats], BYTE, Array(Byte.MaxValue, Byte.MinValue, 0, 0, 0))
+  testColumnStats(classOf[ShortColumnStats], SHORT, Array(Short.MaxValue, Short.MinValue, 0, 0, 0))
+  testColumnStats(classOf[IntColumnStats], INT, Array(Int.MaxValue, Int.MinValue, 0, 0, 0))
+  testColumnStats(classOf[LongColumnStats], LONG, Array(Long.MaxValue, Long.MinValue, 0, 0, 0))
+  testColumnStats(classOf[FloatColumnStats], FLOAT, Array(Float.MaxValue, Float.MinValue, 0, 0, 0))
+  testColumnStats(
+    classOf[DoubleColumnStats], DOUBLE,
+    Array(Double.MaxValue, Double.MinValue, 0, 0, 0)
+  )
+  testColumnStats(classOf[StringColumnStats], STRING, Array(null, null, 0, 0, 0))
+  testDecimalColumnStats(Array(null, null, 0, 0, 0))
+  testObjectColumnStats(ArrayType(IntegerType), orderable = true, Array(null, null, 0, 0, 0))
+  testObjectColumnStats(
+    StructType(Array(StructField("test", DataTypes.StringType))),
+    orderable = true,
+    Array(null, null, 0, 0, 0)
+  )
+  testObjectColumnStats(
+    MapType(IntegerType, StringType),
+    orderable = false,
+    Array(null, null, 0, 0, 0)
+  )
+
 
   def testColumnStats[T <: AtomicType, U <: ColumnStats](
       columnStatsClass: Class[U],
@@ -103,4 +120,43 @@ class ColumnStatsSuite extends SparkFunSuite {
       }
     }
   }
+
+  def testObjectColumnStats(
+       dataType: DataType, orderable: Boolean, initialStatistics: Array[Any]): Unit = {
+    assert(!(orderable ^ RowOrdering.isOrderable(dataType)))
+    val columnType = ColumnType(dataType)
+
+    test(s"${dataType.typeName}: empty") {
+      val objectStats = new ObjectColumnStats(dataType)
+      objectStats.collectedStatistics.zip(initialStatistics).foreach {
+        case (actual, expected) => assert(actual === expected)
+      }
+    }
+
+    test(s"${dataType.typeName}: non-empty") {
+      import org.apache.spark.sql.execution.columnar.ColumnarTestUtils._
+      val objectStats = new ObjectColumnStats(dataType)
+      val rows = Seq.fill(10)(makeRandomRow(columnType)) ++ Seq.fill(10)(makeNullRow(1))
+      rows.foreach(objectStats.gatherStats(_, 0))
+
+      val stats = objectStats.collectedStatistics
+      if (orderable) {
+        val values = rows.take(10).map(_.get(0, columnType.dataType))
+        val ordering = TypeUtils.getInterpretedOrdering(dataType)
+
+        assertResult(values.min(ordering), "Wrong lower bound")(stats(0))
+        assertResult(values.max(ordering), "Wrong upper bound")(stats(1))
+      } else {
+        assertResult(null, "Wrong lower bound")(stats(0))
+        assertResult(null, "Wrong upper bound")(stats(1))
+      }
+      assertResult(10, "Wrong null count")(stats(2))
+      assertResult(20, "Wrong row count")(stats(3))
+      assertResult(stats(4), "Wrong size in bytes") {
+        rows.map { row =>
+          if (row.isNullAt(0)) 4 else columnType.actualSize(row, 0)
+        }.sum
+      }
+    }
+  }
 }
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/columnar/ColumnarTestUtils.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/columnar/ColumnarTestUtils.scala
@@ -21,9 +21,9 @@ import scala.collection.immutable.HashSet
 import scala.util.Random
 
 import org.apache.spark.sql.catalyst.InternalRow
-import org.apache.spark.sql.catalyst.expressions.GenericInternalRow
-import org.apache.spark.sql.catalyst.util.{ArrayBasedMapData, GenericArrayData}
-import org.apache.spark.sql.types.{AtomicType, Decimal}
+import org.apache.spark.sql.catalyst.expressions.{GenericInternalRow, UnsafeArrayData, UnsafeMapData, UnsafeProjection}
+import org.apache.spark.sql.catalyst.util.ArrayBasedMapData
+import org.apache.spark.sql.types.{AtomicType, DataType, Decimal, IntegerType, MapType, StringType, StructField, StructType}
 import org.apache.spark.unsafe.types.UTF8String
 
 object ColumnarTestUtils {
@@ -54,12 +54,22 @@ object ColumnarTestUtils {
       case COMPACT_DECIMAL(precision, scale) => Decimal(Random.nextLong() % 100, precision, scale)
       case LARGE_DECIMAL(precision, scale) => Decimal(Random.nextLong(), precision, scale)
       case STRUCT(_) =>
-        new GenericInternalRow(Array[Any](UTF8String.fromString(Random.nextString(10))))
+        val schema = StructType(Array(StructField("test", StringType)))
+        val converter = UnsafeProjection.create(schema)
+        converter(InternalRow(Array(UTF8String.fromString(Random.nextString(10))): _*))
       case ARRAY(_) =>
-        new GenericArrayData(Array[Any](Random.nextInt(), Random.nextInt()))
+        UnsafeArrayData.fromPrimitiveArray(Array(Random.nextInt(), Random.nextInt()))
       case MAP(_) =>
-        ArrayBasedMapData(
-          Map(Random.nextInt() -> UTF8String.fromString(Random.nextString(Random.nextInt(32)))))
+        val unsafeConverter =
+          UnsafeProjection.create(Array[DataType](MapType(IntegerType, StringType)))
+        val row = new GenericInternalRow(1)
+        def toUnsafeMap(map: ArrayBasedMapData): UnsafeMapData = {
+          row.update(0, map)
+          val unsafeRow = unsafeConverter.apply(row)
+          unsafeRow.getMap(0).copy
+        }
+        toUnsafeMap(ArrayBasedMapData(
+          Map(Random.nextInt() -> UTF8String.fromString(Random.nextString(Random.nextInt(32))))))
       case _ => throw new IllegalArgumentException(s"Unknown column type $columnType")
     }).asInstanceOf[JvmType]
   }

diff --git a/...e/src/test/scala/org/apache/spark/sql/execution/columnar/InMemoryColumnarQuerySuite.scala b/...e/src/test/scala/org/apache/spark/sql/execution/columnar/InMemoryColumnarQuerySuite.scala
@@ -30,7 +30,6 @@ import org.apache.spark.sql.test.SharedSQLContext
 import org.apache.spark.sql.test.SQLTestData._
 import org.apache.spark.sql.types._
 import org.apache.spark.storage.StorageLevel._
-import org.apache.spark.util.Utils
 
 class InMemoryColumnarQuerySuite extends QueryTest with SharedSQLContext {
   import testImplicits._
@@ -527,4 +526,10 @@ class InMemoryColumnarQuerySuite extends QueryTest with SharedSQLContext {
       }
     }
   }
+
+  test("SPARK-23819: Complex type pruning should utilize proper statistics") {
+    val df = Seq((Array(1), (1, 1))).toDF("arr", "struct").cache()
+    assert(df.where("arr <=> array(1)").count() === 1)
+    assert(df.where("struct <=> named_struct('_1', 1, '_2', 1)").count() === 1)
+  }
 }