Remove Unsafe projection from data reader

Andrei Ionescu · Andrei Ionescu · commit 4db883283236 · 2019-11-21T10:29:00.000+02:00
diff --git a/spark/src/jmh/java/org/apache/iceberg/spark/data/parquet/SparkParquetReadersFlatDataBenchmark.java b/spark/src/jmh/java/org/apache/iceberg/spark/data/parquet/SparkParquetReadersFlatDataBenchmark.java
@@ -22,6 +22,7 @@
 import com.google.common.collect.Iterables;
 import java.io.File;
 import java.io.IOException;
+import java.util.Collections;
 import java.util.List;
 import org.apache.avro.generic.GenericData;
 import org.apache.iceberg.Files;
@@ -116,7 +117,7 @@ public void tearDownBenchmark() {
   public void readUsingIcebergReader(Blackhole blackHole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       for (InternalRow row : rows) {
@@ -130,7 +131,7 @@ public void readUsingIcebergReader(Blackhole blackHole) throws IOException {
   public void readUsingIcebergReaderUnsafe(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       Iterable<InternalRow> unsafeRows = Iterables.transform(
@@ -167,7 +168,7 @@ public void readUsingSparkReader(Blackhole blackhole) throws IOException {
   public void readWithProjectionUsingIcebergReader(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(PROJECTED_SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       for (InternalRow row : rows) {
@@ -181,7 +182,7 @@ public void readWithProjectionUsingIcebergReader(Blackhole blackhole) throws IOE
   public void readWithProjectionUsingIcebergReaderUnsafe(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(PROJECTED_SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       Iterable<InternalRow> unsafeRows = Iterables.transform(
diff --git a/spark/src/jmh/java/org/apache/iceberg/spark/data/parquet/SparkParquetReadersNestedDataBenchmark.java b/spark/src/jmh/java/org/apache/iceberg/spark/data/parquet/SparkParquetReadersNestedDataBenchmark.java
@@ -22,6 +22,7 @@
 import com.google.common.collect.Iterables;
 import java.io.File;
 import java.io.IOException;
+import java.util.Collections;
 import java.util.List;
 import org.apache.avro.generic.GenericData;
 import org.apache.iceberg.Files;
@@ -116,7 +117,7 @@ public void tearDownBenchmark() {
   public void readUsingIcebergReader(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       for (InternalRow row : rows) {
@@ -130,7 +131,7 @@ public void readUsingIcebergReader(Blackhole blackhole) throws IOException {
   public void readUsingIcebergReaderUnsafe(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       Iterable<InternalRow> unsafeRows = Iterables.transform(
@@ -167,7 +168,7 @@ public void readUsingSparkReader(Blackhole blackhole) throws IOException {
   public void readWithProjectionUsingIcebergReader(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(PROJECTED_SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       for (InternalRow row : rows) {
@@ -181,7 +182,7 @@ public void readWithProjectionUsingIcebergReader(Blackhole blackhole) throws IOE
   public void readWithProjectionUsingIcebergReaderUnsafe(Blackhole blackhole) throws IOException {
     try (CloseableIterable<InternalRow> rows = Parquet.read(Files.localInput(dataFile))
         .project(PROJECTED_SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(PROJECTED_SCHEMA, type, Collections.emptyMap()))
         .build()) {
 
       Iterable<InternalRow> unsafeRows = Iterables.transform(
diff --git a/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java b/spark/src/main/java/org/apache/iceberg/spark/data/SparkParquetReaders.java
@@ -68,21 +68,22 @@ private SparkParquetReaders() {
 
   @SuppressWarnings("unchecked")
   public static ParquetValueReader<InternalRow> buildReader(Schema expectedSchema,
-                                                            MessageType fileSchema) {
+                                                            MessageType fileSchema,
+                                                            Map<Integer, Object> partitionValues) {
     if (ParquetSchemaUtil.hasIds(fileSchema)) {
       return (ParquetValueReader<InternalRow>)
           TypeWithSchemaVisitor.visit(expectedSchema.asStruct(), fileSchema,
-              new ReadBuilder(fileSchema));
+              new ReadBuilder(fileSchema, partitionValues));
     } else {
       return (ParquetValueReader<InternalRow>)
           TypeWithSchemaVisitor.visit(expectedSchema.asStruct(), fileSchema,
-              new FallbackReadBuilder(fileSchema));
+              new FallbackReadBuilder(fileSchema, partitionValues));
     }
   }
 
   private static class FallbackReadBuilder extends ReadBuilder {
-    FallbackReadBuilder(MessageType type) {
-      super(type);
+    FallbackReadBuilder(MessageType type, Map<Integer, Object> partitionValues) {
+      super(type, partitionValues);
     }
 
     @Override
@@ -113,9 +114,11 @@ public ParquetValueReader<?> struct(Types.StructType ignored, GroupType struct,
 
   private static class ReadBuilder extends TypeWithSchemaVisitor<ParquetValueReader<?>> {
     private final MessageType type;
+    private final Map<Integer, Object> partitionValues;
 
-    ReadBuilder(MessageType type) {
+    ReadBuilder(MessageType type, Map<Integer, Object> partitionValues) {
       this.type = type;
+      this.partitionValues = partitionValues;
     }
 
     @Override
@@ -146,13 +149,18 @@ public ParquetValueReader<?> struct(Types.StructType expected, GroupType struct,
       List<Type> types = Lists.newArrayListWithExpectedSize(expectedFields.size());
       for (Types.NestedField field : expectedFields) {
         int id = field.fieldId();
-        ParquetValueReader<?> reader = readersById.get(id);
-        if (reader != null) {
-          reorderedFields.add(reader);
-          types.add(typesById.get(id));
-        } else {
-          reorderedFields.add(ParquetValueReaders.nulls());
+        if (partitionValues.containsKey(id)) {
+          reorderedFields.add(ParquetValueReaders.constant(partitionValues.get(id)));
           types.add(null);
+        } else {
+          ParquetValueReader<?> reader = readersById.get(id);
+          if (reader != null) {
+            reorderedFields.add(reader);
+            types.add(typesById.get(id));
+          } else {
+            reorderedFields.add(ParquetValueReaders.nulls());
+            types.add(null);
+          }
         }
       }
 
diff --git a/spark/src/main/java/org/apache/iceberg/spark/source/Reader.java b/spark/src/main/java/org/apache/iceberg/spark/source/Reader.java
@@ -22,13 +22,14 @@
 import com.google.common.base.Preconditions;
 import com.google.common.collect.ImmutableMap;
 import com.google.common.collect.Iterables;
-import com.google.common.collect.Iterators;
 import com.google.common.collect.Lists;
+import com.google.common.collect.Maps;
 import com.google.common.collect.Sets;
 import java.io.Closeable;
 import java.io.IOException;
 import java.io.Serializable;
 import java.nio.ByteBuffer;
+import java.util.Collections;
 import java.util.Iterator;
 import java.util.List;
 import java.util.Map;
@@ -69,7 +70,6 @@
 import org.apache.spark.sql.catalyst.expressions.Attribute;
 import org.apache.spark.sql.catalyst.expressions.AttributeReference;
 import org.apache.spark.sql.catalyst.expressions.GenericInternalRow;
-import org.apache.spark.sql.catalyst.expressions.JoinedRow;
 import org.apache.spark.sql.catalyst.expressions.UnsafeProjection;
 import org.apache.spark.sql.sources.Filter;
 import org.apache.spark.sql.sources.v2.DataSourceOptions;
@@ -397,7 +397,6 @@ private Iterator<InternalRow> open(FileScanTask task) {
       // schema or rows returned by readers
       Schema finalSchema = expectedSchema;
       PartitionSpec spec = task.spec();
-
       Set<Integer> idColumns = Sets.newHashSet();
       for (Integer i : spec.identitySourceIds()) {
         if (spec.schema().columns().stream()
@@ -407,46 +406,39 @@ private Iterator<InternalRow> open(FileScanTask task) {
         }
       }
 
-      // schema needed for the projection and filtering
       StructType sparkType = SparkSchemaUtil.convert(finalSchema);
       Schema requiredSchema = SparkSchemaUtil.prune(tableSchema, sparkType, task.residual(), caseSensitive);
       boolean hasJoinedPartitionColumns = !idColumns.isEmpty();
       boolean hasExtraFilterColumns = requiredSchema.columns().size() != finalSchema.columns().size();
 
-      Schema iterSchema;
       Iterator<InternalRow> iter;
 
       if (hasJoinedPartitionColumns) {
-        // schema used to read data files
-        Schema readSchema = TypeUtil.selectNot(requiredSchema, idColumns);
         Schema partitionSchema = TypeUtil.select(requiredSchema, idColumns);
         PartitionRowConverter convertToRow = new PartitionRowConverter(partitionSchema, spec);
-        JoinedRow joined = new JoinedRow();
+        GenericInternalRow partition = (GenericInternalRow) convertToRow.apply(file.partition());
 
-        InternalRow partition = convertToRow.apply(file.partition());
-        joined.withRight(partition);
+        Map<Integer, Object> partitionValueMap = Maps.newHashMap();
+        Map<String, Integer> partitionSpecFieldIndexMap = Maps.newHashMap();
+        for (int i = 0; i < spec.fields().size(); i++) {
+          partitionSpecFieldIndexMap.put(spec.fields().get(i).name(), i);
+        }
 
-        // create joined rows and project from the joined schema to the final schema
-        iterSchema = TypeUtil.join(readSchema, partitionSchema);
-        iter = Iterators.transform(open(task, readSchema), joined::withLeft);
+        for (Types.NestedField field : partitionSchema.columns()) {
+          int partitionIndex = partitionSpecFieldIndexMap.get(field.name());
+          partitionValueMap.put(field.fieldId(), partition.genericGet(partitionIndex));
+        }
 
+        iter = open(task, finalSchema, partitionValueMap);
       } else if (hasExtraFilterColumns) {
-        // add projection to the final schema
-        iterSchema = requiredSchema;
-        iter = open(task, requiredSchema);
-
+        iter = open(task, requiredSchema, Collections.emptyMap());
       } else {
-        // return the base iterator
-        iterSchema = finalSchema;
-        iter = open(task, finalSchema);
+        iter = open(task, finalSchema, Collections.emptyMap());
       }
-
-      // TODO: remove the projection by reporting the iterator's schema back to Spark
-      return Iterators.transform(iter,
-          APPLY_PROJECTION.bind(projection(finalSchema, iterSchema))::invoke);
+      return iter;
     }
 
-    private Iterator<InternalRow> open(FileScanTask task, Schema readSchema) {
+    private Iterator<InternalRow> open(FileScanTask task, Schema readSchema, Map<Integer, Object> partitionValues) {
       CloseableIterable<InternalRow> iter;
       if (task.isDataTask()) {
         iter = newDataIterable(task.asDataTask(), readSchema);
@@ -457,7 +449,7 @@ private Iterator<InternalRow> open(FileScanTask task, Schema readSchema) {
 
         switch (task.file().format()) {
           case PARQUET:
-            iter = newParquetIterable(location, task, readSchema);
+            iter = newParquetIterable(location, task, readSchema, partitionValues);
             break;
 
           case AVRO:
@@ -513,12 +505,14 @@ private CloseableIterable<InternalRow> newAvroIterable(InputFile location,
     }
 
     private CloseableIterable<InternalRow> newParquetIterable(InputFile location,
-                                                            FileScanTask task,
-                                                            Schema readSchema) {
+                                                              FileScanTask task,
+                                                              Schema readSchema,
+                                                              Map<Integer, Object> partitionValues) {
+
       return Parquet.read(location)
           .project(readSchema)
           .split(task.start(), task.length())
-          .createReaderFunc(fileSchema -> SparkParquetReaders.buildReader(readSchema, fileSchema))
+          .createReaderFunc(fileSchema -> SparkParquetReaders.buildReader(readSchema, fileSchema, partitionValues))
           .filter(task.residual())
           .caseSensitive(caseSensitive)
           .build();
diff --git a/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkParquetReader.java b/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkParquetReader.java
@@ -21,6 +21,7 @@
 
 import java.io.File;
 import java.io.IOException;
+import java.util.Collections;
 import java.util.Iterator;
 import java.util.List;
 import org.apache.avro.generic.GenericData;
@@ -57,7 +58,7 @@ protected void writeAndValidate(Schema schema) throws IOException {
 
     try (CloseableIterable<InternalRow> reader = Parquet.read(Files.localInput(testFile))
         .project(schema)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(schema, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(schema, type, Collections.emptyMap()))
         .build()) {
       Iterator<InternalRow> rows = reader.iterator();
       for (int i = 0; i < expected.size(); i += 1) {
diff --git a/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkParquetWriter.java b/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkParquetWriter.java
@@ -21,6 +21,7 @@
 
 import java.io.File;
 import java.io.IOException;
+import java.util.Collections;
 import java.util.Iterator;
 import org.apache.iceberg.Files;
 import org.apache.iceberg.Schema;
@@ -85,7 +86,7 @@ public void testCorrectness() throws IOException {
 
     try (CloseableIterable<InternalRow> reader = Parquet.read(Files.localInput(testFile))
         .project(COMPLEX_SCHEMA)
-        .createReaderFunc(type -> SparkParquetReaders.buildReader(COMPLEX_SCHEMA, type))
+        .createReaderFunc(type -> SparkParquetReaders.buildReader(COMPLEX_SCHEMA, type, Collections.emptyMap()))
         .build()) {
       Iterator<InternalRow> expected = records.iterator();
       Iterator<InternalRow> rows = reader.iterator();