apache · danny0405 · Nov 3, 2022 · Nov 2, 2022 · Nov 2, 2022 · Nov 2, 2022
diff --git a/hudi-flink-datasource/hudi-flink/src/main/java/org/apache/hudi/source/FileIndex.java b/hudi-flink-datasource/hudi-flink/src/main/java/org/apache/hudi/source/FileIndex.java
@@ -80,6 +80,12 @@ public static FileIndex instance(Path path, Configuration conf, RowType rowType)
     return new FileIndex(path, conf, rowType);
   }
 
+  public static FileIndex instance(Path path, Configuration conf, RowType rowType, List<ResolvedExpression> filters) {
+    FileIndex fileIndex = instance(path, conf, rowType);
+    fileIndex.setFilters(filters);
+    return fileIndex;
+  }
+
   /**
    * Returns the partition path key and values as a list of map, each map item in the list
    * is a mapping of the partition key name to its actual partition value. For example, say
@@ -298,4 +304,9 @@ private static HoodieMetadataConfig metadataConfig(org.apache.flink.configuratio
 
     return HoodieMetadataConfig.newBuilder().fromProperties(properties).build();
   }
+
+  @VisibleForTesting
+  public List<ResolvedExpression> getFilters() {
+    return filters;
+  }
 }
diff --git a/hudi-flink-datasource/hudi-flink/src/main/java/org/apache/hudi/table/HoodieTableSource.java b/hudi-flink-datasource/hudi-flink/src/main/java/org/apache/hudi/table/HoodieTableSource.java
@@ -164,7 +164,7 @@ public HoodieTableSource(
     this.filters = filters == null ? Collections.emptyList() : filters;
     this.hadoopConf = HadoopConfigurations.getHadoopConf(conf);
     this.metaClient = StreamerUtil.metaClientForReader(conf, hadoopConf);
-    this.fileIndex = FileIndex.instance(this.path, this.conf, this.tableRowType);
+    this.fileIndex = FileIndex.instance(this.path, this.conf, this.tableRowType, this.filters);
     this.maxCompactionMemoryInBytes = StreamerUtil.getMaxCompactionMemoryInBytes(conf);
   }
 
@@ -543,4 +543,9 @@ public FileStatus[] getReadFiles() {
     }
     return fileIndex.getFilesInPartitions();
   }
+
+  @VisibleForTesting
+  FileIndex getFileIndex() {
+    return fileIndex;
+  }
 }
diff --git a/...link-datasource/hudi-flink/src/test/java/org/apache/hudi/table/TestHoodieTableSource.java b/...link-datasource/hudi-flink/src/test/java/org/apache/hudi/table/TestHoodieTableSource.java
@@ -28,6 +28,9 @@
 import org.apache.flink.api.common.io.InputFormat;
 import org.apache.flink.configuration.Configuration;
 import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.expressions.CallExpression;
+import org.apache.flink.table.expressions.ResolvedExpression;
+import org.apache.flink.table.functions.BuiltInFunctionDefinitions;
 import org.apache.hadoop.fs.FileStatus;
 import org.apache.hadoop.fs.Path;
 import org.junit.jupiter.api.Test;
@@ -40,13 +43,15 @@
 import java.util.Arrays;
 import java.util.Collections;
 import java.util.HashMap;
+import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
 
 import static org.hamcrest.CoreMatchers.instanceOf;
 import static org.hamcrest.MatcherAssert.assertThat;
 import static org.hamcrest.core.Is.is;
 import static org.junit.jupiter.api.Assertions.assertDoesNotThrow;
+import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertNotNull;
 import static org.junit.jupiter.api.Assertions.assertNull;
 
@@ -115,16 +120,7 @@ void testGetInputFormat() throws Exception {
 
   @Test
   void testGetTableAvroSchema() {
-    final String path = tempFile.getAbsolutePath();
-    conf = TestConfigurations.getDefaultConf(path);
-    conf.setBoolean(FlinkOptions.READ_AS_STREAMING, true);
-
-    HoodieTableSource tableSource = new HoodieTableSource(
-        TestConfigurations.TABLE_SCHEMA,
-        new Path(tempFile.getPath()),
-        Arrays.asList(conf.getString(FlinkOptions.PARTITION_PATH_FIELD).split(",")),
-        "default-par",
-        conf);
+    HoodieTableSource tableSource = getEmptyStreamingSource();
     assertNull(tableSource.getMetaClient(), "Streaming source with empty table path is allowed");
     final String schemaFields = tableSource.getTableAvroSchema().getFields().stream()
         .map(Schema.Field::name)
@@ -137,4 +133,31 @@ void testGetTableAvroSchema() {
         + "uuid,name,age,ts,partition";
     assertThat(schemaFields, is(expected));
   }
+
+  @Test
+  void testDataSkippingFilterShouldBeNotNullWhenTableSourceIsCopied() {
+    HoodieTableSource tableSource = getEmptyStreamingSource();
+    ResolvedExpression mockExpression = new CallExpression(
+        BuiltInFunctionDefinitions.IN,
+        Collections.emptyList(),
+        TestConfigurations.ROW_DATA_TYPE);
+    List<ResolvedExpression> expectedFilters = Collections.singletonList(mockExpression);
+    tableSource.applyFilters(expectedFilters);
+    HoodieTableSource copiedSource = (HoodieTableSource) tableSource.copy();
+    List<ResolvedExpression> actualFilters = copiedSource.getFileIndex().getFilters();
+    assertEquals(expectedFilters, actualFilters);
+  }
+
+  private HoodieTableSource getEmptyStreamingSource() {
+    final String path = tempFile.getAbsolutePath();
+    conf = TestConfigurations.getDefaultConf(path);
+    conf.setBoolean(FlinkOptions.READ_AS_STREAMING, true);
+
+    return new HoodieTableSource(
+        TestConfigurations.TABLE_SCHEMA,
+        new Path(tempFile.getPath()),
+        Arrays.asList(conf.getString(FlinkOptions.PARTITION_PATH_FIELD).split(",")),
+        "default-par",
+        conf);
+  }
 }