apache · HeartSaVioR · Jul 4, 2019 · Jul 4, 2019 · Jul 4, 2019 · Jul 5, 2019
diff --git a/...cala/org/apache/spark/sql/execution/streaming/continuous/ContinuousRateStreamSource.scala b/...cala/org/apache/spark/sql/execution/streaming/continuous/ContinuousRateStreamSource.scala
@@ -17,6 +17,8 @@
 
 package org.apache.spark.sql.execution.streaming.continuous
 
+import java.util.concurrent.atomic.AtomicLong
+
 import org.json4s.DefaultFormats
 import org.json4s.jackson.Serialization
 
@@ -36,6 +38,9 @@ class RateStreamContinuousStream(rowsPerSecond: Long, numPartitions: Int) extend
 
   val perPartitionRate = rowsPerSecond.toDouble / numPartitions.toDouble
 
+  private[sql] val highestCommittedValue = new AtomicLong(Long.MinValue)
+  private[sql] val firstCommittedTime = new AtomicLong(Long.MinValue)
+
   override def mergeOffsets(offsets: Array[PartitionOffset]): Offset = {
     assert(offsets.length == numPartitions)
     val tuples = offsets.map {
@@ -82,7 +87,16 @@ class RateStreamContinuousStream(rowsPerSecond: Long, numPartitions: Int) extend
     RateStreamContinuousReaderFactory
   }
 
-  override def commit(end: Offset): Unit = {}
+  override def commit(end: Offset): Unit = {
+    end.asInstanceOf[RateStreamOffset].partitionToValueAndRunTimeMs.foreach {
+      case (_, ValueRunTimeMsPair(value, _)) =>
+        if (highestCommittedValue.get() < value) {
+          highestCommittedValue.set(value)
+        }
+    }
+    firstCommittedTime.compareAndSet(Long.MinValue, System.currentTimeMillis())
+  }
+
   override def stop(): Unit = {}
 
   private def createInitialOffset(numPartitions: Int, creationTimeMs: Long) = {

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/streaming/continuous/ContinuousSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/streaming/continuous/ContinuousSuite.scala
@@ -38,18 +38,52 @@ class ContinuousSuiteBase extends StreamTest {
       sparkConf.set("spark.sql.testkey", "true")))
 
   protected def waitForRateSourceTriggers(query: StreamExecution, numTriggers: Int): Unit = {
-    query match {
+    findRateStreamContinuousStream(query).foreach { reader =>
+      // Make sure epoch 0 is completed.
+      query.asInstanceOf[ContinuousExecution].awaitEpoch(0)
+
+      // This is called after waiting first epoch to be committed, but there might be
+      // a gap between committing epoch to commit log and committing epoch to source.
+      // If epoch 0 is not reported to rate source yet, use current time instead.
+      var firstCommittedTime = reader.firstCommittedTime.longValue()
+      if (firstCommittedTime < 0) {
+        firstCommittedTime = System.currentTimeMillis()
+      }
+
+      val deltaMs = numTriggers * 1000 + 300
+      while (System.currentTimeMillis < firstCommittedTime + deltaMs) {
+        Thread.sleep(firstCommittedTime + deltaMs - System.currentTimeMillis)
+      }
+    }
+  }
+
+  protected def waitForRateSourceCommittedValue(
+      query: StreamExecution,
+      desiredValue: Long,
+      maxWaitTimeMs: Long): Unit = {
+    findRateStreamContinuousStream(query).foreach { reader =>
+      val startTime = System.currentTimeMillis()
+      val maxWait = startTime + maxWaitTimeMs
+      while (System.currentTimeMillis() < maxWait &&
+        reader.highestCommittedValue.get() < desiredValue) {
+        Thread.sleep(100)
+      }
+      if (System.currentTimeMillis() > maxWait) {
+        logWarning(s"Couldn't reach desired value in $maxWaitTimeMs milliseconds!" +
+          s"Current highest committed value is ${reader.highestCommittedValue}")
+      }
+    }
+  }
+
+  private def findRateStreamContinuousStream(
+      query: StreamExecution): Option[RateStreamContinuousStream] = query match {
+
       case s: ContinuousExecution =>
-        assert(numTriggers >= 2, "must wait for at least 2 triggers to ensure query is initialized")
-        val reader = s.lastExecution.executedPlan.collectFirst {
+        s.lastExecution.executedPlan.collectFirst {
           case ContinuousScanExec(_, _, r: RateStreamContinuousStream, _) => r
-        }.get
-
-        val deltaMs = numTriggers * 1000 + 300
-        while (System.currentTimeMillis < reader.creationTime + deltaMs) {
-          Thread.sleep(reader.creationTime + deltaMs - System.currentTimeMillis)
         }
-    }
+
+      case _ => None
   }
 
   // A continuous trigger that will only fire the initial time for the duration of a test.
@@ -218,8 +252,7 @@ class ContinuousSuite extends ContinuousSuiteBase {
       .start()
     val continuousExecution =
       query.asInstanceOf[StreamingQueryWrapper].streamingQuery.asInstanceOf[ContinuousExecution]
-    continuousExecution.awaitEpoch(0)
-    waitForRateSourceTriggers(continuousExecution, 2)
+    waitForRateSourceCommittedValue(continuousExecution, 3, 20 * 1000)
     query.stop()
 
     val results = spark.read.table("noharness").collect()
@@ -241,7 +274,7 @@ class ContinuousStressSuite extends ContinuousSuiteBase {
     testStream(df)(
       StartStream(longContinuousTrigger),
       AwaitEpoch(0),
-      Execute(waitForRateSourceTriggers(_, 10)),
+      Execute(waitForRateSourceTriggers(_, 5)),
       IncrementEpoch(),
       StopStream,
       CheckAnswerRowsContains(scala.Range(0, 2500).map(Row(_)))
@@ -259,7 +292,7 @@ class ContinuousStressSuite extends ContinuousSuiteBase {
     testStream(df)(
       StartStream(Trigger.Continuous(2012)),
       AwaitEpoch(0),
-      Execute(waitForRateSourceTriggers(_, 10)),
+      Execute(waitForRateSourceTriggers(_, 5)),
       IncrementEpoch(),
       StopStream,
       CheckAnswerRowsContains(scala.Range(0, 2500).map(Row(_))))