fix: fix issues with data dependency in token prediction

dancing-ui · dancing-ui · commit 0123eaacbc06 · 2025-09-02T14:45:56.000+08:00
diff --git a/core/llm_token_ratelimit/constant.go b/core/llm_token_ratelimit/constant.go
@@ -84,5 +84,5 @@ const (
 
 // ================================= OpenAIEncoder ============================
 const (
-	TokenEncoderKeyFormat string = "%s:token-encoder:%s:%s" // redisRatelimitKey, provider, model
+	TokenEncoderKeyFormat string = "{shard-%s}:token-encoder:%s:%s:%s" // hashTag, provider, model, redisRatelimitKey
 )
diff --git a/core/llm_token_ratelimit/ratelimit_checker.go b/core/llm_token_ratelimit/ratelimit_checker.go
@@ -127,7 +127,7 @@ func (c *PETAChecker) checkLimitKey(ctx *Context, rule *MatchedRule) bool {
 		prompts = reqInfos.Prompts
 	}
 
-	estimatedToken, err := c.countTokens(ctx, prompts, rule)
+	length, err := c.countTokens(ctx, prompts, rule)
 	if err != nil {
 		logging.Error(err, "failed to count tokens in llm_token_ratelimit.PETAChecker.checkLimitKey()",
 			"requestID", ctx.Get(KeyRequestID),
@@ -137,9 +137,10 @@ func (c *PETAChecker) checkLimitKey(ctx *Context, rule *MatchedRule) bool {
 
 	slidingWindowKey := fmt.Sprintf(PETASlidingWindowKeyFormat, generateHash(rule.LimitKey), rule.LimitKey)
 	tokenBucketKey := fmt.Sprintf(PETATokenBucketKeyFormat, generateHash(rule.LimitKey), rule.LimitKey)
+	tokenEncoderKey := fmt.Sprintf(TokenEncoderKeyFormat, generateHash(rule.LimitKey), rule.Encoding.Provider.String(), rule.Encoding.Model, rule.LimitKey)
 
-	keys := []string{slidingWindowKey, tokenBucketKey}
-	args := []interface{}{estimatedToken, util.CurrentTimeMillis(), rule.TokenSize, rule.TimeWindow * 1000, generateRandomString(PETARandomStringLength)}
+	keys := []string{slidingWindowKey, tokenBucketKey, tokenEncoderKey}
+	args := []interface{}{length, util.CurrentTimeMillis(), rule.TokenSize, rule.TimeWindow * 1000, generateRandomString(PETARandomStringLength)}
 	response, err := globalRedisClient.Eval(globalPETAWithholdScript, keys, args...)
 	if err != nil {
 		logging.Error(err, "failed to execute redis script in llm_token_ratelimit.PETAChecker.checkLimitKey()",
@@ -148,14 +149,23 @@ func (c *PETAChecker) checkLimitKey(ctx *Context, rule *MatchedRule) bool {
 		return true
 	}
 	result := parseRedisResponse(ctx, response)
-	if result == nil || len(result) != 2 {
+	if result == nil || len(result) != 4 {
 		logging.Error(errors.New("invalid redis response"),
 			"invalid redis response in llm_token_ratelimit.PETAChecker.checkLimitKey()",
 			"response", response,
 			"requestID", ctx.Get(KeyRequestID),
 		)
 		return true
 	}
+	logging.Info("[LLMTokenRateLimit] estimated infos",
+		"limitKey", rule.LimitKey,
+		"current_capacity", result[0],
+		"waiting_time(ms)", result[1],
+		"estimated_token", result[2],
+		"difference", result[3],
+		"tokenization_length", length,
+		"requestID", ctx.Get(KeyRequestID),
+	)
 
 	// TODO: add waiting and timeout callback
 	waitingTime := result[1]
@@ -174,7 +184,7 @@ func (c *PETAChecker) checkLimitKey(ctx *Context, rule *MatchedRule) bool {
 		return false
 	}
 	ctx.Set(KeyResponseHeaders, responseHeader)
-	c.cacheEstimatedToken(rule, estimatedToken)
+	c.cacheEstimatedToken(rule, result[2])
 	return true
 }
 
@@ -203,7 +213,7 @@ func (c *PETAChecker) countTokens(ctx *Context, prompts []string, rule *MatchedR
 	return 0, fmt.Errorf("unknown count strategy: %s", rule.CountStrategy.String())
 }
 
-func (c *PETAChecker) cacheEstimatedToken(rule *MatchedRule, count int) {
+func (c *PETAChecker) cacheEstimatedToken(rule *MatchedRule, count int64) {
 	if c == nil || rule == nil {
 		return
 	}
diff --git a/core/llm_token_ratelimit/rule_manager.go b/core/llm_token_ratelimit/rule_manager.go
@@ -197,8 +197,11 @@ func logRuleUpdate(m map[string][]*Rule) {
 		logging.Info("[LLMTokenRateLimit] rules were cleared")
 	} else {
 		var builder strings.Builder
-		for _, r := range rs {
+		for i, r := range rs {
 			builder.WriteString(r.String())
+			if i != len(rs)-1 {
+				builder.WriteString(", ")
+			}
 		}
 		logging.Info("[LLMTokenRateLimit] rules were loaded",
 			"rules", builder.String(),
diff --git a/core/llm_token_ratelimit/rule_matcher.go b/core/llm_token_ratelimit/rule_matcher.go
@@ -28,7 +28,7 @@ type MatchedRule struct {
 	CountStrategy CountStrategy
 	// PETA
 	Encoding       TokenEncoding
-	EstimatedToken int
+	EstimatedToken int64
 }
 
 type MatchedRuleCollector interface {
diff --git a/core/llm_token_ratelimit/script/peta/correct.lua b/core/llm_token_ratelimit/script/peta/correct.lua
@@ -13,6 +13,7 @@
 -- limitations under the License.
 -- KEYS[1]: Sliding Window Key ("{shard-<hashtag>}:sliding-window:<redisRatelimitKey>")
 -- KEYS[2]: Token Bucket Key ("{shard-<hashtag>}:token-bucket:<redisRatelimitKey>")
+-- KEYS[3]: Token Encoder Key ("{shard-<hashtag>}:token-encoder:<provider>:<model>:<redisRatelimitKey>")
 -- ARGV[1]: Estimated token consumption
 -- ARGV[2]: Current timestamp (milliseconds)
 -- ARGV[3]: Token bucket capacity
@@ -48,6 +49,7 @@ end
 
 local sliding_window_key = tostring(KEYS[1])
 local token_bucket_key = tostring(KEYS[2])
+local token_encoder_key = tostring(KEYS[3])
 
 local estimated = tonumber(ARGV[1])
 local current_timestamp = tonumber(ARGV[2])
@@ -86,7 +88,14 @@ if released_tokens > 0 then -- Expired tokens exist, attempt to replenish new to
     -- Immediately replenish new tokens
     redis.call('HSET', token_bucket_key, 'capacity', current_capacity)
 end
-
+-- Update the difference from the token encoder
+local difference = actual - estimated
+local ttl = redis.call('PTTL', token_encoder_key)
+if ttl < 0 then
+    redis.call('SET', token_encoder_key, difference, 'PX', window_size + 5000)
+else
+    redis.call('INCRBY', token_encoder_key, difference)
+end
 -- Correction result for reservation
 local correct_result = 0
 if estimated < 0 or actual < 0 then
@@ -130,5 +139,6 @@ end
 -- Set expiration time to window size plus 5 seconds buffer
 redis.call('PEXPIRE', sliding_window_key, window_size + 5000)
 redis.call('PEXPIRE', token_bucket_key, window_size + 5000)
+redis.call('PEXPIRE', token_encoder_key, window_size + 5000)
 
 return {correct_result}
diff --git a/core/llm_token_ratelimit/script/peta/withhold.lua b/core/llm_token_ratelimit/script/peta/withhold.lua
@@ -13,6 +13,7 @@
 -- limitations under the License.
 -- KEYS[1]: Sliding Window Key ("{shard-<hashtag>}:sliding-window:<redisRatelimitKey>")
 -- KEYS[2]: Token Bucket Key ("{shard-<hashtag>}:token-bucket:<redisRatelimitKey>")
+-- KEYS[3]: Token Encoder Key ("{shard-<hashtag>}:token-encoder:<provider>:<model>:<redisRatelimitKey>")
 -- ARGV[1]: Estimated token consumption
 -- ARGV[2]: Current timestamp (milliseconds)
 -- ARGV[3]: Token bucket capacity
@@ -30,6 +31,7 @@ end
 
 local sliding_window_key = tostring(KEYS[1])
 local token_bucket_key = tostring(KEYS[2])
+local token_encoder_key = tostring(KEYS[3])
 
 local estimated = tonumber(ARGV[1])
 local current_timestamp = tonumber(ARGV[2])
@@ -69,6 +71,18 @@ if released_tokens > 0 then -- Expired tokens exist, attempt to replenish new to
     -- Immediately replenish new tokens
     redis.call('HSET', token_bucket_key, 'capacity', current_capacity)
 end
+-- Plus the difference from the token encoder if it exists
+local ttl = redis.call('PTTL', token_encoder_key)
+local difference = tonumber(redis.call('GET', token_encoder_key))
+if ttl < 0 then
+    difference = 0
+else
+    if difference + estimated >= 0 then
+        estimated = estimated + difference
+    else
+        redis.call('SET', token_encoder_key, 0, 'PX', window_size + 5000)
+    end
+end
 -- Check if the request can be satisfied
 if max_capacity < estimated or estimated < 0 then -- If max capacity is less than estimated consumption or estimated is less than 0, return -1 indicating rejection
     waiting_time = -1
@@ -91,5 +105,6 @@ end
 -- Set expiration time to window size plus 5 seconds buffer
 redis.call('PEXPIRE', sliding_window_key, window_size + 5000)
 redis.call('PEXPIRE', token_bucket_key, window_size + 5000)
+redis.call('PEXPIRE', token_encoder_key, window_size + 5000)
 
-return {current_capacity, waiting_time}
+return {current_capacity, waiting_time, estimated, difference}
diff --git a/core/llm_token_ratelimit/script/token_encoder/query.lua b/core/llm_token_ratelimit/script/token_encoder/query.lua
diff --git a/core/llm_token_ratelimit/script/token_encoder/update.lua b/core/llm_token_ratelimit/script/token_encoder/update.lua
diff --git a/core/llm_token_ratelimit/token_encoder.go b/core/llm_token_ratelimit/token_encoder.go
@@ -30,9 +30,6 @@ var (
 	tokenEncoderMapRWMux = &sync.RWMutex{}
 )
 
-//go:embed script/token_encoder/update.lua
-var globalTokenEncoderUpdateScript string
-
 type TokenEncoder interface {
 	CountTokens(ctx *Context, prompts []string, rule *MatchedRule) (int, error)
 }
@@ -62,9 +59,6 @@ func LookupTokenEncoder(ctx *Context, encoding TokenEncoding) TokenEncoder {
 }
 
 // ================================= OpenAIEncoder ====================================
-//
-//go:embed script/token_encoder/query.lua
-var globalTokenEncoderQueryScript string
 
 type OpenAIEncoder struct {
 	Model   string
@@ -107,39 +101,5 @@ func (e *OpenAIEncoder) CountTokens(ctx *Context, prompts []string, rule *Matche
 		builder.WriteString(prompt)
 	}
 	token := e.Encoder.Encode(builder.String(), nil, nil)
-	if len(token) > 0 {
-		estimatedToken, err := e.countTokens(ctx, rule, len(token))
-		if err != nil {
-			return 0, err
-		}
-		return estimatedToken, nil
-	}
-	return 0, nil
-}
-
-func (e *OpenAIEncoder) countTokens(ctx *Context, rule *MatchedRule, tokenization int) (int, error) {
-	if e == nil {
-		return 0, fmt.Errorf("OpenAIEncoder is nil")
-	}
-	key := fmt.Sprintf(TokenEncoderKeyFormat, rule.LimitKey, OpenAIEncoderProvider.String(), e.Model)
-
-	keys := []string{key}
-	args := []interface{}{tokenization, rule.TimeWindow * 1000}
-
-	response, err := globalRedisClient.Eval(globalTokenEncoderQueryScript, keys, args...)
-	if err != nil {
-		return 0, err
-	}
-	result := parseRedisResponse(ctx, response)
-	if result == nil || len(result) != 2 {
-		return 0, fmt.Errorf("unexpected redis response: %v", response)
-	}
-
-	logging.Info("[LLMTokenRateLimit] estimated token",
-		"limitKey", rule.LimitKey,
-		"estimatedToken", result[0],
-		"difference", result[1],
-		"requestID", ctx.Get(KeyRequestID),
-	)
-	return int(result[0]), nil
+	return len(token), nil
 }
diff --git a/core/llm_token_ratelimit/token_updater.go b/core/llm_token_ratelimit/token_updater.go
@@ -112,16 +112,18 @@ func (u *PETAUpdater) updateLimitKey(ctx *Context, rule *MatchedRule, infos *Use
 		return
 	}
 	actualToken := calculator.Calculate(ctx, infos)
-	logging.Info("[LLMTokenRateLimit] actual token",
+	logging.Info("[LLMTokenRateLimit] actual infos",
 		"limitKey", rule.LimitKey,
-		"actualToken", actualToken,
+		"estimated_token", rule.EstimatedToken,
+		"actual_token", actualToken,
 		"requestID", ctx.Get(KeyRequestID),
 	)
 
 	slidingWindowKey := fmt.Sprintf(PETASlidingWindowKeyFormat, generateHash(rule.LimitKey), rule.LimitKey)
 	tokenBucketKey := fmt.Sprintf(PETATokenBucketKeyFormat, generateHash(rule.LimitKey), rule.LimitKey)
+	tokenEncoderKey := fmt.Sprintf(TokenEncoderKeyFormat, generateHash(rule.LimitKey), rule.Encoding.Provider.String(), rule.Encoding.Model, rule.LimitKey)
 
-	keys := []string{slidingWindowKey, tokenBucketKey}
+	keys := []string{slidingWindowKey, tokenBucketKey, tokenEncoderKey}
 	args := []interface{}{rule.EstimatedToken, util.CurrentTimeMillis(), rule.TokenSize, rule.TimeWindow * 1000, actualToken, generateRandomString(PETARandomStringLength)}
 	response, err := globalRedisClient.Eval(globalPETACorrectScript, keys, args...)
 	if err != nil {
@@ -149,39 +151,4 @@ func (u *PETAUpdater) updateLimitKey(ctx *Context, rule *MatchedRule, infos *Use
 		)
 		return
 	}
-	u.updateDifference(ctx, rule, actualToken-rule.EstimatedToken)
-}
-
-func (u *PETAUpdater) updateDifference(ctx *Context, rule *MatchedRule, difference int) {
-	if u == nil {
-		return
-	}
-	key := fmt.Sprintf(TokenEncoderKeyFormat, rule.LimitKey, rule.Encoding.Provider.String(), rule.Encoding.Model)
-
-	keys := []string{key}
-	args := []interface{}{difference, rule.TimeWindow * 1000}
-
-	response, err := globalRedisClient.Eval(globalTokenEncoderUpdateScript, keys, args...)
-	if err != nil {
-		logging.Error(err, "failed to update the difference in llm_token_ratelimit.PETAUpdater.updateDifference()",
-			"key", key,
-			"difference", difference,
-			"requestID", ctx.Get(KeyRequestID),
-		)
-		return
-	}
-	result := parseRedisResponse(ctx, response)
-	if result == nil || len(result) != 1 {
-		logging.Error(errors.New("invalid redis response"),
-			"invalid redis response in llm_token_ratelimit.PETAUpdater.updateDifference()",
-			"response", response,
-			"requestID", ctx.Get(KeyRequestID),
-		)
-		return
-	}
-	logging.Info("[LLMTokenRateLimit] successfully update the difference in llm_token_ratelimit.PETAUpdater.updateDifference()",
-		"key", key,
-		"difference", result[0],
-		"requestID", ctx.Get(KeyRequestID),
-	)
 }

Original file line number	Diff line number	Diff line change
`@@ -84,5 +84,5 @@ const (`
`84`	`84`
`85`	`85`	`// ================================= OpenAIEncoder ============================`
`86`	`86`	`const (`
`87`		`- TokenEncoderKeyFormat string = "%s:token-encoder:%s:%s" // redisRatelimitKey, provider, model`
	`87`	`+ TokenEncoderKeyFormat string = "{shard-%s}:token-encoder:%s:%s:%s" // hashTag, provider, model, redisRatelimitKey`
`88`	`88`	`)`
Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@ type MatchedRule struct {`
`28`	`28`	`CountStrategy CountStrategy`
`29`	`29`	`// PETA`
`30`	`30`	`Encoding TokenEncoding`
`31`		`- EstimatedToken int`
	`31`	`+ EstimatedToken int64`
`32`	`32`	`}`
`33`	`33`
`34`	`34`	`type MatchedRuleCollector interface {`