Feature request / 功能建议
如题。我们在实际生产环境中,需要长时间跑一些文件处理任务(比如写摘要,且对于单个大文件又要拆分为很多小的请求)。与此同时,用户可能有大模型聊天的需求。如果没有优先级,会导致聊天请求要排队等待前面的文件处理任务执行完,才慢慢调度到聊天的请求。这显然是不能接受的。现在的情况是,我们一有文件在处理(比如几百个),就(基本)无法聊天了
Motivation / 动机
我希望咱们能扩展openai的参数,增加一个priority的参数。我不希望是增加新的接口。我希望能够保持我的程序能随时切换到任何支持openai接口的大模型。
Your contribution / 您的贡献
无