请问llm_type为llama时，模型权重文件必须为model/stable-vicuna-13B.ggml.q4_2.bin吗？权重文件是否可以为llama2？以及策略是否支持fp16?

我在npu上进行测试时，迁移了wenda的代码，在适配llama时，config.yaml如下配置
`  llama:
      path: "/home/ch/stable-vicuna-13B-HF"
      strategy: "npu fp16"`
![image](https://github.com/wenda-LLM/wenda/assets/168498907/ce13f275-b996-44d0-99bb-f91e59a6f33f)
但是在web端推理时，出现了回答不全的现象
![231](https://github.com/wenda-LLM/wenda/assets/168498907/dca93300-1754-4bcc-bd17-ce2fdb81e422)