The user reports that when deploying local LLMs via Xinference in Ragflow, there's no option to set max-tokens on the model page, leading to conversation length issues. They request the ability to update this parameter.
### Is there an existing issue for the same bug? - [X] I have checked the existing issues. ### Branch name v0.13 ### Commit ID token123 ### Other environment information _No response_ ### Actual behavior 1、使用xinference部署本地大模型,例如qwen系列。 2、登录ragflow,切换到用户管理->模型页面,添加xinference模型,该页面没有max-tokens参数。 3、在全局模型配置中将新增模型设置为全局模型。 4、对话中新建对话,选择新增的模型,提问题,经常回答由于长度限制……继续吗?输入继续无效。 ### Expected behavior _No response_ ### Steps to reproduce ```Markdown 1、使用xinference部署本地大模型,例如qwen系列。 2、登录ragflow,切换到用户管理->模型页面,添加xinference模型,该页面没有max-tokens参数。 3、在全局模型配置中将新增模型设置为全局模型。 4、对话中新建对话,选择新增的模型,此处有max-tokens,对商业API-KEY方式接入大模型有效,对本地部署模型无效。 5、查看模型列表API数据,发展本地部署模型,没有max-tokens参数。 6、提问题,经常回答由于长度限制……继续吗?输入继续无效。 7、根本原因在于添加的本地部署大模型,即用户模型缺少max-tokens字段,模型配置页面和数据库中没有相关字段,导致问答时,调用的大模型实例使用了默认的8192(以前是512)所致。 ``` ### Additional information _No response_