目前大多数大模型都可以设置输出的max_tokens,让大模型输出的最大内容量由用户控制。
我希望将这个功能也加入到高级设置中,与上下文的消息数量上限,严谨与想象(温度)同级。