Ollama v0.8.0 发布,支持通过工具调用进行流式响应
Ollama v0.8.0 已发布,新版本带来了通过工具调用进行流式响应 (Streaming responses with tool calling) 功能,让开发者构建的聊天应用从此能够像流式输出普通文本一样,实时地调用工具并展示结果。 这一更新使得所有聊天应用都能够在模型生成内容的同时,实时地调用外部工具,并将整个过程(包括模型的思考、工具的调用指令、以及最终的文本回复)流畅地展示给用户。 该功能已在 Ollama 的 Python 和 JavaScript 库以及 cURL API 中得到全面支持。 Ollama v0.8.0的更新亮点包括: 即时工具调用与内容流式输出:应用不再需要等待模型完整响应后才能处理工具调用,模型生成内容和工具调用指令可以同步、分块地流式传输。 全新智能增量解析器:Ollama 构建了新的解析器,它专注于理解工具调用的结构,而不仅仅是寻找JSON。这使得Ollama能够: 实时分离:在流式输出用户内容的同时,准确检测、抑制和解析工具调用相关的Token。 兼容广泛模型:无论模型是否经过工具特定Token的训练,都能有效工作,甚至能处理模型输出的部分前缀...