简体中文

Herdsman AI 使用手册

简介

在云端算力付费的时代，牧马人本地引擎提供了一套全新的私有化 AI 生产力方案。作为专为高性能硬件优化的本地部署工具，它集成了数十种大模型供你选择，能节省海量 Token 花费，真正实现"AI 自由"。

🔑 核心功能

节省 Token 成本 将大模型部署在你本地硬件上，无论是长文文档总结还是代码生成，所有推理成本只等于你的电费。
丰富硬件生态 深度适配 Windows 系统，搭配推荐硬件可实现显存分配优化，即使在多任务并行环境下也能确保执行稳定。
更快的响应
- 优化推理路径并重构模型参数权重，小白也能轻松控制自己的"大模型"
- 面向极客群体开放大模型 API，简单易用，自由度由你掌控
隐私安全 无需联网、本地运行，从根源杜绝敏感信息泄露至云端的风险。你的数据就是你的资产。
多模型支持 内置数十种覆盖多模态、大语言等最新大模型，支持 OpenClaw 系列，一键即可完成从下载到部署的全流程。
个性化越用越懂你 结合本地数据（文档、习惯、日程等），搭配牧马人 AI 推理引擎可实现数据自我迭代，越用越懂你。

⚡ OpenViking 核心技术 — 分层上下文（节省 Token）

采用轻量级 L0/L1 上下文进行规划，仅在执行时通过 URI 获取 L2 详情：

L0 概要 — 极简摘要（< 100 tokens），快速决策
L1 核心 — 关键信息（< 2k tokens），智能规划
L2 详情 — 完整数据按需加载，深度执行

三大优势：

📉 降低 90% Token 成本（智能分层加载）
🚫 零窗口溢出（告别截断风险）
⚡ 3 倍响应速度（轻量上下文）

☁️ vs 💻 云端模型 vs 本地模型对比

	云端模型	本地模型（推荐 ✅）
响应速度	受网络波动影响大	模型一经加载即用即停，响应迅速
协作能力	任务进入排队等待	可丝滑接入其他生产力工具，提供 API 接口
成本	算力费用高	本地直连，Token 输出如泉涌

🔒 隐私安全保障

本地存储 — 所有数据存储在本地设备，不上传到云端，完全掌控数据所有权。
端到端加密 — 数据传输采用银行级加密标准，确保信息安全不被窃取。
隐私保护 — 不收集用户行为数据，不进行任何形式的用户分析和追踪。

对话

对话页面支持快速调用本地模型。使用前请先下载模型（详见下载模型章节）。此页面仅限对话功能，如需处理更复杂任务，建议通过 FlowyAIPC 接入并使用本地模型（详见使用模型 -> FlowyAIPC上使用本地模型）。

点击左侧“对话”图标进入界面

Snipaste_2026-04-23_16-05-33

在左下方快速切换模型。本示例使用 Qwen3.6-35B-A3B。

Snipaste_2026-04-23_16-06-14

在对话框中填入问题并发送。

使用 Python 编写一个 10 个数字的冒泡排序算法

Snipaste_2026-04-23_15-20-09

等待模型输出结果。

Snipaste_2026-04-23_15-22-17

文生图

Herdsman 支持通过文字描述在本地生成图片。

快速开始

点击左侧“文生图”图标进入界面。

Snipaste_2026-04-23_16-06-59

Herdsman 提供多种风格的模板提示词。点击模板，内容将自动填入文本框。

Snipaste_2026-04-23_16-08-01

Snipaste_2026-04-23_16-08-44

可根据需求手动补充或丰富模板提示词：

一位优雅的

Snipaste_2026-04-23_16-10-50

初次使用需下载绘图资源。点击“下载”开始准备。

Snipaste_2026-04-23_16-11-05

等待资源下载完成（下载速度视网络环境而定，请耐心等候）。

Snipaste_2026-04-23_16-11-42

下载完成后，点击“启动”按钮。

Snipaste_2026-04-23_16-39-32

自动开始处理未完成的任务。

Snipaste_2026-04-23_16-39-51

结果输出。

Snipaste_2026-04-23_16-40-20

模型中心

模型中心支持本地模型的下载、启动、停止与删除。

Snipaste_2026-04-23_14-24-01

模型分类

按能力分类：

现已支持模型：LLM（大语言模型）、TTI（文生图模型）、ASR（语音转文字模型）、Embedding（文本向量化模型）、Rerank（重排序模型）。

其他类型模型正在适配中，敬请期待。

按厂商分类：

主流开源模型厂商如微软、阿里 Qwen、智谱 GLM、DeepSeek、Google、Meta 等。

NPU 推理支持：

支持使用 NPU 推理的模型系列：Phi、Qwen、Mistral、DeepSeek。

下载模型

以下载 Qwen3:0.6B 为例：

点击左侧图标切换至“模型中心”。

Snipaste_2026-04-23_14-45-18

浏览列表或直接搜索目标模型（如 Qwen3:0.6B）。

Snipaste_2026-04-23_14-45-18

（也可结合分类筛选）

Snipaste_2026-04-23_14-47-07

点击“下载”按钮开始获取模型。

Snipaste_2026-04-23_14-45-18(1)

等待下载完成（耗时取决于网络环境与文件大小，请耐心等候）。

Snipaste_2026-04-23_14-47-45

下载完成后，点击“启动”按钮即可运行。

Snipaste_2026-04-23_14-53-53

亦可在“已安装”界面中查看已下载的模型。

Snipaste_2026-04-23_14-55-24

使用模型

示例模型：Qwen3.6-35B-A3B

在 Herdsman 中与模型对话：

启动本地模型：点击 Qwen3.6-35B-A3B 模型下方的“启动”按钮。
在弹出的配置窗口中，按需调整参数（建议设为最大）并点击“启动”。

Snipaste_2026-04-23_15-03-41

Snipaste_2026-04-23_15-13-48

等待模型启动：

Snipaste_2026-04-23_15-14-24

启动成功。

Snipaste_2026-04-23_15-15-35

点击“对话”图标进入对话界面。

Snipaste_2026-04-23_15-17-06

Snipaste_2026-04-23_15-20-09

输入问题并发送：

使用 Python 编写一个 10 个数字的冒泡排序算法

Snipaste_2026-04-23_15-22-17

FlowyAIPC 上使用本地模型：

启动本地模型：点击 Qwen3.6-35B-A3B 模型下方的“启动”按钮。
在弹出的配置窗口中，按需调整参数（建议设为最大）并点击“启动”。

Snipaste_2026-04-23_15-03-41

Snipaste_2026-04-23_15-13-48

等待模型启动：

Snipaste_2026-04-23_15-14-24

启动成功。

Snipaste_2026-04-23_15-15-35

切换至 FlowyAIPC 对话界面。点击左上方模型切换下拉框，在“本地”分类中找到并切换至已启动的 Qwen3.6-35B-A3B 模型。

Snipaste_2026-04-23_15-26-45

Snipaste_2026-04-23_15-27-59

Snipaste_2026-04-23_15-28-53

Snipaste_2026-04-23_15-30-57

Snipaste_2026-04-23_15-32-54

发送需求并等待任务完成：

为我生成一个网页版五子棋小游戏

Snipaste_2026-04-23_15-54-19

Snipaste_2026-04-23_15-57-50

Snipaste_2026-04-23_15-57-14

卸载模型

在模型列表中选择目标模型，点击“删除”并确认卸载。

Snipaste_2026-04-23_16-02-14

Snipaste_2026-04-23_16-02-58

Snipaste_2026-04-23_16-03-15

接口文档

Herdsman 部署的模型不仅支持原生界面和 FlowyAIPC，还提供兼容 OpenAI 格式的 API 接口，方便集成至其他平台。

详情请查看 Herdsman 中的“接口文档”。