Herdsman AI 使用手册
简介
在云端算力付费的时代,牧马人本地引擎提供了一套全新的私有化 AI 生产力方案。作为专为高性能硬件优化的本地部署工具,它集成了数十种大模型供你选择,能节省海量 Token 花费,真正实现"AI 自由"。
🔑 核心功能
-
节省 Token 成本 将大模型部署在你本地硬件上,无论是长文文档总结还是代码生成,所有推理成本只等于你的电费。
-
丰富硬件生态 深度适配 Windows 系统,搭配推荐硬件可实现显存分配优化,即使在多任务并行环境下也能确保执行稳定。
-
更快的响应
- 优化推理路径并重构模型参数权重,小白也能轻松控制自己的"大模型"
- 面向极客群体开放大模型 API,简单易用,自由度由你掌控
-
隐私安全 无需联网、本地运行,从根源杜绝敏感信息泄露至云端的风险。你的数据就是你的资产。
-
多模型支持 内置数十种覆盖多模态、大语言等最新大模型,支持 OpenClaw 系列,一键即可完成从下载到部署的全流程。
-
个性化越用越懂你 结合本地数据(文档、习惯、日程等),搭配牧马人 AI 推理引擎可实现数据自我迭代,越用越懂你。
⚡ OpenViking 核心技术 — 分层上下文(节省 Token)
采用轻量级 L0/L1 上下文进行规划,仅在执行时通过 URI 获取 L2 详情:
- L0 概要 — 极简摘要(< 100 tokens),快速决策
- L1 核心 — 关键信息(< 2k tokens),智能规划
- L2 详情 — 完整数据按需加载,深度执行
三大优势:
- 📉 降低 90% Token 成本(智能分层加载)
- 🚫 零窗口溢出(告别截断风险)
- ⚡ 3 倍响应速度(轻量上下文)
☁️ vs 💻 云端模型 vs 本地模型对比
🔒 隐私安全保障
- 本地存储 — 所有数据存储在本地设备,不上传到云端,完全掌控数据所有权。
- 端到端加密 — 数据传输采用银行级加密标准,确保信息安全不被窃取。
- 隐私保护 — 不收集用户行为数据,不进行任何形式的用户分析和追踪。
对话
对话页面支持快速调用本地模型。使用前请先下载模型(详见下载模型章节)。此页面仅限对话功能,如需处理更复杂任务,建议通过 FlowyAIPC 接入并使用本地模型(详见使用模型 -> FlowyAIPC上使用本地模型)。
- 点击左侧“对话”图标进入界面

- 在左下方快速切换模型。本示例使用 Qwen3.6-35B-A3B。

-
在对话框中填入问题并发送。
使用 Python 编写一个 10 个数字的冒泡排序算法

- 等待模型输出结果。

文生图
Herdsman 支持通过文字描述在本地生成图片。
快速开始
- 点击左侧“文生图”图标进入界面。

- Herdsman 提供多种风格的模板提示词。点击模板,内容将自动填入文本框。


-
可根据需求手动补充或丰富模板提示词:
一位优雅的

-
初次使用需下载绘图资源。点击“下载”开始准备。

- 等待资源下载完成(下载速度视网络环境而定,请耐心等候)。

- 下载完成后,点击“启动”按钮。

- 自动开始处理未完成的任务。

- 结果输出。

模型中心
模型中心支持本地模型的下载、启动、停止与删除。

模型分类
按能力分类:
现已支持模型:LLM(大语言模型)、TTI(文生图模型)、ASR(语音转文字模型)、Embedding(文本向量化模型)、Rerank(重排序模型)。
其他类型模型正在适配中,敬请期待。
按厂商分类:
主流开源模型厂商如 微软、阿里 Qwen、智谱 GLM、DeepSeek、Google、Meta 等。
NPU 推理支持:
支持使用 NPU 推理的模型系列:Phi、Qwen、Mistral、DeepSeek。
下载模型
以下载 Qwen3:0.6B 为例:
- 点击左侧图标切换至“模型中心”。

- 浏览列表或直接搜索目标模型(如 Qwen3:0.6B)。

(也可结合分类筛选)

- 点击“下载”按钮开始获取模型。
.83aaa487.png)
- 等待下载完成(耗时取决于网络环境与文件大小,请耐心等候)。

- 下载完成后,点击“启动”按钮即可运行。

- 亦可在“已安装”界面中查看已下载的模型。

使用模型
示例模型:Qwen3.6-35B-A3B
在 Herdsman 中与模型对话:
-
启动本地模型:点击 Qwen3.6-35B-A3B 模型下方的“启动”按钮。

-
在弹出的配置窗口中,按需调整参数(建议设为最大)并点击“启动”。


等待模型启动:

- 启动成功。

- 点击“对话”图标进入对话界面。


-
输入问题并发送:
使用 Python 编写一个 10 个数字的冒泡排序算法

FlowyAIPC 上使用本地模型:
-
启动本地模型:点击 Qwen3.6-35B-A3B 模型下方的“启动”按钮。

-
在弹出的配置窗口中,按需调整参数(建议设为最大)并点击“启动”。


等待模型启动:

- 启动成功。

- 切换至 FlowyAIPC 对话界面。点击左上方模型切换下拉框,在“本地”分类中找到并切换至已启动的 Qwen3.6-35B-A3B 模型。





-
发送需求并等待任务完成:
为我生成一个网页版五子棋小游戏



卸载模型
在模型列表中选择目标模型,点击“删除”并确认卸载。



接口文档
Herdsman 部署的模型不仅支持原生界面和 FlowyAIPC,还提供兼容 OpenAI 格式的 API 接口,方便集成至其他平台。
详情请查看 Herdsman 中的“接口文档”。

