WhisperPen：用你的显卡打造免费本地语音输入

Q: WhisperPen 需要网络吗？

不需要。所有处理都在电脑上完成，音频文件不会上传到任何云服务。

Q: 需要什么显卡才能跑？

任何支持 CUDA 的 NVIDIA 显卡都行。实测 RTX 3080 只用了 2GB 显存，所以 GTX 1660 以上应该都可以。

Q: 支持哪些语言？

Whisper 支持 99 种语言。WhisperPen 默认繁体中文，可以在设置档改成任何语言。中英混杂也能识别。

Q: 跟 SayIt 或 Typeless 有什么不同？

SayIt 和 Typeless 都依赖云 API（Groq 或自有服务器）。WhisperPen 完全本地，不需要 API key，不需要付费，也没有用量限制。

🔗 GitHub：p3nchan/whisperpen

打字很快，但说话更快。

Windows 上的语音输入选择不太理想：

Windows 内置语音识别：识别率堪忧，中英混杂几乎不能用
Typeless：月费 NT$300+，而且要上传音频文件到他们的服务器
SayIt：免费但依赖 Groq API，有用量限制

理想的版本很简单：按一个键开始说话，再按一下停止，文字自动出现。不用付钱、不用上网、不用担心隐私。

WhisperPen 为了这个需求而生。

它是什么

WhisperPen 是一个极简的 Windows 语音输入工具。按下快捷键说话，放开后文字自动复制到剪贴板。

语音转文字示意

核心很简单：

麦克风录音 → 音频文件
Whisper 识别 → 把音频文件转成文字（跑在 GPU 上）
复制到剪贴板 → 贴到任何想要的地方

整个过程不到 1 秒（短句），而且完全离线。

为什么选择本地跑

「直接用云 API 不是更方便吗？」

看数字：

方案	月费	隐私	延迟	离线
Typeless	NT$300+	音频文件上传	1-3 秒	❌
SayIt (Groq)	免费（有限额）	音频文件上传	<1 秒	❌
WhisperPen	免费	完全本地	<1 秒	✅

只要有一张 NVIDIA 显卡（GTX 1660 以上），这台电脑已经有能力做到云 API 做的事。差别在于有没有人把它包装成好用的工具。

中英混杂：台湾人的痛点

在台湾写技术文章，中英混杂是日常。「想用 Claude Code 的 API 来做 deployment」这种句子，很多语音工具会把英文部分搞得一团糟。

WhisperPen 用的是 OpenAI 的 Whisper Large V3 Turbo 模型。在 WhisperPen 中实测中英混杂的识别结果：

测试内容	识别时间	结果
纯中文（「今天天气不错，想去公园散步」）	1.58 秒	✅ 完美
中英混杂（「Claude Code API deployment」）	0.50 秒	✅ 全对
技术名词（「Polymarket, Whisper, RTX 3080」）	0.66 秒	✅ 全对

WhisperPen 会自动把半形标点转成全形（, → ，、? → ？），省去手动修正的麻烦。

怎么用

安装（5 分钟）

git clone https://github.com/p3nchan/whisperpen.git
cd whisperpen
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt
cp config.example.yaml config.yaml

第一次执行会自动下载模型（约 1.5GB），之后就不需要网络了。

启动

python whisperpen/main.py

或者用 pythonw（无窗口背景执行）：

start /b pythonw whisperpen/main.py

启动后会在系统列出现一个麦克风图示。录音时变红色，平时灰色。

使用

按 Alt+A → 开始录音
说想打的内容
再按 Alt+A → 停止 → 文字自动进剪贴板
在任何地方 Ctrl+V 贴上

就这样。没有更多步骤了。

进阶：LLM 帮你整理口语

说话跟打字有一个根本差异：说话时会加很多赘词。

「嗯……那个，我觉得就是，这个功能应该要……然后放在那个什么的地方」

Whisper 会忠实地把这些全部转出来。要干净的文字，WhisperPen 可以选择性地把转写结果送给本地的 LLM（透过 Ollama）做整理：

「我觉得这个功能应该放在特定的位置」

在 config.yaml 里打开：

refine:
  enabled: true
  ollama_url: "http://localhost:11434"
  model: "qwen2.5:7b"

这一步也是完全本地的。Ollama 跑在用户自己的电脑上。不想要的话，右键点系统列图示就能关掉。

显卡需求

不需要顶级显卡。Whisper Large V3 Turbo 模型只用了约 2GB 显存：

配置	显存使用	可行性
RTX 3080 (10GB)	2.3GB (23%)	✅ 绰绰有余
RTX 3060 (12GB)	~2.3GB	✅ 没问题
GTX 1660 (6GB)	~2.3GB	✅ 应该可以
GTX 1050 (4GB)	~2.3GB	⚠️ 可能偏紧

需要更高的识别准确度，可以换成完整的 large-v3 模型（约 4GB 显存），但会慢 2-3 倍。对大多数场景来说，large-v3-turbo 的速度和准确度平衡最好。

设置档

所有设置都在 config.yaml，改完自动生效（不用重启）：

hotkey: "alt+a"              # 快捷键
model_size: "large-v3-turbo" # 模型大小
language: "zh"               # 主要语言
auto_paste: true             # 自动贴上
paste_keys: ["ctrl", "v"]   # 贴上快捷键

开源

WhisperPen 是开源的，MIT 授权。整个程序不到 400 行 Python，结构清楚：

whisperpen/
  main.py          # 系统列 + 快捷键
  recorder.py      # 麦克风录音
  transcriber.py   # Whisper GPU 推理
  refiner.py       # Ollama 文字整理
  paster.py        # 剪贴板 + 自动贴上
  config.py        # YAML 设置载入

欢迎 fork、改造、提 issue。

🔗 GitHub：p3nchan/whisperpen

小企鹅的经验

WhisperPen 是自家做的工具，动机很单纯：Windows 上想要按一个键就把语音转成文字，又不想付月费、不想把音频文件送云。实测在 RTX 3080 上跑 Whisper Large V3 Turbo，短句识别不到 1 秒，中英混杂也吃得下来。没有 NVIDIA 显卡的场合，目前主要使用方式是 iPhone 录音 app + NotebookLM 输出转录稿，这条路免费但流程比 WhisperPen 多两步。

常见问题

Q: WhisperPen 需要网络吗？

不需要。所有处理都在电脑上完成，音频文件不会上传到任何云服务。

Q: 需要什么显卡才能跑？

任何支持 CUDA 的 NVIDIA 显卡都行。实测 RTX 3080 只用了 2GB 显存，所以 GTX 1660 以上应该都可以。

Q: 支持哪些语言？

Whisper 支持 99 种语言。WhisperPen 默认繁体中文，可以在设置档改成任何语言。中英混杂也能识别。

Q: 跟 SayIt 或 Typeless 有什么不同？

SayIt 和 Typeless 都依赖云 API（Groq 或自有服务器）。WhisperPen 完全本地，不需要 API key，不需要付费，也没有用量限制。

整理：Penna｜小企鹅 Penchan

WhisperPen：用你的显卡打造免费本地语音输入

它是什么

为什么选择本地跑

中英混杂：台湾人的痛点

怎么用

安装（5 分钟）

启动

使用

进阶：LLM 帮你整理口语

显卡需求

设置档

开源

延伸阅读

小企鹅的经验

常见问题

Q: WhisperPen 需要网络吗？

Q: 需要什么显卡才能跑？

Q: 支持哪些语言？

Q: 跟 SayIt 或 Typeless 有什么不同？

FAQ

AI 日常应用

AI 模型

AI 代理