一个免费、开源且可扩展的语音转文本应用程序,可完全离线工作。
Handy 是一个使用 Tauri(Rust + React/TypeScript)构建的跨平台桌面应用程序,可提供简单、注重隐私的语音转录。按下快捷键、说话并让您的文字出现在任何文本字段中——所有这些都无需将您的声音发送到云端。
为什么是 Handy?
Handy 的创建是为了填补真正开源、可扩展的语音转文本工具的空白。正如 handy.computer 上所述:
- 免费:辅助功能工具属于每个人,而不是付费专区
- 开源:我们可以一起进一步建设。为自己扩展 Handy 并为更大的事业做出贡献
- 私人:您的声音保留在您的计算机上。无需将音频发送到云端即可获取听录
- 简单:一种工具,一项工作。转录你所说的话并将其放入文本框中
Handy 并不是试图成为最好的语音转文本应用程序,而是试图成为最可分叉的应用程序。
这个怎么运作
- 按可配置的键盘快捷键开始/停止录音(或使用一键通模式)
- 在快捷指令处于活动状态时说出您的话
- Release and Handy 使用 Whisper 处理您的语音
- 将转录文本直接粘贴到您正在使用的任何应用程序中
该过程完全是本地的:
- 使用 VAD(语音活动检测)和 Silero 过滤静音
- 听录使用您选择的模型:
- Whisper 型号(小/中/Turbo/大),如果可用,具有 GPU 加速功能
- Parakeet V3 – CPU 优化模型,具有出色的性能和自动语言检测
- 适用于 Windows、macOS 和 Linux
快速入门
安装
- 从发布页面或网站下载最新版本
- 按照特定于平台的说明安装应用程序
- 启动 Handy 并授予必要的系统权限(麦克风、辅助功能)
- 在“设置”中配置您首选的键盘快捷键
- 开始转录!
开发设置
有关细的生成说明,包括特定于平台的要求,请参阅 BUILD.md。
建筑
Handy 是作为 Tauri 应用程序构建的,结合了:
- 前端:React + TypeScript 和 Tailwind CSS 用于设置 UI
- 后端:用于系统集成、音频处理和 ML 推理的 Rust
- 核心库:
whisper-rs:使用 Whisper 模型进行本地语音识别transcription-rs:使用 Parakeet 模型进行 CPU 优化的语音识别cpal:跨平台音频 I/Ovad-rs:语音活动检测rdev:全局键盘快捷键和系统事件rubato:音频重采样
调试模式
Handy 包括用于开发和故障排除的高级调试模式。按以下方式访问它:
- macOS的:
Cmd+Shift+D - Windows/Linux:
Ctrl+Shift+D
已知问题和当前限制
该项目正在积极开发中,存在一些已知问题。我们相信当前状态的透明度:
平台支持
- macOS(Intel 和 Apple Silicon)
- x64 窗口
- x64 Linux
系统要求/建议
以下是在您自己的计算机上运行 Handy 的建议。如果不满足系统要求,应用程序的性能可能会下降。我们正在努力提高各种计算机和硬件的性能。
对于耳语模型:
- macOS:M 系列 Mac、Intel Mac
- Windows:Intel、AMD 或 NVIDIA GPU
- Linux:Intel、AMD 或 NVIDIA GPU
- Ubuntu 22.04、24.04
对于长尾小鹦鹉 V3 型号:
- 仅 CPU作 – 在各种硬件上运行
- 最低:Intel Skylake(第 6 代)或同等 AMD 处理器
- 性能:在中端硬件上实时速度 ~5 倍(在 i5 上测试)
- 自动语言检测 – 无需手动选择语言


没有回复内容