Handy 一个免费、开源且可扩展的语音转文本应用程序,可完全离线工作。-开源码库社区-开源分享-6协议-村兔网

Handy 一个免费、开源且可扩展的语音转文本应用程序,可完全离线工作。

一个免费、开源且可扩展的语音转文本应用程序,可完全离线工作。

Handy 是一个使用 Tauri(Rust + React/TypeScript)构建的跨平台桌面应用程序,可提供简单、注重隐私的语音转录。按下快捷键、说话并让您的文字出现在任何文本字段中——所有这些都无需将您的声音发送到云端。

为什么是 Handy?

Handy 的创建是为了填补真正开源、可扩展的语音转文本工具的空白。正如 handy.computer 上所述:

  • 免费:辅助功能工具属于每个人,而不是付费专区
  • 开源:我们可以一起进一步建设。为自己扩展 Handy 并为更大的事业做出贡献
  • 私人:您的声音保留在您的计算机上。无需将音频发送到云端即可获取听录
  • 简单:一种工具,一项工作。转录你所说的话并将其放入文本框中

Handy 并不是试图成为最好的语音转文本应用程序,而是试图成为最可分叉的应用程序。

这个怎么运作

  1. 可配置的键盘快捷键开始/停止录音(或使用一键通模式)
  2. 在快捷指令处于活动状态时说出您的话
  3. Release and Handy 使用 Whisper 处理您的语音
  4. 转录文本直接粘贴到您正在使用的任何应用程序中

该过程完全是本地的:

  • 使用 VAD(语音活动检测)和 Silero 过滤静音
  • 听录使用您选择的模型:
    • Whisper 型号(小/中/Turbo/大),如果可用,具有 GPU 加速功能
    • Parakeet V3 – CPU 优化模型,具有出色的性能和自动语言检测
  • 适用于 Windows、macOS 和 Linux

快速入门

安装

  1. 从发布页面或网站下载最新版本
  2. 按照特定于平台的说明安装应用程序
  3. 启动 Handy 并授予必要的系统权限(麦克风、辅助功能)
  4. 在“设置”中配置您首选的键盘快捷键
  5. 开始转录!

开发设置

有关细的生成说明,包括特定于平台的要求,请参阅 BUILD.md。

建筑

Handy 是作为 Tauri 应用程序构建的,结合了:

  • 前端:React + TypeScript 和 Tailwind CSS 用于设置 UI
  • 后端:用于系统集成、音频处理和 ML 推理的 Rust
  • 核心库
    • whisper-rs:使用 Whisper 模型进行本地语音识别
    • transcription-rs:使用 Parakeet 模型进行 CPU 优化的语音识别
    • cpal:跨平台音频 I/O
    • vad-rs:语音活动检测
    • rdev:全局键盘快捷键和系统事件
    • rubato:音频重采样

调试模式

Handy 包括用于开发和故障排除的高级调试模式。按以下方式访问它:

  • macOS的:Cmd+Shift+D
  • Windows/LinuxCtrl+Shift+D

已知问题和当前限制

该项目正在积极开发中,存在一些已知问题。我们相信当前状态的透明度:

平台支持

  • macOS(Intel 和 Apple Silicon)
  • x64 窗口
  • x64 Linux

系统要求/建议

以下是在您自己的计算机上运行 Handy 的建议。如果不满足系统要求,应用程序的性能可能会下降。我们正在努力提高各种计算机和硬件的性能。

对于耳语模型:

  • macOS:M 系列 Mac、Intel Mac
  • Windows:Intel、AMD 或 NVIDIA GPU
  • Linux:Intel、AMD 或 NVIDIA GPU
    • Ubuntu 22.04、24.04

对于长尾小鹦鹉 V3 型号:

  • 仅 CPU作 – 在各种硬件上运行
  • 最低:Intel Skylake(第 6 代)或同等 AMD 处理器
  • 性能:在中端硬件上实时速度 ~5 倍(在 i5 上测试)
  • 自动语言检测 – 无需手动选择语言

 

请登录后发表评论

    没有回复内容