语音转文字能用在哪些场景?
口述输入、会议记录、语音编辑、音频转录,Sumi 在真实工作场景中即时完成。
Sumi 是一款 AI 语音转文字工具,支持快捷键口述、会议即时转录与摘要、语音编辑文字、音频导入等六大场景,说完即完稿,自动润饰语气和格式。
一键开口说
按下快捷键开始说话,Sumi 自动录音、转录、润饰,一气呵成。

邮件自己写好
自然说话,立刻得到一封专业邮件。不需要手动修改。

会议记录模式
开会前按一下,Sumi 全程自动转录存档,不需要人盯着。
好,咱们开始吧。今天的议程是产品路线图和 Q2 的优先事项。

导入录音文件,产出逐字稿
会议录音、访谈录音、Podcast 素材,导入 Sumi 即可转录,还能识别不同说话者。
拖拽音频文件到这里
支持 MP3 / M4A / WAV

跟你的 AI Agent 说话
对 Gemini、Claude Code 或 Codex 直接说话,不用再在终端之间切换键盘。
Sumi vs. OpenAI Whisper
中文语音识别的准确度与速度。
中文准确度(1 − CER)
越高越好* CER 数据来自公开中文语音识别评测。Sumi 本地使用压缩至原始大小 30% 的模型进行设备端推理。
本地处理速度
比 OpenAI Whisper 快
隐私敏感行业能安心用语音转文字吗?
可以。Sumi 隐私模式让语音识别和 AI 润饰全部在设备上完成,录音和文字不会离开你的电脑。
律师、心理咨询师、医生、会计师等受保密义务约束的专业人士,可通过 Sumi 的隐私模式使用语音转文字,所有数据处理皆在设备上完成,不经过云端。
开完会,要花两小时整理记录
律师整理文书、心理咨询师写咨询记录、医生补病历、会计师做工作底稿。每天都有人加班只为了「把今天的东西写完」。
Sumi 即时转录、自动润饰。说完就有完整记录。
想用 AI 转录,但不敢上传到云端
委托人的离婚协议、来访者的创伤经历、患者的精神科陈述、客户的税务策略。这些内容传到第三方服务器?
Sumi 在你的电脑上完成所有处理。音频不出设备、不经网络。
不确定现在的工具有没有拿你的数据训练 AI
云端服务的隐私政策又长又模糊。你的录音会不会被「用于改善服务质量」?没人说得清楚。
Sumi 完全开源,你可以审查每一行代码。你的对话从未离开你的设备,想训练也拿不到。
“不只是个人信息保护法,是你的职业伦理守则”
哪些 App 可以使用 Sumi?
所有能打字的地方都能用。Sumi 是系统级工具,在 Gmail 自动套用邮件格式,在 Notion 转成条列式,在终端直接语音下指令。
…以及你使用的所有应用程序。能打字的地方,Sumi 就能用。
Sumi 跟其他语音工具差在哪?
唯一同时支持听写、会议转录、语音编辑与离线隐私模式的工具。
与 Wispr Flow、VoiceInk、SuperWhisper 等工具相比,Sumi 是唯一同时支持 AI 润饰、会议转录、语音编辑、隐私模式、中英混杂识别的语音转文字工具。
| 功能 | Sumi | 系统听写 | Wispr Flow | VoiceInk | SuperWhisper |
|---|---|---|---|---|---|
| 价格 | 本地免费 | 免费 | $12~15/月 | $25~49 | ~$8/月 |
| 隐私模式(离线) | 仅限云端 | ||||
| 开放源代码 | GPLv3 | GPLv3 | |||
| 本地语音识别 | Apple Silicon | ||||
| 本地 LLM 润稿 | |||||
| AI 文字润饰 | |||||
| 语音编辑文字 | |||||
| 云端会议转录 | |||||
| 会议 AI 摘要 | |||||
| 说话者辨识 | |||||
| 文件导入转录 | |||||
| 格式检测 |
资料来源于各产品公开页面,功能可能已有更新。
早期用户的好评
听听开发者和创作者怎么说。
“我边调试边用 Sumi 口述代码注释和 Slack 消息。本地 LLM 润稿超强,语无伦次也能变成干净的文字,完全不经过云端。”
“Sumi 让我的初稿效率提升一倍。在 Gmail 里自动帮我排好邮件格式,省去排版的时间。”
“完全开源是我选择 Sumi 的决定性因素。我可以验证音频绝不会离开设备,没有其他语音工具能给我这种信任感。”
“我现在完全用语音写论文。中英文混着讲也没问题,省下好几周的打字时间。”
“身为 PM,我在站会结束后直接口述会议摘要。走回座位时,润饰过的笔记已经贴在 Notion 里了。”
“我边调试边用 Sumi 口述代码注释和 Slack 消息。本地 LLM 润稿超强,语无伦次也能变成干净的文字,完全不经过云端。”
“Sumi 让我的初稿效率提升一倍。在 Gmail 里自动帮我排好邮件格式,省去排版的时间。”
“完全开源是我选择 Sumi 的决定性因素。我可以验证音频绝不会离开设备,没有其他语音工具能给我这种信任感。”
“我现在完全用语音写论文。中英文混着讲也没问题,省下好几周的打字时间。”
“身为 PM,我在站会结束后直接口述会议摘要。走回座位时,润饰过的笔记已经贴在 Notion 里了。”
“多语言支持太强了。我用三种语言口述翻译,Sumi 的语码转换完美无缝。”
“通勤时用语音就把节目笔记写完了。以前要花一小时的事,现在十分钟搞定。”
“每天回复 50 多封 email 以前让我精疲力竭。现在只要自然地说,Sumi 就给我专业又精炼的回复。”
“在 Figma 工作的同时用语音记录设计决策。口述完直接贴进 Notion,自动转成条列式。”
“以前不可能一边跑分析一边写报告。现在我边写代码边口述分析结果,Sumi 帮我搞定后面的事。”
“多语言支持太强了。我用三种语言口述翻译,Sumi 的语码转换完美无缝。”
“通勤时用语音就把节目笔记写完了。以前要花一小时的事,现在十分钟搞定。”
“每天回复 50 多封 email 以前让我精疲力竭。现在只要自然地说,Sumi 就给我专业又精炼的回复。”
“在 Figma 工作的同时用语音记录设计决策。口述完直接贴进 Notion,自动转成条列式。”
“以前不可能一边跑分析一边写报告。现在我边写代码边口述分析结果,Sumi 帮我搞定后面的事。”
常见问题
关于安装、隐私、方案的常见问题。
本机功能永久免费,包含口述、本机会议录音、AI 摘要和语音编辑,全部不限次数。云端转录(由 Sumi 服务器处理)需要 Starter($9.99/月)或以上方案;云端功能目前为 Beta 测试期,可免费体验。
Sumi 可完全离线运行。语音识别在设备上搭配 Metal GPU 加速完成,文字润饰使用本地 AI 模型。你的录音和文字不会离开你的设备。隐私模式会在转录完成后自动删除音频。
macOS:需要 macOS 14(Sonoma)或更新版本,搭配 Apple Silicon(M1/M2/M3/M4),推荐 8 GB 以上内存。Windows:需要 Windows 10 或更新版本(x64),提供 CPU 版和 CUDA GPU 加速版。
转录完成后,Sumi 自动去掉赘字(嗯、啊)并修正语法。在 Gmail 里会自动套用邮件格式,在 Notion 里转成条列式。可以用设备上的本地 LLM,也可以用自己的 API 密钥接云端。
开会前按一下快捷键,Sumi 在后台持续录音和转录。结束后可以生成 AI 摘要,抓出重点决策和待办事项。Pro 版还能辨识不同说话者。
选取任何文字,按住快捷键说出指令,例如「翻译成英文」、「改成正式语气」、「整理成条列式」。Sumi 直接改写选取的文字,不需要手动复制粘贴。
Free 方案包含全部本机功能:口述、本机会议录音、AI 摘要和语音编辑,全部无限次,外加每月 1 小时云端语音转录。Starter($9.99/月)提供更多云端转录配额(语音 20hr/月、会议 8hr/月)、说话者辨识和文件导入。
是的。Sumi 在 GitHub 上以 GPLv3 授权开源。你可以查看代码、反馈问题、提交 Pull Request 或协助翻译。
完全不会。Sumi 内建 AI 润饰功能,会自动去掉赘字(嗯、啊、那个)、修正语法、调整语气。你只要自然地说,Sumi 会帮你整理成流畅的书面文字。不需要讲得完美,说得出来就够了。
Sumi 提供隐私模式,语音识别和 AI 润饰全部在你的设备上完成,录音和文字不会上传到任何服务器。适合有保密义务的专业人士使用。隐私模式还会在转录完成后自动删除音频。
支持。Sumi 的识别引擎针对中英混杂场景做了专门优化,准确率远超同类工具。无论是开会时中英夹杂、写代码时混着说指令,还是日常中英切换,Sumi 都能准确识别并输出正确的文字。
不用。Sumi 会根据你的使用场景自动调整格式,在 Gmail 里自动套用邮件格式,在 Notion 里转成条列式,写代码时保持代码格式。语气、标点、分段都会自动处理,说完就是完稿。
可以。语音输入是键盘打字的最佳替代方案。Sumi 让你完全不需要键盘就能完成口述、编辑文字、会议记录等工作。搭配语音编辑功能,连修改文字都不用动手,直接用说的就能改写、翻译、重新排版。