AI 语音转文字 · 说完即完稿 · 离线可用

用说的,
就写好了。

说得不完美也没关系,AI 自动润饰成专业文字

macOSApple Silicon
Windows测试版
传统打字
45 wpm
Sumi
220 wpm
口说语速一般约 150~200 字/分钟,打字约 40~60 字/分钟。

语音转文字能用在哪些场景?

口述输入、会议记录、语音编辑、音频转录,Sumi 在真实工作场景中即时完成。

Sumi 是一款 AI 语音转文字工具,支持快捷键口述、会议即时转录与摘要、语音编辑文字、音频导入等六大场景,说完即完稿,自动润饰语气和格式。

快捷键

一键开口说

按下快捷键开始说话,Sumi 自动录音、转录、润饰,一气呵成。

Sumi Editor
Alice 咱们明天约在北京西站好了,额算了,改成国图。
fn / 🌐
一键开口说
Email

邮件自己写好

自然说话,立刻得到一封专业邮件。不需要手动修改。

Alice 啊我明天好像去不了吃午饭,工作上突然有个事,整个下午都卡到了,周四你有空吗
Gmail- New Message
Subject午饭改期
Hi Alice, 我明天没法去吃午饭了,工作上临时有事,整个下午都在开会。 改到周四可以吗? Best
Send
邮件自己写好
会议

会议记录模式

开会前按一下,Sumi 全程自动转录存档,不需要人盯着。

会议
会议 03-07 14:32
Today · ···
周会
Mar 4 · 18m
设计评审
Mar 1 · 25m
会议 03-07 14:32

好,咱们开始吧。今天的议程是产品路线图和 Q2 的优先事项。

录音中
会议记录模式
文件导入

导入录音文件,产出逐字稿

会议录音、访谈录音、Podcast 素材,导入 Sumi 即可转录,还能识别不同说话者。

Sumi

拖拽音频文件到这里

支持 MP3 / M4A / WAV

导入录音文件,产出逐字稿
AI 开发

跟你的 AI Agent 说话

对 Gemini、Claude Code 或 Codex 直接说话,不用再在终端之间切换键盘。

Terminal
$ claude
> 🎤 "帮 upload function 加上 error handling"
我会在上传逻辑外面加上 try-catch,并为网络错误和文件验证加上合适的错误信息...
Gemini
Claude
OpenAI

Sumi vs. OpenAI Whisper

中文语音识别的准确度与速度。

中文准确度(1 − CER)

越高越好
Sumi 云端
96.7%
Sumi 本地
94.7%
OpenAI Whisper
92.4%

* CER 数据来自公开中文语音识别评测。Sumi 本地使用压缩至原始大小 30% 的模型进行设备端推理。

本地处理速度

2.2×

比 OpenAI Whisper 快

隐私敏感行业能安心用语音转文字吗?

可以。Sumi 隐私模式让语音识别和 AI 润饰全部在设备上完成,录音和文字不会离开你的电脑。

律师、心理咨询师、医生、会计师等受保密义务约束的专业人士,可通过 Sumi 的隐私模式使用语音转文字,所有数据处理皆在设备上完成,不经过云端。

01

开完会,要花两小时整理记录

律师整理文书、心理咨询师写咨询记录、医生补病历、会计师做工作底稿。每天都有人加班只为了「把今天的东西写完」。

Sumi 即时转录、自动润饰。说完就有完整记录。

02

想用 AI 转录,但不敢上传到云端

委托人的离婚协议、来访者的创伤经历、患者的精神科陈述、客户的税务策略。这些内容传到第三方服务器?

Sumi 在你的电脑上完成所有处理。音频不出设备、不经网络。

03

不确定现在的工具有没有拿你的数据训练 AI

云端服务的隐私政策又长又模糊。你的录音会不会被「用于改善服务质量」?没人说得清楚。

Sumi 完全开源,你可以审查每一行代码。你的对话从未离开你的设备,想训练也拿不到。

不只是个人信息保护法,是你的职业伦理守则

哪些 App 可以使用 Sumi?

所有能打字的地方都能用。Sumi 是系统级工具,在 Gmail 自动套用邮件格式,在 Notion 转成条列式,在终端直接语音下指令。

Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote

…以及你使用的所有应用程序。能打字的地方,Sumi 就能用。

Sumi 跟其他语音工具差在哪?

唯一同时支持听写、会议转录、语音编辑与离线隐私模式的工具。

与 Wispr Flow、VoiceInk、SuperWhisper 等工具相比,Sumi 是唯一同时支持 AI 润饰、会议转录、语音编辑、隐私模式、中英混杂识别的语音转文字工具。

功能Sumi系统听写Wispr FlowVoiceInkSuperWhisper
价格
本地免费
免费
$12~15/月
$25~49
~$8/月
隐私模式(离线)
仅限云端
开放源代码
GPLv3
GPLv3
本地语音识别
Apple Silicon
本地 LLM 润稿
AI 文字润饰
语音编辑文字
云端会议转录
会议 AI 摘要
说话者辨识
文件导入转录
格式检测

资料来源于各产品公开页面,功能可能已有更新。

常见问题

关于安装、隐私、方案的常见问题。

本机功能永久免费,包含口述、本机会议录音、AI 摘要和语音编辑,全部不限次数。云端转录(由 Sumi 服务器处理)需要 Starter($9.99/月)或以上方案;云端功能目前为 Beta 测试期,可免费体验。

Sumi 可完全离线运行。语音识别在设备上搭配 Metal GPU 加速完成,文字润饰使用本地 AI 模型。你的录音和文字不会离开你的设备。隐私模式会在转录完成后自动删除音频。

macOS:需要 macOS 14(Sonoma)或更新版本,搭配 Apple Silicon(M1/M2/M3/M4),推荐 8 GB 以上内存。Windows:需要 Windows 10 或更新版本(x64),提供 CPU 版和 CUDA GPU 加速版。

转录完成后,Sumi 自动去掉赘字(嗯、啊)并修正语法。在 Gmail 里会自动套用邮件格式,在 Notion 里转成条列式。可以用设备上的本地 LLM,也可以用自己的 API 密钥接云端。

开会前按一下快捷键,Sumi 在后台持续录音和转录。结束后可以生成 AI 摘要,抓出重点决策和待办事项。Pro 版还能辨识不同说话者。

选取任何文字,按住快捷键说出指令,例如「翻译成英文」、「改成正式语气」、「整理成条列式」。Sumi 直接改写选取的文字,不需要手动复制粘贴。

Free 方案包含全部本机功能:口述、本机会议录音、AI 摘要和语音编辑,全部无限次,外加每月 1 小时云端语音转录。Starter($9.99/月)提供更多云端转录配额(语音 20hr/月、会议 8hr/月)、说话者辨识和文件导入。

是的。Sumi 在 GitHub 上以 GPLv3 授权开源。你可以查看代码、反馈问题、提交 Pull Request 或协助翻译。

完全不会。Sumi 内建 AI 润饰功能,会自动去掉赘字(嗯、啊、那个)、修正语法、调整语气。你只要自然地说,Sumi 会帮你整理成流畅的书面文字。不需要讲得完美,说得出来就够了。

Sumi 提供隐私模式,语音识别和 AI 润饰全部在你的设备上完成,录音和文字不会上传到任何服务器。适合有保密义务的专业人士使用。隐私模式还会在转录完成后自动删除音频。

支持。Sumi 的识别引擎针对中英混杂场景做了专门优化,准确率远超同类工具。无论是开会时中英夹杂、写代码时混着说指令,还是日常中英切换,Sumi 都能准确识别并输出正确的文字。

不用。Sumi 会根据你的使用场景自动调整格式,在 Gmail 里自动套用邮件格式,在 Notion 里转成条列式,写代码时保持代码格式。语气、标点、分段都会自动处理,说完就是完稿。

可以。语音输入是键盘打字的最佳替代方案。Sumi 让你完全不需要键盘就能完成口述、编辑文字、会议记录等工作。搭配语音编辑功能,连修改文字都不用动手,直接用说的就能改写、翻译、重新排版。

准备好用说的了吗?

下载 Sumi,让手腕休息一下。