AI 語音轉文字 · 說完即完稿 · 離線可用

用說的,
就寫好了。

說得不完美也沒關係,AI 自動潤飾成專業文字

macOSApple Silicon
Windows測試版
傳統打字
45 wpm
Sumi
220 wpm
口說語速一般約 150~200 字/分鐘,打字約 40~60 字/分鐘。

語音轉文字能用在哪些場景?

口述輸入、會議記錄、語音編輯、音檔轉錄,Sumi 在真實工作場景中即時完成。

Sumi 是一款 AI 語音轉文字工具,支援快捷鍵口述、會議即時轉錄與摘要、語音編輯文字、音檔匯入等六大場景,說完即完稿,自動潤飾語氣和格式。

快捷鍵

一鍵開口說

按下快捷鍵開始說話,Sumi 自動錄音、轉錄、潤飾,一氣呵成。

Sumi Editor
Alice 我們明天約在台北車站好了,痾算了,改成總圖。
fn / 🌐
一鍵開口說
Email

信件自己寫好

自然說話,立刻得到一封專業郵件。不需要手動修改。

Alice 啊我明天好像去不了吃午餐,工作上突然有個事,整個下午都卡到了,禮拜四你有空嗎
Gmail- New Message
Subject午餐改期
Hi Alice, 我明天沒辦法去吃午餐了,工作上臨時有事,整個下午都在開會。 改到禮拜四可以嗎? Best
Send
信件自己寫好
會議

會議記錄模式

開會前按一下,Sumi 全程自動轉錄存檔,不需要人盯著。

會議
會議 03-07 14:32
Today · ···
週會
Mar 4 · 18m
設計審查
Mar 1 · 25m
會議 03-07 14:32

好,我們開始吧。今天的議程是產品路線圖跟 Q2 的優先事項。

錄音中
會議記錄模式
檔案匯入

匯入錄音檔,產出逐字稿

會議錄音、訪談錄音、Podcast 素材,匯入 Sumi 即可轉錄,還能辨識不同說話者。

Sumi

拖曳音檔到這裡

支援 MP3 / M4A / WAV

匯入錄音檔,產出逐字稿
AI 開發

跟你的 AI Agent 說話

對 Gemini、Claude Code 或 Codex 直接說話,不用再在終端機之間切換鍵盤。

Terminal
$ claude
> 🎤 "幫 upload function 加上 error handling"
我會在上傳邏輯外面加上 try-catch,並為網路錯誤和檔案驗證加上適當的錯誤訊息...
Gemini
Claude
OpenAI

Sumi vs. OpenAI Whisper

中文語音辨識的準確度與速度。

中文準確度(1 − CER)

越高越好
Sumi 雲端
96.7%
Sumi 本地
94.7%
OpenAI Whisper
92.4%

* CER 數據來自公開中文語音辨識評測。Sumi 本地使用壓縮至原始大小 30% 的模型進行裝置端推論。

本地處理速度

2.2×

比 OpenAI Whisper 快

隱私敏感行業能安心用語音轉文字嗎?

可以。Sumi 隱私模式讓語音辨識和 AI 潤飾全部在裝置上完成,錄音和文字不會離開你的電腦。

律師、心理諮商師、醫師、會計師等受保密義務約束的專業人士,可透過 Sumi 的隱私模式使用語音轉文字,所有資料處理皆在裝置上完成,不經過雲端。

01

開完會,要花兩小時整理紀錄

律師整理書狀、心理師寫晤談紀錄、醫師補病歷、會計師做工作底稿。事情早就做完了,但紀錄還沒寫,人還走不了。

Sumi 即時轉錄、自動潤飾。說完就有完整紀錄。

02

想用 AI 轉錄,但不敢上傳到雲端

當事人的離婚協議、個案的創傷經歷、病人的精神科陳述、客戶的稅務策略。這些內容傳到第三方伺服器?

Sumi 在你的電腦上完成所有處理。音訊不出裝置、不經網路。

03

不確定現在的工具有沒有拿你的資料訓練 AI

雲端服務的隱私政策又長又模糊。你的錄音會不會被「用於改善服務品質」?沒人說得清楚。

Sumi 完全開源,你可以審查每一行程式碼。你的對話從未離開你的裝置,想訓練也拿不到。

不只是個資法,是你的專業倫理守則

哪些 App 可以使用 Sumi?

所有能打字的地方都能用。Sumi 是系統級工具,在 Gmail 自動套用信件格式,在 Notion 轉成條列式,在終端直接語音下指令。

Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Slack
VS Code
Gmail
Notion
Chrome
Safari
Discord
Telegram
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
Figma
Arc
Teams
iTerm2
GitHub
Linear
Obsidian
WhatsApp
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote
LINE
Spotify
X
Reddit
YouTube
Zoom
Trello
Evernote

…以及你使用的所有應用程式。能打字的地方,Sumi 就能用。

Sumi 跟其他語音工具差在哪?

唯一同時支援聽寫、會議轉錄、語音編輯與離線隱私模式的工具。

與 Wispr Flow、VoiceInk、SuperWhisper 等工具相比,Sumi 是唯一同時支援 AI 潤飾、會議轉錄、語音編輯、隱私模式、中英混雜辨識的語音轉文字工具。

功能Sumi內建聽寫Wispr FlowVoiceInkSuperWhisper
價格
本地免費
免費
$12~15/月
$25~49
~$8/月
隱私模式(離線)
僅限雲端
開放原始碼
GPLv3
GPLv3
本地語音辨識
Apple Silicon
本地 LLM 潤稿
AI 文字潤飾
語音編輯文字
雲端會議轉錄
會議 AI 摘要
說話者辨識
檔案匯入轉錄
格式偵測

資料來源為各產品公開頁面,功能可能已有更新。

常見問題

關於安裝、隱私、方案的常見問題。

本機功能永久免費,包含口述、本機會議錄音、AI 摘要和語音編輯,全部不限次數。雲端轉錄(由 Sumi 伺服器處理)需要 Starter($9.99/月)或以上方案;雲端功能目前為 Beta 測試期,可免費體驗。

Sumi 可完全離線運行。語音辨識在裝置上搭配 Metal GPU 加速完成,文字潤飾使用本地 AI 模型。你的錄音和文字不會離開你的裝置。隱私模式會在轉錄完成後自動刪除音檔。

macOS:需要 macOS 14(Sonoma)或更新版本,搭配 Apple Silicon(M1/M2/M3/M4),推薦 8 GB 以上記憶體。Windows:需要 Windows 10 或更新版本(x64),提供 CPU 版和 CUDA GPU 加速版。

轉錄完成後,Sumi 自動去掉贅字(嗯、啊)並修正語法。在 Gmail 裡會自動套用信件格式,在 Notion 裡轉成條列式。可以用裝置上的本地 LLM,也可以用自己的 API 金鑰接雲端。

開會前按一下快捷鍵,Sumi 在背景持續錄音和轉錄。結束後可以生成 AI 摘要,抓出重點決策和待辦事項。Pro 版還能辨識不同說話者。

選取任何文字,按住快捷鍵說出指令,例如「翻譯成英文」、「改成正式語氣」、「整理成條列式」。Sumi 直接改寫選取的文字,不需要手動複製貼上。

Free 方案包含全部本機功能:口述、本機會議錄音、AI 摘要和語音編輯,全部無限次,外加每月 1 小時雲端語音轉錄。Starter($9.99/月)提供更多雲端轉錄配額(語音 20hr/月、會議 8hr/月)、說話者辨識和檔案匯入。

是的。Sumi 在 GitHub 上以 GPLv3 授權開源。你可以檢視程式碼、回報問題、提交 Pull Request 或協助翻譯。

完全不會。Sumi 內建 AI 潤飾功能,會自動去掉贅字(嗯、啊、那個)、修正語法、調整語氣。你只要自然地說,Sumi 會幫你整理成流暢的書面文字。不需要講得完美,說得出來就夠了。

Sumi 提供隱私模式,語音辨識和 AI 潤飾全部在你的裝置上完成,錄音和文字不會上傳到任何伺服器。適合有保密義務的專業人士使用。隱私模式還會在轉錄完成後自動刪除音檔。

支援。Sumi 的辨識引擎針對中英混雜場景做了專門優化,準確率遠超同類工具。無論是開會時中英夾雜、寫程式時混著說指令,還是日常中英切換,Sumi 都能準確辨識並輸出正確的文字。

不用。Sumi 會根據你的使用情境自動調整格式,在 Gmail 裡自動套用信件格式,在 Notion 裡轉成條列式,寫程式時保持程式碼格式。語氣、標點、分段都會自動處理,說完就是完稿。

可以。語音輸入是鍵盤打字的最佳替代方案。Sumi 讓你完全不需要鍵盤就能完成口述、編輯文字、會議記錄等工作。搭配語音編輯功能,連修改文字都不用動手,直接用說的就能改寫、翻譯、重新排版。

準備好用說的了嗎?

下載 Sumi,讓手腕休息一下。