設定指南
把 Aloud 跑起來
Aloud 自己不帶語音辨識,靠你的火山引擎帳號呼叫豆包流式 ASR。三步:開通服務拿憑證、給系統權限、(可選)設術語詞庫。第一步不做這工具完全不工作。
第一步 · 必做
開通火山豆包,拿 AppID / Access Token
- 登入 火山引擎控制台,搜尋「豆包語音」或進入「智能語音」。
- 建立一個應用(Application),開通 語音辨識大模型 服務。注意是「大模型 / 流式語音辨識 2.0」,不是舊的小模型版——Aloud 用的是 2.0,開錯了辨識會報 403。
- 在應用詳情頁拿到兩個值:AppID 和 Access Token。
- 打開 Aloud 選單列圖示 →
Voice Engine Settings…,在「豆包流式語音識別(必填)」分塊把這兩個值填進App ID和Access Token,按Save。 - 填完按一次 Fn 說句話試試。出字就成了。
報 403 / 未開通怎麼辦
錯誤訊息常寫「服務未開通」,但真實原因多半是開通的是小模型版而不是大模型流式 2.0。回控制台確認開通的服務是「語音辨識大模型」,等幾分鐘生效後再試。憑證本身錯只會鑑權失敗,不會報 403。
第二步 · 必做
系統權限
Aloud 未簽章,且要監聽 Fn 鍵、往別的應用注入文字、用麥克風錄音,三項權限缺一就不工作。
- 首次開啟:雙擊會被攔。右鍵點
Aloud.app→ 選「打開」→ 再「打開」一次;或去系統設定 → 隱私權與安全性,下面會有一行「仍要打開」。 - 麥克風:
系統設定 → 隱私權與安全性 → 麥克風,打開 Aloud。 - 輔助使用:
系統設定 → 隱私權與安全性 → 輔助使用,打開 Aloud。監聽 Fn 鍵和把文字注入當前輸入框都靠它,不給這個按 Fn 沒反應。
改完權限重啟一次 Aloud 最穩。
第三步 · 可選
術語詞庫
技術詞、人名、產品名容易被聽成同音字。術語詞庫在辨識前就把這些詞餵給豆包,比辨識後讓 LLM 猜更準,也沒那幾秒延遲。
Voice Engine Settings…→ 「術語詞庫」的「熱詞」框,每行一個詞,比如Kubernetes、Pydantic、冪等、你常念的人名專案名。- 上限約 100 條,超出的自動截掉。挑最容易被聽錯的高頻詞,不要堆。
- 純本機存,辨識時直傳豆包,不上傳到雲端詞表、不經第三方。
- 它和 LLM 糾錯是兩層:詞庫管辨識前(更準、無延遲),LLM 管辨識後兜底(改明顯口誤)。兩個都開效果最好,也可只用詞庫關掉 LLM。
還沒下載?回 Aloud 下載頁。出問題發 [email protected]。