大家好,我是 mylxsw。过去一个月,我全职做了一款 macOS 语音输入法 Typeflux,现在正式开源发布。
它的定位很简单:最接近 Typeless 的免费替代品。完全开源,核心功能永久免费,支持 100% 本地离线运行。
为什么做这个项目
年初第一次用到 Typeless,我被它的效果震惊了 —— 磕磕巴巴的口语化表达,能被转换成结构清晰的专业文字,"像是给大脑装了个翻译器"。
但看到价格我沉默了:年订阅每月 $12,月订阅 $30。好用,但真的下不去手。
当时我就想:能不能做一个自己的版本?于是花了一个下午让 AI 搭了个原型,居然跑起来了。但因为手头还有别的项目,就搁置了。
直到今年 3 月底,X(Twitter)上突然涌现大量语音输入法的讨论。那个时间点让我重新把它捡了起来。
我原以为一两天就能跑通。结果发现,做一个 "能用的原型" 和做一个 "可以给别人用的产品" 之间,差的是一个月的废寝忘食。
今天,它终于 ready 了。
核心功能
基础语音输入
按住快捷键 → 说话 → 松手,文字直接出现在当前 App 的光标位置。写邮件、发微信、填表格、写代码注释…… 任何 App 均可直接使用,无窗口切换,无弹窗干扰。
语音指令改写(我最常用的功能)
选中文字后,按住快捷键说出指令,LLM 直接在原地改写:
- "精简到三句话"
- "翻译成英文"
- "语气正式一点"
- "改成 Markdown 列表"
无需复制粘贴,文字在原地完成变换。这是我每天使用最多的功能,也是真正改变工作流的地方。
多模型支持
语音识别(STT)支持:
- Apple Speech(系统内置)
- Whisper API / Groq
- 本地模型:SenseVoice Small、WhisperKit Medium/Large、Qwen3-ASR
- 国内云服务:阿里云实时 ASR / Qwen ASR、豆包实时 ASR
- Google Cloud Speech
- 多模态 LLM、Typeflux Cloud
大语言模型支持:
- OpenAI 兼容接口(15+ 提供商:OpenAI、Anthropic、Gemini、DeepSeek、Kimi、Qwen、Zhipu、MiniMax、xAI、Groq 等)
- Ollama 本地模型
Persona 系统
为不同场景配置不同的指令集和写作风格。写正式邮件时自动切换商务语气,写代码注释时切换技术表达,日常闲聊时切换轻松口吻。一个快捷键切换整个处理 Pipeline。
这个设计的灵感来自智谱语音输入法(AutoGLM)的 "人设" 功能。他们是先把这个想法做成成熟产品的人,我在这里记一笔致敬 🙏
隐私与开源
Typeflux 可 100% 离线运行:
- 本地语音:SenseVoice Small / WhisperKit / Qwen3-ASR
- 本地大模型:Ollama 支持的任意模型
- 不需要 API Key,数据不出你的 Mac
核心功能永久开源,自托管永久免费。同时上线了 Typeflux Cloud 云端服务(目前免费公测),为不想折腾的朋友提供开箱即用的语音和大模型服务。
技术实现中踩过的坑
说实话,做 Typeflux 最难的不是语音识别,而是 macOS 文本注入的兼容性。
macOS 的 AXTextInsert 能往当前输入框写文字,但很多 App 用了自定义的 NSTextView 子类,只实现了部分协议 —— 注入 "成功" 了,字没出现。
我的解决办法:注入后回读字段内容验证,没变化就切剪贴板兜底。这种 edge case 处理了一大堆,用户用的时候却完全感受不到。
做产品就是这样,invisible 的工作最多。
未来想做什么
我现在是全职独立开发者,Typeflux 是我目前唯一在全力做的事。
当前版本是个语音输入法,但长期目标是成为 桌面端语音 Agent—— 不只是输入,还能基于桌面内容问答、通过语音指令控制电脑完成工作。Agent 模式目前在 Beta,还很粗糙,但这就是我想去的方向。
项目信息
- GitHub: https://github.com/mylxsw/typeflux
- 官网: https://typeflux.app
- 系统要求: macOS(菜单栏应用)
- 许可证: 开源(具体协议见仓库)
如果你试了有什么想法 —— 某个 App 不兼容、功能建议、甚至 "这玩意我用不上"—— 请直接在 GitHub 提 Issue 告诉我。现在的阶段,每一条反馈都在决定产品走向。
也欢迎转发给身边用 Mac 的朋友,独立开发者的产品传播全靠口碑 🙏