

有开发者基于DGX Spark打造了一款轻量化离线语音听写工具——spark-dictate,以解决传统在线语音工具隐私泄露、网速受限、高额收费等痛点。日常办公、文稿撰写、技术笔记整理时,语音转文字早已成为提升效率的刚需工具。而spark-dictate依托DGX Spark算力硬件搭建推理服务,搭配轻量化whisper.cpp引擎,打造出一套全平台离线语音听写方案,全程脱离公有云,凭借NVIDIA GPU硬件加速实现低延迟、高精准语音转写,完美适配Windows、macOS、Linux三大桌面系统,长按快捷键即可录音,松开自动转文字并存入剪贴板,上手零门槛。

spark-dictate采用客户端与服务端分离架构,将算力推理部署在DGX Spark高性能服务器端,本地设备仅负责收音与文本粘贴,既减轻办公电脑硬件压力,又能充分释放专业AI算力优势,兼顾运行速度与识别精度。所有语音音频仅在内网传输处理,不上传第三方云端平台,私密文稿、工作话术、会议内容均可安心转录,从源头保障数据隐私安全。
操作逻辑极简,macOS长按右侧Option键,Windows与Linux系统长按右侧Alt键即可开启录音,松手即刻停止采集,全程不打乱办公节奏。
本地自动完成16kHz单声道音频采集,支持音频增益调节与静音补全,适配各类普通麦克风、头戴式收音设备,嘈杂环境也能清晰收录人声。
依托DGX Spark搭载的CUDA算力,调用whisper.cpp轻量化语音大模型进行加速转录,相比普通CPU推理速度大幅提升,短语音近乎秒出结果,长文本也能高效完成识别。
语音识别完成后,文字内容自动复制至系统剪贴板,无需手动复制,直接粘贴到文档、代码编辑器、聊天界面等任意场景,即用即走。
客户端仅需基础Python环境即可运行,无臃肿插件与多余捆绑组件;服务端依托DGX Spark一键启动推理服务,内网设备均可接入使用,适配团队多人协同办公。
服务端:搭载CUDA环境的DGX Spark算力设备,部署whisper.cpp语音推理程序
客户端:主流桌面系统+Python3.10以上版本+正常可用麦克风
该工具实用性极强,职场人群可用于会议纪要速记、工作文案口述撰写;技术从业者可快速录入代码注释、技术思路;自由职业者、创作者可随手记录灵感文稿,搭配DGX Spark强劲算力,彻底摆脱在线语音工具网速限制、隐私泄露、收费限流等诸多痛点。
作为开源免费的离线语音听写项目,spark-dictate依托DGX Spark专业AI硬件赋能,把高性能语音识别下沉到本地内网场景,兼顾高效、便捷、安全三大核心需求,是桌面端离线语音转文字的优质开源解决方案。
开源项目地址:https://github.com/openmarmot/spark-dictate