
isper强调实时流式转写。它可以在说话人讲话时生成字幕、会议记录和工作流更新。相比起前两个模型,Whisper的商业门槛最低。它的价格仅为0.017美元/分钟。 三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口:GPT-Realtime-2处理语音Agent,GPT-Realtime
户;Cartesia也在2025年完成6400万美元A轮融资,Sonic模型据称已有1万多客户使用,并以90毫秒模型延迟、42种语言主打实时语音。 OpenAI有模型栈优势,但语音市场并不缺少强势玩家。
当前文章:http://zr2d66.affczl.com/hvm9/shy6.html
发布时间:00:57:39

