基于Deep voice2的端到端建模,将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景
基于Deep voice2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,近场中文普通话识别准确率达98%
支持普通话和略带口音的中文识别;支持英文识别
使用大规模数据集训练语言模型,对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!?
支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用,快速上手,简单易用
首包响应时间毫秒级,并实时展示中间文字结果,快速识别音频流
文字识别结果支持时间戳 识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发
语音输入准确高效,解放双手,说话内容实时展示在屏幕上,聊天顺畅
直播新玩法,主播说话可以直接将说话内容实时转写为字幕展示在屏幕上,或者可进行二次字幕编辑
大会演讲可以在屏幕上实时展示嘉宾演讲字幕,逐字展示并智能纠错
会议场景中,每个说话人的语音可以实时记录,提升会议记录效率
对老师课堂内容实时记录,校方可以进行教学内容记录以及教学质量评估
基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98%
支持WebSocket API方式、Android、iOS、Linux SDK方式调用,可以适用于多种操作系统、多设备终端均可使用
企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定
中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25%