站长之家用户 - 传媒 2022-05-31 15:50

重磅升级!标贝语音识别3.0版上线,实现更强语音识别能力

语音识别技术,也被称为自动语音识别Automatic Speech Recogntion(ASR),是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲,语音识别就是机器的“耳朵”,在人与机器进行语音交流的时候,让机器听得懂人类在说什么的前提。

近几年,随着深度学习技术在语音识别的应用,使得语音识别的性能得到了显著提升,交互场景从生活扩展到企业应用,需求也从识别的速度、精度转移到一些更加复杂的问题,对语音交互技术提出了更高的要求。

近期,标贝科技语音识别技术3. 0 版发布升级。经过一年多的算法攻坚,标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级,不仅在准确率及识别速度方面有了明显提升,而且还实现了快速纠错和热词实时更新等功能,进一步满足了行业用户的需求,提升语音识别体验。

全新技术升级 语音识别更有效

●  语音转写识别率极大提升

标贝ASR3. 0 在conformer端到端模型结构的基础上创新改进,在建模单元上引入了音节信息,将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛,实现了在复杂环境下拥有更好的鲁棒性和识别效果。

无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音,都可以实现准确转写。在通用场景测试中,标贝ASR3. 0 准确率提升3%-5%,达到行业领先水平,识别速度提升将近 2 倍。

● 更灵活有效的解码方式

标贝ASR3. 0 在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式,通过word networks融合发音词典的方式构图,以此来达到语言模型快速优化、降低解码资源占用的目的。

不同于shallow fusion,标贝ASR3. 0 解码器在出词之前就加入语言模型的分数,进行解码路径的扩展,以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用token passing的方式,能够轻松满足产品上对识别结果的衍生需求,比如:时间戳、置信度等功能,为不同领域客户提供更细粒度的语音识别服务。

● 热词及自定义语言模型快速生效

标贝ASR3. 0 兼顾了热词快速生效和自定义语言模型无感知热更新的功能。对于不同的特殊场景需求,用户只需要上传热词或者更新一下对应的语言模型即可,以尽量低的成本,提供更加流畅的识别体验,不影响正常的运行使用。

更多能力加持 助力语音识别加速落地

据中商产业研究院统计, 2020 年中国智能语音市场规模达到113. 96 亿元,同比增长19.2%,预计 2022 年中国智能语音市场规模将增长至161. 91 亿元。其中,语音识别作为AI领域比较为成熟落地的技术之一,也将继续加速在各垂直行业的渗透和布局。

作为国内领先的智能语音交互与AI数据服务商,标贝科技深耕语音交互领域多年,在技术创新和数据服务双轮驱动下,为AI产业打造更准确、更有效的语音识别服务。

针对专业领域应用场景,标贝科技推出“ASR自学习工具”。用户在语音识别控制台上传专有领域或行业积累的文本数据,通过对这些训练语料做模型训练,来生成自己的自学习个性化模型和热词模型,有效提高专有领域场景下的语音识别准确率。

此外,为满足不同语种的客户群体需求,标贝科技语音识别今年在语种丰富度上持续发力。在支持常见中文、英文识别基础上,开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优,目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。

作为新一代智能语音识别引擎,标贝科技ASR3. 0 已经在官网及开放平台焕新上线,以优质的性能对外提供AI开放式服务,赋能更多对语音识别有需求的合作伙伴。标贝科技AI语音产品负责人表示:“标贝研发团队未来仍将继续打磨技术,让语音技术在复杂多变的环境里,也能实现自然、流畅的语音交互体验,为企业提供更加有效、低成本、可定制的解决方案。”

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业广告宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看