极限元 开发者平台介绍

一 概述

极限元语音云开放平台是极限元(北京)智能科技股份有限公司旗下的面向互联网开发者的智能语音交互平台,

为开发者免费开放语音合成、语音识别等服务,通过极限元语音云开放平台,用户可以随时随地获得高质量的语音服务。

二 主要功能

2.1 语音合成

   极限元语音合成系统采用先进的语音合成引擎,合成语音已经接近真人的自然效果。主要功能有:

   1 高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;

   2 多语种服务,整合了多语种语音合成引擎,可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语
   音合成服务;

   3 高精度文本分析技术,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律
   短语等智能分析和处理;

   4 多种数据输出格式,支持输出多种采用率的线性Wav,A/U率wav和vox等格式的语音数据;

   5 语音调整功能,开发接口提供了音量、语速、音高(基频)等多种合成参数动态调整功能;

2.2 语音识别

   极限元语音识别系统,把语音转换成文字,自助语音服务可以根据结果匹配关键字从而控制智能设备。主
   要包括以下功能特性:

   2.2.1 前端语音处理

     前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识       别引擎处理的语音。主要功能包括:

     1 端点检测

     端点检测是对输入的音频流进行分析,可以做到边说话边识别,提高用户体验。

     2 噪音消除

     在实际环境中,噪声无处不在,极限元语音识别系统具备高效的噪音消除能力,从而提高识别
     率。

   2.2.2 后端识别处理

     后端识别处理对语音进行识别,得到最适合的结果,主要特性有:

     1 大词汇量、独立于说话人的健壮识别功能

     2 置信度输出

     置信度反映了识别结果的可信程度。应用程序可以通过置信度的值进行分析和后续处理。

     3 多识别结果

     又称多候选技术,识别引擎向应用程序返回满足条件的多个识别结果,供用户选择。用户通过置信度判
     决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

     4 说话人自适应

     当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数,
     使识别效果得到持续优化。

三 开放接口

  1 提供简单易用的REST API。

  2 为各平台提供相应的SDK,使应用开发更加方便。

Copyright © 2016 极限元 ALL Rights Reserved 京ICP备16041582号