业界动态
百度AI 开放平台 >>> 智能语音识别
2024-12-06 16:21

最近在做课程设计,想用一下语音识别,于是了解到百度AI 开放平台提供这一功能,且语音识别极速版 API一共可以调用5w次,对我来说完全够用了。最重要的是,可以直接用 的 请求进行api 调用,实在是太方便了,那就选择百度吧

百度AI 开放平台 >>> 智能语音识别

在正式开始之前,大家需要先注册一个百度开发者账号。

下面我会介绍两种进行语音识别的方法,分别是调用百度apipython SDK

Ⅰ 百度api

首先直接看语音识别极速版 API文档说明。

我们可提取以下关键信息点

  1. 音频文件需要在60s 内
  2. 音频格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式
  3. 采样率 16000 固定值。 编码16bit 位深的单声道
  4. api 调用流程鉴权认证 -> 确认请求方式 -> 填写参数
(1)鉴权认证
① 获取Access Token

Access Token 是用户身份验证和授权的凭证,语音识别采用的是Client Credentials 授权方式,即采用应用公钥Api Key)、密钥获取Access Token

我们进入控制台,选择语音技术,然后在应用管理界面中新建一个应用在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 我们这就获得了AppID, API Key, Secret Key

使用Client Credentials 获取Access Token 需要应用在其服务端发送请求(推荐用 方法)到百度OAuth2.0授权服务的“ ” 地址上,并带上以下参数

grant_type必须参数,固定为“client_credentials”client_id必须参数,应用的 API Keyclient_secret必须参数,应用的 Secret Key

例如

响应数据包如下所示,其中 “access_token” 字段即为请求 所需的令牌, 默认情况下Access Token 有效期为一个月,开发者需要对 Access Token 的有效性进行判断,如果Access Token 过期可以重新获取。

例如: HTTP/1.1 200 OK Content-Type: application/json Cache-Control: no-store { “access_token”: “1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328”, “expires_in”: 86400, “refresh_token”: “2.385d55f8615fdfd9edb7c4b********.604800.1293440400-2346678-124328”, “scope”: “public audio_voice_assistant_get 。。。”, “session_key”: “ANXxSNjwQDugf8615OnqeikCdlLxn", “session_secret”: "248APxvxjCZ0VECaK4oZExMB”, }

如此,我们便获得了Access Token

(2)确认请求方式
① raw

有两种请求方式json 方式和raw 方式,因为我使用的是 方式,所以 我就不展开讲解了

由于使用 方式, 采样率和文件格式需要填写在Content-Type

 
(3)填写参数

格式POST 上传本地文件 语音数据直接放在 HTTP BODY,控制参数以及相关统计信息通过 和 里参数传递

① Header 参数说明
字段名数据类型可需描述formatstring必填语音格式rateint必填采样率16k(固定值

语音数据的采样率和压缩格式在 HTTP-HEADER 里的Content-Type 表明,例

 
② url 参数说明
字段名可需描述cuid必填用户唯一标识(推荐填mac 地址,不过我填了我的英文名加数字)token必填Access Tokendev_pid选填默认80001lan选填不怎么使用

url 示例

 

最后完整的raw 请求示例

 

Ⅱ python SDK

(1)安装python SDK

如果已安装pip,执行

 

如果已安装setuptools,执行

 
(2)新建AipSpeech

AipSpeech是语音识别的Python SDK 客户端,为使用语音识别的开发人员提供了一系列的交互方法。

 

上述APP_IDAPI_KEYSECRET_KEY 的获取在创建应用后即可获得

(3)配置AipSpeech

若大家需要配置AipSpeech 的网络请求参数(一般不需要配置),可以在构造AipSpeech 之后调用接口设置参数,目前只支持以下参数

接口说明setConnectionTimeoutInMillis建立连接的超时时间(单位:毫秒)setSocketTimeoutInMillis通过打开的连接传输数据的超时时间(单位:毫秒
(4)语音识别
 
参数类型描述是否必须speechBuffer建立包含语音内容的Buffer对象, 语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写是formatString语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件是rateint采样率,16000,固定值是cuidString用户唯一标识,用来区分用户,填写机器 MAC 地址或 IMEI 码,长度为60以内否dev_pidInt不填写lan参数生效,都不填写,默认1537(普通话 输入法模型,dev_pid参数见本节开头的表格否lan(已废弃)String历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写否

dev_pid 参数列表

dev_pid语言模型是否有标点备注1536普通话(支持简单的英文识别)搜索模型无标点支持自定义词库1537普通话(纯中文识别)输入法模型有标点支持自定义词库1737英语无标点不支持自定义词库1637粤语有标点不支持自定义词库1837四川话有标点不支持自定义词库1936普通话远场远场模型有标点不支持

语音识别返回数据参数详情

参数类型是否一定输出描述err_noint是错误码err_msgint是错误码描述snint是语音数据唯一标识,系统内部产生,用于 debugresultint是识别结果数组,提供1-5 个候选结果,string 类型为识别的字符串, utf-8 编码

(1)音频格式

音频格式一定要正确,符合要求,包括采样率、通道数、编码等

对于音频格式转换工具,推荐sox, sox安装及常用命令 SoX — 音频处理工具里的瑞士军刀

例如将一段 格式音频转化为其要求的格式(16k 采样率、1 通道、16bit 编码

 

不过百度推荐的那个ffmpeg 应该也不错,我没有用,大家感兴趣可以尝试尝试

百度api

若识别成功在这里插入图片描述 另外,百度语音识别平台还支持自主训练模型噢~~

若出现请求错误的话,请查阅官方文档: 错误码及常见原因

python SDK

在这里插入图片描述

    以上就是本篇文章【百度AI 开放平台 >>> 智能语音识别】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/11913.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多   
最新新闻
女星金子涵微博全部清空,疑似退圈
4月3日,有网友发现女艺人金子涵微博已全部清空,疑似退圈。公开资料显示,金子涵是乐华娱乐旗下艺人,2020年参加爱奇艺女团选秀
北京市连续第二年出台支持创新医药发展的专项政策!
北京市连续第二年出台支持创新医药发展的专项政策。4月7日,北京市医保局等九部门发布《北京市支持创新医药高质量发展若干措施(
延长手机电池寿命,手机电量剩多少时充电效果才是最好呢?手机电量多少时充电最好「延长手机电池寿命,手机电量剩多少时充电效果才是最好呢?」
    平时我们充电大家都是觉得充的越满越好,其实这是大家存在的一个很大的错误。    有研究表明:如果一个手机夜晚一直
miui秒解bl锁_小米最新秒解锁BL分析申请解锁小米手机「miui秒解bl锁_小米最新秒解锁BL分析」
这周我解了两台K30S的BL锁,来谈谈秒解技巧 全凭本人想象以及猜测,不含官方说法 官方解锁申请地址 http://www.miui
9800x3D千元座驾,微星MAG B850M MORTAR WIFI 迫击炮主板测试
AMD锐龙9000系列上市以来,热度一直相当高,这还得感谢英特尔酷睿Ultra 200S系列U的给力性能,玩游戏选AMD就对了,搭配主板的话
手机快充充电时手机发热是怎么回事手机充电发热正常吗「手机快充充电时手机发热是怎么回事」
手机快充充电时手机发热的原因可能是快速充电技术、散热不良、高温环境、电池老化等。详细介绍:1、快速充电技术,快充技术通过
手机辐射污染奔迈手机「手机辐射污染」
1、手机辐射污染09应化60号赵成录 a.手机辐射基本概况b.一些手机的辐射值c.手机辐射的危害d.防范措施基本概况 手机通过电磁波进
斗破苍穹:大美女花锦最后怎么样了?是死了还是活到大结局了?
  斗破苍穹动漫年番新预告已经出来了,很多人应该都发现了,那就是新预告一出,登场了一个新的美女。这个美女还是一个御姐,还
索尼手机频频削减机型 5G款被指落后主流厂商2年索尼新手机「索尼手机频频削减机型 5G款被指落后主流厂商2年」
■本报记者 贾 丽索尼曾经是手机市场的霸主,不过近几年索尼品牌手机已逐渐淡出人们的视野。目前,索尼众多业务的业绩出现下滑,
LCD党狂喜,史上最小5G手机来了:“小而美”的品牌也能活?小众手机「LCD党狂喜,史上最小5G手机来了:“小而美”的品牌也能活?」
今年的手机市场可以说是彻底和小屏杠上了,vivo、小米、OPPO等主流品牌纷纷推出了小屏旗舰手机,这些手机无论是性能还是影像,表