推广 热搜： 金中国服务公司企业未来行业设备政策基金

百度AI 开放平台＞＞＞智能语音识别

日期：2024-12-06 作者：caijiyuan caijiyuan 评论：0 移动：http://lanlanwork.gawce.com/mobile/news/11913.html

核心提示：最近在做课程设计，想用一下语音识别，于是了解到百度AI 开放平台提供这一功能，且语音识别极速版 API一共可

最近在做课程设计，想用一下语音识别，于是了解到百度AI 开放平台提供这一功能，且语音识别极速版 API一共可以调用5w次，对我来说完全够用了。最重要的是，可以直接用的请求进行api 调用，实在是太方便了，那就选择百度吧！

百度AI 开放平台＞＞＞智能语音识别

在正式开始之前，大家需要先注册一个百度开发者账号。

下面我会介绍两种进行语音识别的方法，分别是调用百度api 和python SDK

Ⅰ 百度api

首先直接看语音识别极速版 API文档说明。

我们可提取以下关键信息点：

音频文件需要在60s 内；
音频格式支持：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）、m4a（压缩格式）；
采样率：16000 固定值。编码：16bit 位深的单声道；
api 调用流程：鉴权认证 -> 确认请求方式 -> 填写参数

（1）鉴权认证

① 获取Access Token

Access Token 是用户身份验证和授权的凭证，语音识别采用的是Client Credentials 授权方式，即采用应用公钥（Api Key）、密钥获取Access Token。

我们进入控制台，选择语音技术，然后在应用管理界面中新建一个应用：在这里插入图片描述我们这就获得了AppID, API Key, Secret Key

使用Client Credentials 获取Access Token 需要应用在其服务端发送请求（推荐用方法）到百度OAuth2.0授权服务的“ ” 地址上，并带上以下参数：

grant_type必须参数，固定为“client_credentials”client_id必须参数，应用的 API Keyclient_secret必须参数，应用的 Secret Key

例如：

响应数据包如下所示，其中 “access_token” 字段即为请求所需的令牌, 默认情况下，Access Token 有效期为一个月，开发者需要对 Access Token 的有效性进行判断，如果Access Token 过期可以重新获取。

例如： HTTP/1.1 200 OK Content-Type: application/json Cache-Control: no-store { “access_token”: “1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328”, “expires_in”: 86400, “refresh_token”: “2.385d55f8615fdfd9edb7c4b********.604800.1293440400-2346678-124328”, “scope”: “public audio_voice_assistant_get 。。。”, “session_key”: “ANXxSNjwQDugf8615OnqeikCdlLxn", “session_secret”: "248APxvxjCZ0VECaK4oZExMB”, }

如此，我们便获得了Access Token

（2）确认请求方式

① raw

有两种请求方式，json 方式和raw 方式，因为我使用的是方式，所以我就不展开讲解了

由于使用方式，采样率和文件格式需要填写在Content-Type 中：

（3）填写参数

格式POST 上传本地文件语音数据直接放在 HTTP BODY 中，控制参数以及相关统计信息通过和里参数传递

① Header 参数说明

字段名数据类型可需描述formatstring必填语音格式rateint必填采样率16k（固定值）

语音数据的采样率和压缩格式在 HTTP-HEADER 里的Content-Type 表明，例：

② url 参数说明

字段名可需描述cuid必填用户唯一标识（推荐填mac 地址，不过我填了我的英文名加数字）token必填Access Tokendev_pid选填默认80001lan选填不怎么使用

url 示例：

最后完整的raw 请求示例：

Ⅱ python SDK

（1）安装python SDK

如果已安装pip，执行

如果已安装setuptools，执行

（2）新建AipSpeech

AipSpeech是语音识别的Python SDK 客户端，为使用语音识别的开发人员提供了一系列的交互方法。

上述APP_ID、API_KEY、SECRET_KEY 的获取在创建应用后即可获得

（3）配置AipSpeech

若大家需要配置AipSpeech 的网络请求参数(一般不需要配置)，可以在构造AipSpeech 之后调用接口设置参数，目前只支持以下参数：

接口说明setConnectionTimeoutInMillis建立连接的超时时间（单位：毫秒）setSocketTimeoutInMillis通过打开的连接传输数据的超时时间（单位：毫秒）

（4）语音识别

参数类型描述是否必须speechBuffer建立包含语音内容的Buffer对象, 语音文件的格式，pcm 或者 wav 或者 amr。不区分大小写是formatString语音文件的格式，pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件是rateint采样率，16000，固定值是cuidString用户唯一标识，用来区分用户，填写机器 MAC 地址或 IMEI 码，长度为60以内否dev_pidInt不填写lan参数生效，都不填写，默认1537（普通话输入法模型），dev_pid参数见本节开头的表格否lan(已废弃)String历史兼容参数，请使用dev_pid。如果dev_pid填写，该参数会被覆盖。语种选择,输入法模型，默认中文（zh）。中文=zh、粤语=ct、英文=en，不区分大小写否

dev_pid 参数列表：

dev_pid语言模型是否有标点备注1536普通话(支持简单的英文识别)搜索模型无标点支持自定义词库1537普通话(纯中文识别)输入法模型有标点支持自定义词库1737英语无标点不支持自定义词库1637粤语有标点不支持自定义词库1837四川话有标点不支持自定义词库1936普通话远场远场模型有标点不支持

语音识别返回数据参数详情：

参数类型是否一定输出描述err_noint是错误码err_msgint是错误码描述snint是语音数据唯一标识，系统内部产生，用于 debugresultint是识别结果数组，提供1-5 个候选结果，string 类型为识别的字符串， utf-8 编码

（1）音频格式

音频格式一定要正确，符合要求，包括采样率、通道数、编码等

对于音频格式转换工具，推荐sox， sox安装及常用命令 SoX — 音频处理工具里的瑞士军刀

例如将一段格式音频转化为其要求的格式（16k 采样率、1 通道、16bit 编码）：

不过百度推荐的那个ffmpeg 应该也不错，我没有用，大家感兴趣可以尝试尝试

百度api

若识别成功：在这里插入图片描述另外，百度语音识别平台还支持自主训练模型噢~~

若出现请求错误的话，请查阅官方文档：错误码及常见原因

python SDK

在这里插入图片描述

本文地址：http://lanlanwork.gawce.com/news/11913.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 女星金子涵微博全部清空，疑似退圈	• 北京市连续第二年出台支持创新医药发展的专项政
• 延长手机电池寿命，手机电量剩多少时充电效果才	• miui秒解bl锁_小米最新秒解锁BL分析申请解锁小
• 9800x3D千元座驾，微星MAG B850M MORTAR W	• 手机快充充电时手机发热是怎么回事手机充电发热
• 手机辐射污染奔迈手机「手机辐射污染」	• 斗破苍穹：大美女花锦最后怎么样了？是死了还是
• 索尼手机频频削减机型 5G款被指落后主流厂商2年	• LCD党狂喜，史上最小5G手机来了：“小而美”的

百度AI 开放平台 ＞＞＞ 智能语音识别

Ⅰ 百度api

（1）鉴权认证

① 获取Access Token

（2）确认请求方式

① raw

（3）填写参数

① Header 参数说明

② url 参数说明

Ⅱ python SDK

（1）安装python SDK

（2）新建AipSpeech

（3）配置AipSpeech

（4）语音识别

（1）音频格式

百度api

python SDK

百度AI 开放平台＞＞＞智能语音识别