micro_speech — 语音识别

micro_speech 用于语音识别

请参考 guide

构造函数

class micro_speech.MicroSpeech

创建一个语音识别类

audio_callback(buf_in)

通过 audio.streaming() 以音频采样来填充 MicroSpeech

MicroSpeech 将计算音频的傅里叶变化并使用一个内部的滑窗来处理最后的100ms,或从音频采样接收的数据。

listen(tf_model[, threshold=0.9[, timeout=1000[, filter=None]]])

执行 tf_model 来生成音频流

这个方法将持续执行,并以上面的 threshold 用对应的 filter 分类

例如 如果模型设计为对这4个标签 [‘Silence’, ‘Unknown’, ‘Yes’, ‘No’] 来进行分类识别。 一个 threshold 为0.7的参数以为着listen() 只返回上面的置信值超过0.7才会返回结果。filter 可用是 [2, 3] 意味着我们值关心 ‘Yes’ 或 ‘No’ 大于0.7的结果。

timeout 是运行音频数据模型的超时次数。如果设置为0 ,则识别会一直运行,直到返回一个大于阈值和滤波的结果

返回识别结果最高的标签的索引。例如上面例子的0, 1, 2, 或4 对应 [‘Silence’, ‘Unknown’, ‘Yes’, ‘No’]