乐晴智库 | 深度行业研究

【行业】中国智能语音：凝望璀璨星河（47页）

智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中，声音信息占20%，它是沟通最重要的纽带，人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后，用语音合成技术将文本语言转化为声波，从而形成完整的人机语音交互。

人的听觉形成过程是将声能转变为机械能、再转为生物电信号，在听觉中枢加工、分析的结果，而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程，本质是对声音特征和文本的分类任务（将字音分类对应为文字、将文字对应为潜在语义），如果需要机器感知声音的起止和音色等特征，还需要另外进行信号处理与特征分类任务。

随着智能语音算法基础性能不断提升，识别准确率、时延问题已不再是交互体验的核心痛点，人们希望让智能设备具备更多的基本能力，例如能够感知环境，当同一个房间里有多个智能交互设备或多台智能交互设备分布在不同的房间时能准确唤醒，过去通过设备间蓝牙通信可以解决由哪台设备被唤醒与人对话，但无法解决相关的家居控制执行问题。2019年，业内玩家开始重视将声学感知空间的能力与交互系统结合起来，实现多智能交互设备的就近唤醒应答，避免多设备重复响应和执行指令，在这种情形下并不存在某个中心交互设备，因此也被称为分布式场景。