DB35∕T 1979-2021 智慧家庭人工智能语音服务通用技术规范(福建省).pdf

资源描述

1、ICS35.240.01CCSL77.935福建省地方标准DB35/T1979一2021智慧家庭人工智能语音服务通用技术规范Ge n e r a lt e c h n i c a ls p e c i f i c a t i o nf o ra r t i f i c i a li n t e l l i g e n c ev o i c es e r v i c eo fs m a r th o m e2021一06一21发布2021一09一21实施福建省市场监督管理局发布.9口口口口口口口口口口口口口口口口DB35/T1979一2021目次前言.H1范围.12规范性引用文件.13术语和定义

2、.14缩略语.25语音服务的组成及能力等级划分.36环境要求.37基本要求.48测试方法.10附录A（规范性）语音测试集录音质量要求.巧附录B（规范性）测试用设备要求.16DB35/T1979一2021士一口一Rl J本文件按照GB/T1.1一2020标准化工作导则第1部分：标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由福建省工业和信息化厅提出并归口。本文件起草单位：中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移（杭州）信息技术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网

3、络通信有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、新大陆通信科技股份有限公司、福建福日电子股份有限公司。本文件主要起草人：章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。DB35/T1979一2021智慧家庭人工智语音服务通用技术规范范围本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试方法。本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注

4、日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB3096一2008声环境质量标准GB/T21023一2007中文语音识别系统通用技术规范GB/T21024一2007中文语音合成系统通用技术规范GB/T22239一2019信息安全技术网络安全等级保护基本要求GB/T36464.1一2020信息技术智能语音交互系统第1部分：通用规范GB/T36464.2一2018信息技术智能语音交互系统第2部分：智能家居3术语和定义GB/T21023一20C了、GB/T21024一2007、GB/T36464.1一2020、GB/T36464.2

5、一2018界定的以及下列术语和定义适用于瓜文件。3,1语音服务v o1c es e r y1c 6人机之间通过自然语言对话来获取信J自、的服务3,2语音采集v o1c ea c q日151t1o n通过传声器或麦克风阵列等拾音设备对语音进行采华。3,3语音识别s p e e c hr e c o g n1t1o n将人类的声音信号转化为文字或指令的过程。来源：GB/T21023一2007,3.13,4语义理解s e m a n t1cu n d e r s t a n d1n g使功能单元理解人说话的意图。来源：GB/T36464.1一2020,3.11DB35/T1979一20213.5语音

6、合成s p e e c hs y n t h e s15通过机械的、电子的方法合成人类语言的过程。来源：GB/T21024一2007,3.13.6端点检测v o1c ea c t1v1t yd e t e c t1o n一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。来源：GB/T36464.1一2020,3.223.7智能语音终端a r t1f i。1a11n t e111g e n c ev o i。et e r m i n a l可接收用户的语音，使得用户可以获取在线音视频等内容，或可通过语音进行控制的设备。3.8噪声n o156语音采集过程中，采集到的由非有效语音信

7、源发出的，能干扰、影响对有效语音信号的理解或处理的声音信号。来源：GB/T36464.1一2020,3.273.9等效声级e q u1v a1e n tc o n t1n u o u SA一w e1g h t e d50日n dp r e s s u r e1e v e l在声场中的某个位置上，用某一段时间内能量平均的方法，将间歇暴露的几个不同噪声，用这样一个声级来表示该段时间的噪声大小。3.10平均意见得分m e a no p1n1o nSc。r e语音质量的一种主观度量。来源：GB/T36464.2一2018,3.263.11语音唤醒s p e e c i.,4a。u p:v o1c et

8、 r1g g e r处于音频流监听状态的语音交互系统，在检测到特定的特征或事件出现后，切换到命令词识别、连续语音识别等其他处理状态的过程。来源：GB/T36464.2一2018,3.133.12媒资m e d1aa SSe t s媒体单位生产的文字、图片、音视频等数据。3.13媒资库m e d1ap o o l存储媒资的数据库。4缩略语下列缩略语适用于本文件。PCM：脉冲编码调制（Pu lSeCo d eMo d u l a t i o n)MOS：平均意见得分（Me a nOpi n i o nSCo r e)DB35/T1979一20215语音服务的组成及能力等级划分5.1语音服务的组成由

9、语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。5.2语音服务能力等级划分语音服务能力根据成熟度划分为五个等级，见表1。表1语音服务能力等级语音服务能力等级定义语音技能语义深度理解与初能互动主体语音采集与识别语义理解语音合成与播放上下文及多场景语义理解与智能终端智能翻译控制多级互动语义理解与语音互动语音深度识别与自然合成语音识别与机器合成语音采集与播放端点检测语义理解白然合成（多语种、多发音人）应用唤醒、栏日唤起、内容搜索语音识别机器合成语音采集语音播放智能语音终端主要在家庭环境下仲用，在表2所示自然环境条件下应正常工作。畏2自然环境要求才匕对，显度,00f o一900f o

10、无凝结_一匕大气压力KPa86?1066.2网络环境智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网，网给挂入速度应不低于128k b i t/s。63噪声环境智能语音终端主要在家庭环境下使用，家庭噪声环境具体要求按照GB3096一2008第4章中O、1、2类声环境功能区的规定执行。DB35/T1979一20217基本要求7.1语音采集与识别7.1.1语音采集人工智能语音服务使用智能语音终端进行语音采集，应能通过传声器或麦克风阵列等具备语音采集能力的拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求：a）支持8k HZ或16k HZ采样率，16b i t及以

11、上的采样精度；b）音频文件编码支持PCM或Op u S或Sp e e x格式；C）对于连续性音频，支持305或605为时间单位进行切片分割。注：Op u s是有损音频的一种编码格式；Sp e e x是一套针对语音音频的压缩格式。7.1.2端点检测人工智能语音服务在进行语音采集时，应对采集的音频进行端点检测，以区分用户说话的自然停顿和主观停止。7.1.3语音识别应满足以下要求：a）支持家庭场景下关键词语音识别能力，如影视、音乐、医疗、教育等；b）支持简单中英文混合识别；C）支持数字、电话号码；d）支持普通话、带有福建口音的普通话；e）宜支持福建省内主流方言，如闽南语、客家语；f）语音识别句识别率

12、应满足表3要求。表3语音识别句识别率要求声环境功能区类别环境噪声等效声级d B(A)昼回30，夜间40亘！司55，夜！日巧昼间60，夜：司50句识别率%妻90妻85妻80类类类n钊119自句识别率计算方法按公式（1）。一100一” ”一” Xr1SS一一YPs一一句识别率，单位为百分数（0f o);一一智能语音终端语音交互系统正确识别的句数；一一标注总句数。中式Psl孤此DB35/T1979一20217,2语义理解应满足以下要求：a）支持简称、别名、代码、数字的理解；b）具有用户表达存在错字、缺字、模糊时的容错理解能力；c）支持多轮、全双工对话的人机交互方式；d）语义理解正确率应满足表4要求

13、。表4语义理解等级表语义理解等级场民翔与氏语义理解止确率O类1类影视，电视直播，节日回看音乐，医疗，购物，教育)90妻85语义理解正确率计算方法按公式（2）。、l了9自Z才、气.RSS丛xIO00h式中：只、一一语义理解正确率，单位为百分数（0 / 0 );瓜、一一操作意图及语义要素均被正确判断的次数；N一一用户输入被正确识别出文本信息的总次数。7,3语音播放与合成7.3.1语音播放具备声音外放功沙钧智能语音终端，昼间播放的语音提醒以及其它音频，外放声音应不低于60d B。7.3.2语音合成应满足以下要求：a）支持在线或离线方式合成近似人类r一i语音，b）支持普通话和英语，宜支持福建省囚主流

14、方一言，如闽南语、客家语；C）支持中英文数字等各种混合音，宜支持多音色仁成和个性化合成；d)MOS应大于或等于4,MOS量化分值见表5。表5MOS量化分值分值主观测听效果非常接近播音员真人发声，达到以假乱真的程度，总体听感很好，犷拿晰、流畅。发音清晰、可懂，总体听感好、流畅，听测人愿意接受（半小时左右不觉疲劳），没有明显韵律错误。基本可以听懂，但在语气节奏处理上问题较多，音节之间拼接不流畅感较重，听测人不太愿意接受，有明显的疲劳感。语音吐字不清晰，字词之间有较为严重的顿挫感，体验性不好，但不影响正常理解。5DB35/T1979一2021表5MOS量化分值（续）分值主观测听效果发音不清晰，机器音

15、质，听不懂，只能表达断续、个别的语音信息，猜测语意都很困难，不能接受。注：参考GB/T36464.1一2020中A.8.3的表A.1，结合家庭环境要求，对主观测听效果作更详细描述。7,4语音唤醒7.4.1夜间唤醒具备语音唤醒功能声环境功能区类别O类的智能语音终端在夜间的唤醒率应满足表6要求。表6夜间不同噪声环境下的唤醒率要求夜间环境噪声等效声级发声大小d B(A)d B554O妻5560唤醒率要求1类45)60652类5O妻65不作要求3m优于95%不作要求l m优于95%3m优于90%s m优于85%不作要求3m优于85%夜间唤醒率计算方法扭公式（3）。飞、JZOOZ妞火.R一粉X,00%

16、一一夜间唤醒率，单位为百分数（夕：一一成功唤醒次数；一一语音唤醒操作次数。中式瓜孤瓜7.4.2昼间唤醒具备语音唤醒功能声环境功能区类别的智能语音终端在昼间的唤醒率应满足表7要求。表7昼间不同噪声环境下的唤醒率要求昼间环境噪声等效声级发声大小d B(A)d B655O妻65唤醒率要求O类不作要求3m优于90%DB35/T1979一2021声环境功能区类别表7昼间不同噪声环境下的唤醒率要求（续）昼间环境噪声等效声级发声大小d B(A)d B70唤醒率要求1类55妻70752类6O)75不作要求l m优于90%3m优于85%s m优于80%不作要求3m优于80%昼间唤醒率计算方法按公式（4）。、l了

17、月仕Z才、气.Rd W一粉X,00%式中：角，一一昼间唤醒率，单位为百分数（0 / 0);戊，一一成功唤醒次数；瓜一一语音唤醒操作次数。7.4.3误唤醒次数具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。表8误唤醒次数要求环境噪音（S )d R、A)之定4545S。5556512h内误唤醒次数0次不作要求低于2次不作要求-?_习巨7,5语音技能7.5.1通用技能7.5响应时间因调用网络资源的不同，音频端点检测方式的不同，语音技能的响应时间也会有所不同，但最长响应时间应小于或等于25。响应时间计算方法按公式（5）。Ta Ck亡r一亡。（5)式中：几c、一一响应时间，单位为秒（S);

18、DB35/T1979一2021t l一一给出结果时刻；t e一一语音输入结束的时刻。注1：如语音交互系统支持识别结果分多次返回，t e为第一部分识别结果返回的时刻。注2：如智能语音终端具备语音唤醒功能，乙为终端返回指定内容、反馈的时刻。注3：如智能语音终端具备显示屏幕，乙为终端以屏幕显示或音频播放方式返回指定内容、反馈的时刻。7.5.1.2交互反馈应满足以下要求：a）支持查询类技能通过语音播报加信息展示的形式向用户反馈；b）支持媒资检索类技能通过语音播报加搜索结果展示的形式向用户反馈；C）支持技能处理遇到异常情况时通过语音或者文本展示的形式向用户反馈。7.5.1.3反馈语设计宜满足以下要求：a

19、）准确：实事求是，清楚明了传达信息，避免歧义；b）简洁：用最少的话传达最重要的信息；C）自然：口语化不生硬，容易理解，有停顿，符合正常说话节奏；d）明晰：明确、具体完成任务，并传达理解程度；e）亲和：遇到出错情况，主动推荐并引导用户。7.5.2应用唤起7.5.2.1单说指令唤起应支持按应用名称唤起应用。7.5.2.2指定句式唤起应支持按固定的句式进行应几的唤起，句式为：前缀词应用名称后缀词。前缀词至少包括：打开、启劝、开启、我要玩、我想玩、我要用。后缀词至少包括：应用、软件。7.5.2.3关联语义唤起宜支持根据语音指令的语义理解，抽取出用户的怠图所，离心J语义范围，然后根据该语义范围将相匹配

20、的应用唤起。7.6涉屏语音服务技7.6.1媒资管理应支持媒资的栏目管理、a）影视媒资信息包括：等信息；b）音乐媒资信息包括：C）游戏媒资信息包括：索引建立、审核、发布功能。媒资信息应满足以下要求：名称、主演、上映时间、类型，宜包括季集、导演、简介、评分、热度名称、歌手、音乐来源、类型，宜包括地区、简介、评分、热度等信息；名称、类型，宜包括简介、评分、上架时间、热度等信息；DB35/T1979一2021d）应用媒资信息包括：名称、类型，宜包括简介、评分、上架时间、热度等信息。7.6.2媒资检索7.6.2.1标签检索应满足以下要求：a）支持根据媒资库中的1个标签进行检索；b）支持根据媒资库中的任意

21、2个或2个以上标签进行检索。7.6.2.2容错处理当用户所说的检索条件出现多音字、同义字、多字少字情况时，应能够正确处理并搜索出对应的结7.6.2.3关联推荐宜支持基于内容及用户喜好的关联推荐检索。关联推荐计算维度应包括物品关联度以及权重，其中影视媒资关联维度宜包括类型、导演、演员信息。7.6.3页面操控7.6.3.1页面基础操控应满足以下要求：a）支持通过语音控制，实现返回上级页面和退出当前应用等基本操作；b）支持通过语音唤起当前页面上所列栏目。7.6.3.2搜索页操控搜索页应支持诏子l启翻页及选择指令，具体指令见表9。表9搜索页操控指令指令名称跳到下一页跳到上一页跳到指定页选择寸艺令英之摘

22、户、只NEXfPREVINDEXSELECT指令参数一一j、：以入页号（整数值型，户万i n d e x:第X行整数值型，笨X个（整数值型，负数表示倒数）负数表示倒数）负数表示倒数）7.6.3.3播放页面操控播放页面应支持语音的播控操作指令，播控操作相关指令见表10。DB35/T1979一2021表10播放操控指令指令名称播放暂停继续播放重头播放跳到指定位置快进指定时间后退指定时间指令参数p o s i t i o n位置（整数值型，单位：秒）o f f s e t偏移（整数值型，单位：秒）o f f s e t偏移（整数值型，单位：秒）7.6.4涉屏终端控制应支持对带屏类智能语音终端设备的

23、基础控制指令，如音量控制、打开设置页面、关机。7.7服务安全7.7.1基础服务安全按照GB/T22239一2019中8.1.2规定的执行。7.7.2隐私保护7.7.2.1麦克风隐私保护具有语音唤醒功能的智能语音终端应具备关闭麦克风的功能，用户可通过手工关闭麦克风。宜支持一键禁麦。7.7.2.2摄像头隐私保二户具有摄像头的智能语音终端万具备关闭摄像头的功能，用户可通过手工关闭摄像头。宜具备物理遮挡开关。8测试方法8.1测试准备8.1.1测试语料8.1.1.1文本测试集应满足以下要求：a）覆盖影视、音乐、医疗、教育等领域；b）包含智能语音终端的唤醒词、操控指令、多音字、频道别名等常用性语句。8.

24、1.1.2语音测试集应满足以下要求：1ODB35/T1979一2021a）至少由50名发音人进行录制；b）由不同年龄段发音人参与录制，其中男女比例为1:1，年龄段在9一12岁、20一50岁、60一75岁的人员比例为1:4:1;c）测试文本满足8.1.1.1的要求；d）发音人以普通话或带有福建口音的普通话录制；e）宜包含福建省内主流方言，如闽南语、客家语；f）语音测试集录音质量要求应符合附录A的规定。8.1.2测试用设备应符合附录B的规定。8.2测试环境8.2.1被测语音交互系统部署被测语音交互系统，测试用回放设备通过对话方式对其进行控制和交互。8.2.2被测系统网络环境应满足6.2的要求，保持

25、稳定的连通状态。8.2.3远近场拾音距离近场拾音距离为l m，远场拾音距离为3m。8.2.4测试场景可采用真实的家庭场景的环境噪声或模拟家庭场景的环境噪声，分为低噪声环境和高噪声环境，要求噪音保持稳定且不包含命令词相关的声音，具体要求见表11。表11测试场景要求环境噪音场景一下测试语音声压级（S环境噪音声压级（V )d B(A)夜间2类S)65V蒸50昼间2类S)75V蒸60误唤醒测试场景60S 蒸7560V毛758.3测试方法8.3.1语音采集测试使用测试用回放设备播放任意语音测试集，使用被测设备进行录音，由被测设备提供录音音频记录数据，查看数据的编码格式和采样率。通过上述测试方法验证是否满

26、足7.1.1的要求。DB35/T1979一20218.3.2端点检测测试使用测试用回放设备连续播放语音测试集，被测设备可以远场进行语句端点检测，并正确理解用户意图，进行多个指令操作。通过上述测试方法验证是否满足7.1.2的要求。8.3.3语音识别测试使用测试用回放设备播放语音测试集，被测设备进行录音，记录各场景下被测系统的识别结果，与预期结果进行比对，计算出句识别率。通过上述测试方法验证是否满足7.1.3的要求。8.3.4语义理解测试采用机器和人工的方式输入文本测试集，统计系统反馈的文本信息，统计正确次数，计算出语义理解正确率。通过上述测试方法验证是否满足7.2的要求。8.3.5语音播放测试在

27、昼间2类噪声环境中触发被测设备语音播放场景，使用声压计在距离设备0.l m范围内测试声音分贝值，记录分贝数据。通过上述测试方法验证是否满足7.3.1的要求。8.3.6语音合成测试选取10个体验人员，男女各5人，年龄在20一50岁之间，通过对被测设备人为的唤醒或识别命令反馈，测听合成语音与真人语音在音质、可懂度和自然度方面的差异，并按表5给出MOS量化分值，记录平均结果。通过上述测试方法骑下是否满足7.3.2要求。8.3.78.3.7语音唤醒测试唤醒率测试按8.2.4的测试场景要求，将被测设备调至待命抓志：，使用测试用回放设备在远场距离播放唤醒语音测试集不少于50条，统计出正确响应次数，计算出唆

28、醒正声斑。测试唤醒率时，应确保环境噪音声压比被测设备声压1氏1与d B，确厚测试用播放设备正对被测设备，从前后左右四个方位播放唤醒词各50次。通过上述测试方法验证是否满足7.4.1、7.4.2的要求。8.3.7.2误唤醒测试按8.2.4误唤醒测试场景要求，将测试用回放设备连续播放12h，统计被测设备给出的响应次数。通过上述测试方法验证是否满足7.4.3的要求。8.3.8语音技测试8.3.8响应时间测试DB35/T1979一2021按8.3.3语音识别测试方法，从拾音设备拾音结束到语音交互系统显示正确的反馈，计为一个交互响应时间。对被测设备的基本交互时间进行统计、分析，给出在线响应时间。通过上述

29、测试方法验证是否满足7.5.1.1的要求。8.3.8.2交互反馈测试在被测设备支持的业务场景范围内测设备交互反馈情况。通过上述测试方法验证是否满足7.选择不少于5个业务场景，由测试人员发出操控指令，记录被5.1.2和7.5.1.3的要求。8.3.8.3应用唤起测试测试人员对被测设备说，“我要玩游戏”、“我要听音乐”。可以启动被测设备上己安装的游戏、音乐应用，即为通过。通过上述测试方法验证是否满足7.5.2的要求。8.3.9涉屏语音服务技测试8.3.9.1媒资管理和媒资检索测试在被测试设备支持的媒资领域，选择不少于10个媒资，由测试人员根据媒资的任意1个或任意2个标签发出搜索指令，记录检索结果情

30、况。通过上述测试方法验证是否满足7.6.1、7.6.2.1和7.6.2.2的要求。8.3.9.2关联推荐测试测试人员连续观看同类影片，当搜索无结果时，被测设备给出与用户搜索语相关的影视推荐。如用户搜索：“熊出没狂野大陆”，被测设备无对应媒资时，给出“熊出没”相关联的影片推荐。通过上述测试方法验证是否满足7.6.2.3的要求。8.3.9.3页面操控；f u: .：一试测试人员通过语音进行娘资搜六，被测设备出现多页搜索结果时，可进行翻页操控；播放状态下，支持播放状态的控制。如用户搜索：找要看电影”，出现多页时，可进行上下页的操控；电影播放状态下通过语音操控“暂停”、“重新播放”被测设备给出正确响

31、应。通过上述测试方法验证是否满足7.6.3的要求。8.3.9.4涉屏终端控制测试测试人员通过语音进行被测设备的控制，如：增大音量、减小音量打开设置页面、关机。通过上述测试方法验证是否满足7.6.4的要求。8.38.31010月及务安全测试基础服务安全要求测试按照GB/T22239一2019中8.1.2的规定执行。DB35/T1979一20218.3.10.2麦克风关闭测试测试人员在离被测设备正面l m处用唤醒词进行唤醒，确认麦克风是正常工作，然后关闭被测设备的麦克风，使用唤醒词在同一位置连续唤醒5次，被测设备应处于无响应的状态。通过上述测试方法验证是否满足7.7.2.1的要求。8.3.10.3

32、摄像头关闭测试测试人员首先通过视频应用确认摄像头处于正常工作状态，然后关闭被测设备的摄像头，通过视频应用判断设备是否已经关闭摄像头。通过上述测试方法验证是否满足7.7.2.2的要求。DB35/T1979一2021附录A（规范性）语音测试集录音质量要求A.1概述本附录给出了语音测试集录音质量的组成部分及对应要求。A.2录音棚要求应满足以下要求：a）本底噪声小于25d B(A );b）混响时间小于0.35。注1：本底噪声又称为等效噪声电平，是话筒本身产生的电噪声。注2：混响时间指声源停止发声后，声压级减少60d B所需要的时间，单位为秒（S）。A.3音频录制要求录音语料（唤醒词、命令词）应提前准备

33、，语音测试集音频应在A.2要求的录音棚中进行录制，音频应满足以下要求：a）音频波形采样范围在5000s m p l一20000s m p l;b）音频采样率为44.1k Hz,16bi t，单声道；c）音频时长至少在25一35;d）音频底噪波形采样范围控制在100s m p l以内；e）录制音频时需检查、确定不能存在固定频率现象。DB35/T1979一2021附录A（规范性）语音测试集录音质量要求A.1概述本附录给出了语音测试集录音质量的组成部分及对应要求。A.2录音棚要求应满足以下要求：a）本底噪声小于25d B(A );b）混响时间小于0.35。注1：本底噪声又称为等效噪声电平，是话筒本身产生的电噪声。注2：混响时间指声源停止发声后，声压级减少60d B所需要的时间，单位为秒（S）。A.3音频录制要求录音语料（唤醒词、命令词）应提前准备，语音测试集音频应在A.2要求的录音棚中进行录制，音频应满足以下要求：a）音频波形采样范围在5000s m p l一20000s m p l;b）音频采样率为44.1k Hz,16bi t，单声道；c）音频时长至少在25一35;d）音频底噪波形采样范围控制在100Sm p l以内；e）录制音频时需检查、确定不能存在固定频率现象。

展开阅读全文