如果你也对语音交互感兴趣,这里有份书单可以参考

编者按:本文来自于微信公众号 “KnowingAI知智”(微信公众号:Knowing_AI), 动点科技经授权发布。

在完成《2018,语音交互何去何从》一文的过程中,出于兴趣收集了一些语音交互设计相关的文档及书籍资料。

其中有专门针对对话式交互设计的,有交互设计与机器学习结合的,还有一些与 VUI 设计相关的拓展阅读内容。

如果你对语音交互同样感兴趣,希望这份资料单能为你提供帮助。

两份文档

1、Google 对话式交互规范文档

以「为什么机器人无法像人类一样对话」作为引导,文档大致分为三部分:

  • 对话式 UI(Conversational UI)基础概念,包括轮次、原则、表达方式、语义语境的定义等等;
  • 对话式 UI 的设计方法,包括具体的设计步骤、遵循的原则、走查清单、设计工具包等等;
  • 实践案例及问题的解决方法,包括如何适应不同用户的说话风格、口语化表达的修复、获取用户信任等等。
Google 还专门制作了一个关于对话交互的小短片

地址:https://developers.google.com/actions/design/

2、Amazon 语音交互设计规范文档

与 Google 的文档相比,Amazon 的文档相对「务实」,没有太多抽象的定义(类似「格里斯原则」这类只看名字完全不知道内容的原则),以目的引导执行,从最直接的确定对话目标、撰写脚本开始。

Alexa 的特点之一是超过 1.5 万种「技能」(Skill),出于帮助设计者更好的为 Alexa 开发的目的,文档内容会倾向于技能的构建。同时由于 Amazon Echo Show 系列带有屏幕的产品上线,文档中也会涉及一些与文字视觉相关的交互原则。

去年 5 月上市的 Echo Show

Amazon 的设计规范分为五部分:设计流程、用户表达、Alexa 的回应、走查清单以及词汇表。

  • 设计流程包括开发前的设计工作,如确定对话目标及用户、撰写脚本、制定流程、准备开发等等;
  • 用户表达部分则是让 Alexa 了解用户的意图的一些方法和原则,如在构建前完成设计、如何处理用户的过度回答等等;
  • Alexa 的回应部分是 Alexa 回应用户的方法和原则,共有 14 项,包括保持对话简洁、使用会话标记等等,并包括一部分与文字视觉相关的交互原则;
  • 走查清单共 5 项,包括确保用户从技能中受益、确保用户可依找到技能、使用自然语言交流等等;
  • 词汇表则为文档中的名词定义。

地址:https://developer.amazon.com/designing-for-voice

三本设计类书籍

3、《Designing Voice User Interfaces : Principles of Conversational Experiences》

作者 Cathy Pearl 是 Sensely 的用户体验总监,拥有 17 年语音交互设计经验,在 Nuance 和微软任职期间设计过多款 VUI 系统。

书籍的内容包括语音界面的基本设计原则、虚拟角色的构建、语音识别技术、用户测试,以及设备实例等等。偏向于实践,图文丰富,出版于 2016 年 12 月,美亚评分 4.3。

中文版已于上个月出版,译名为《语音用户界面设计:对话式体验设计原则》,译者为阿里设计师,各大电商均有售。

4、《Machine Learning for Designers》

作者 Patrick Hebron 是纽约大学信息交互项目(Interactive Telecommunication Program,偏向艺术、科技媒体融合的传播类项目)的客座科学家及兼职教授,曾为 Google、Oracle、BMW 服务。

与上一本《Designing Voice User Interfaces》同样都是 O’Reilly 出品,不过是数字出版物。发布于 2016 年 6 月,是一本 71 页的小册子。

从机器学习是什么、为其进行设计的不同之处讲起,包括为机器学习系统进行设计会遇到的挑战,以及如何与机器学习平台协作。

从 34 页开始为「Creating Dialogue」(创建对话),包括如何开始对话、话术设计原则等等。整本的内容相对简单,很适合初心者。

这本小册子的最后提供了不少资源链接,比如 arXiv、Reddit、Hacker News 等,以及一些机器学习、数学线上课程推荐,机器学习平台和开源工具等等。

Patrick Hebron 的个人网站上还有不少与机器学习设计相关的内容,地址:http://www.patrickhebron.com/。

5、《Sonic Boom》

作者 Joel Beckerman 是声音解决方案公司 Man Made Music 的创始人,曾为迪士尼、AT&T 等服务。同时也是一名作曲家,曾与 John Legend, will.i.am, Moby 等音乐人合作。

从声音的意向、影响,声音与品牌的关联、实际案例到如何创造声音体验,《Sonic boom》的内容偏向产品音效设计及声音品牌化。对于构建 VUI 的个性、如何与产品契合等有不错的借鉴意义。

中文版《音爆》已于 2016 年出版,各大电商平台有售。

两本技术类书籍

6、《解析深度学习:语音识别实践》

理解语音识别技术的中文必读书之一,作者是前微软研究院首席研究员、语音识别及深度学习资深专家俞栋,以及人工智能、机器学习、语音语言信号处理专家邓力。

内容相对偏理论,覆盖了大部分语音识别知识,如果对语音识别底层技术感兴趣可以参考学习。

7、《统计自然语言处理》

理解 NLP(Natural Language Processing, 自然语言处理)的中文必读书之一。语音识别是将语音转换为文字,NLP 则是让机器理解理解文字背后的意义。能不能利用 NLP 技术理解用户语言?这项技术现在能做到什么程度?

技术类书籍的作用就是在进行语音交互开发、设计前,帮助把握技术的边界。

内容完备(且非常厚),从基础概念、预备知识到底层技术,以及机器翻译、篇章分析等应用方向的具体解决办法都包含其中,对 NLP 技术感兴趣可以深入阅读。

(一些好玩的)其他内容

1、《Best Practices in Designing Speech User Interfaces》

微软平台 2004 年发布的语音交互设计文档,充满年代感,比如第一课是「你永远都别想拿到足够的数据」(笑)

左侧的《Heuristics: Lessons in the Art of Automated Conversation》中有一些设计自动对话基础原则可以借鉴,如制造真实、让用户有良好体验等等,后面大多是使用微软语音识别平台的方法,总之颇具考古价值。

地址:https://msdn.microsoft.com/en-us/library/ms994646.aspx

2、《Voice User Interface Design》&《Voice Interaction Design:Crafting the New Conversational Speech Systems》

这两本都是 2004 年附近出版的 VUI 方向书籍,针对的是早期 IVR(Interactive Voice System,交互式语音系统),不过里面的一些设计原则在今天依旧适用,前文提到的《Designing Voice User Interfaces:Principles of Conversational Experiences》就引述了不少这两本书的内容。

3、网络课程

虽然直面语音交互设计的课程几乎没有,但还是有一些与语音识别相关的课程,可以帮助技术入门。英文无障碍可以选听爱丁堡大学的 ASR 课程,科大讯飞的 AI 大学有语音方向的中文课程。

爱丁堡 ASR 课程地址:http://data.cstr.ed.ac.uk/asr/2017-18/asr-lec01.html

讯飞 AI 大学地址:http://ai.xfyun.cn/college/index

4、arXiv

活用开源论文库,设定搜索条件后能找到不少与语音交互及设计相关内容。

地址:https://arxiv.org/