微软小冰再进化-凯发k8一触即发

微软小冰再进化

2019/11/30

导读

每一次技术的革新，改变的都是连接人类和世界的方式。

图说：在11月21日周五举行的微软小冰科研成果分享会上，微软小冰首席科学家宋睿华和他的同事，微软小冰首席nlp科学家武威、微软小冰首席语音科学家栾剑介绍了最近小冰所取得的新进展。

撰文 | 邸利会

● ● ●

在微软小冰首席科学家宋睿华眼中，每一次技术的革新，改变的都是连接人类和世界的方式。

借助互联网，可以不必“跨越大半个地球去看你”，技术压缩了物理的空间，拉近了人们的距离。换言之，互联网延长了你的眼睛和耳朵，让你方便的触达世界的任何角落。

而手机再一次改变了人类和世界连接的方式，手机成了最懂你的人——当你打车，手机会知道你常去的地方，当你听歌，手机会推荐给你最喜欢的曲目，甚至有人说，手机比你都更了解你自己。

“ 我们的猜测是ai产品也会成为下一个改变人类和世界方式的点，我们希望小冰所完善的人工智能框架能够做出这样的一个连接点。” 宋睿华说。

在11月21日周五举行的微软小冰科研成果分享会上，宋睿华和他的同事，微软小冰首席nlp科学家武威、微软小冰首席语音科学家栾剑介绍了最近小冰所取得的新进展。

2014年，小冰在微软（亚洲）互联网工程院诞生，经历了5年时间，今年已经进化到了第七代。小冰是一个融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架和系统。该框架注重人工智能在拟合人类情商维度的发展，强调人工智能情商，而非任务完成，在人机交互中的基础价值。

第七代微软小冰已成为全球最大的跨领域人工智能系统之一，产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家，微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众，在交互场景大幅度拓宽的情况下，微软小冰与用户的单次平均对话轮数（cps）仍保持在23轮。

把控对话流程

平均对话轮数当然是衡量用户是否深度参与聊天的重要指标，不过武威说，在某些情形下，比如商品推荐、智能家居，是“需要越短越好，而且还要答得对”。要让小冰适应如此广泛的应用场景确实是一项挑战。

武威说，要发展自我完备的对话机器人，首先需要的是学习的能力——可以从人类的对话中学，也可以机器人之间互相学。此外，机器人还应该能自主管理，单轮的表达管理做好后，还能把控整个的对话流程；最后，机器人应该还能连接散落在这个世界上的多模态的知识。

小冰的对话引擎这些年也经历了进化，从一开始的“检索模型”，重用已有的人类的对话来实现人机交互，到“生成模型”，可以自己去合成回复，再到“共感模型”，也就是可以自主的去把握整个对话流程。

在各个模型上，武威介绍，他们都做了一些工作和常识。比如，考虑到简单的生成模型的回复没有多少信息量，2017年他们将话题内容引入到了回复中，这样的回复就更有内容。

“由于我们引入了话题，如果用户说在左脸颊上有一些血丝，机器回复，我也是敏感肌，敏感肌就是一个话题的词汇；再比如，有人说，我的皮肤很干，也可以回复，那你补水保湿吧，补水保湿也是一个话题。” 武威解释说。

小冰第六代的“共感模型”，背后包括了两个模型，回复生成模型和策略决定模型。武威解释说，这里的策略可以是主动引导话题，提问，向对方确认一些事情；也可以是一些情感的表达，通过意图、话题、情感等策略的组合，可以产生非常多样、复杂的对话流程。

融合了对话、语音、文本知识、多媒体的多模态交互也是武威他们正在研究的重点。“如何把散落在各个地方的知识连接起来，然后以一种一致的方式再通过对话机器人输出出来，我认为做到这点之后多模态交互基本上就解决了。” 武威说。

多种风格的歌唱

在当天的分享会上，栾剑展示了小冰唱歌技术在过去一年的进展。事实上，在2015年，小冰推出语音聊天功能时就收到了市场的积极反应，之后又加入了儿化音、中英文混杂朗读、讲儿童故事等，2016年进一步开始尝试唱歌。

“做唱歌主要有三个原因，一是唱歌门槛比说话高，二是唱歌在情感表达上更为丰富激烈，三是唱歌本身是很重要的娱乐形式。” 栾剑解释说。

那么，如何让机器学习唱歌了，一是可以像唱歌的人学习，二是直接通过读曲谱。这两种方式对机器来说，第二种要简单一些。“如果从人的录音去学的话，它有时候会需要检测音高的曲线，需要检测每个字起始和结束的位置，还需要去判断每个发音，所以这中间都会有一些误差和错误存在，所以如果是有曲谱输入的话，接下来就会更简单一些。” 栾剑说。

而唱歌合成的方式也有两类，一是单元拼接。这个方式比较简便，但最大的问题是唱出来往往不那么自然，像是一个字一个字的蹦出来。第二种是参数合成的方式，这种方式会比较灵活，变化很丰富，甚至可以创造一个从来不存在的声音，但缺点是音质上可能会有所下降。

栾剑介绍说，小冰采用的是参数合成的方式，并不断提升。他们讲乐谱中能量谱、时长和音高用同一个模型进行预测，虽然模型很复杂，但“用这种方式生成的波形，它的自然度和流畅度会得到一个明显的提升”。

尽管小冰在唱歌方面已取得不俗的进展，但栾剑认为，对唱歌这个人物，数据依然是个困难点。鉴于清唱的数据非常少，他们需要利用混合了伴奏的数据进行学习。“不管是人工智能的创造还是提高唱歌上，我觉得需要两条腿走路，一是不断提高模型，二是不断挖掘更多的数据，这两个东西如果做的更好，我们的质量会不断得到提高。” 栾剑总结道。

比喻与绘本创作

在写作中，比喻是一种比较高级的修辞手法，可以把抽象难懂的概念具像化，让读者产生深刻的印象。可让机器人学会运用比喻却不是一件容易的事情，何况是创造一种新颖的比喻。

“我们有一个要求是不要在人类已有的文章里去挖掘这种比喻句，不要用’像’、‘就像’、‘一样’ 这样子的模板把它挖掘出来，因为这些都是人类创造的比喻，跟小冰没有那么大的关系，我们希望小冰真正创造出人类不曾说过的比喻。” 宋睿华说。

那么，如何做呢？对机器，这样的输入往往是本体、喻体，而输出是一个解释。宋睿华他们首先找出了小冰用户喜欢说的96个抽象概念，包括了分离、爱情、心、世界、母亲、美人、人、梦想、生活、快乐等。另外再找出常用的一万个词，都是一些好理解的具体的概念，如食物、信号、游戏等。最后，他们在两组概念中间挖掘一些连接词，之后根据连接词是动词，名词还是形容词，再做不同的处理。用他们的方法做出的比喻有些有十分贴切的效果，如“孤独像是空无一人的车站”，当然也有“恋人像是可靠的报表”这样略有些奇怪的比喻。也许，像诗人一样，进行新的比喻的创作有时不可避免会有不那么好的结果。

在最近的发展中，小冰的另外一项技能是用一系列图片描述一个故事。谈起这项研究的初衷，宋睿华告诉笔者，当时他们是在合作一个儿童绘本的项目，希望除了给儿童故事加朗读外还能配上一些画面。

要实现从故事上的文字转变成一系列的图画是一些具有挑战的任务，包括了三个难点，一是需要更好的利用上下文，二是需要做好细节上的对应，三是很多的数据都是一一对应的。宋睿华他们用了一系列的方法改善他们的结果，尽管现在还需要一些人工的辅助，但已经是取得了不错的进步。

微软小冰

参与讨论

0 条评论

暂无评论内容

微软小冰再进化-凯发k8一触即发

微软小冰再进化

邸利会

相关阅读

微软的数据“海底捞”：可能是下一个引领数据存储的黑科技

沈向洋：离开微软是我一生中最艰难的决定

沈向洋自述：人生教会我七堂课

订阅newsletter