博客首页|TW首页| 同事录|业界社区

随着人工智能概念大热,智能语音开始攻占各种智能终端:语音输入、语音导航、语音拍照、语音拨号……,然而行业形势看似一片红火,不少用户却表示没有真正感受到人工智能带来的便利。过于机械的操作方式和响应结果常常让人失望,对话过程中经常性的答非所问,也让人倍感尴尬并失去耐心。

为了改善这种由于交互不够自然导致的尴尬体验、让信息的表达和获取更容易,近日,国内人工智能技术的领军企业——搜狗宣布推出语音交互引擎“知音”。据了解,“知音”专注于自然交互,不仅具有“灵敏的耳朵”,更是拥有一个“更聪明的大脑”。


【多年数据积累,保障“知音”识别技术迅速进步】


我们知道,语音交互分为三个技术环节,第一是语音识别,第二是语义的理解,第三是语音合成。语音识别作为语音交互的第一步,是理解、思考、交互的基础,由此可见,一个“灵敏的耳朵”对自然交互至关重要。

深度学习时代,语音识别的准确率取决于优质数据训练量,对于一款引擎来讲,数据其实就是引擎的燃料,技术就是这个引擎的发动机。而数据正是搜狗研发语音技术的优势所在,得益于搜狗庞大的用户量和藉此产生的海量数据,目前的“知音”引擎所使用的是互联网规模最大的语音数据。数据显示,搜狗输入法日均语音输入的请求次数超过1.4亿次,是中国语音输入功能使用量最大的移动手机产品。搜狗语音识别在2012年11月份上线,现在每天使用语音输入功能的用户比例已经达到8%,用户在输入法上每天产生的语料规模是11.7万小时,这个数字比目前国内任何语音公司使用的语料规模都要大,甚至已经能够支撑现在所有语音公司的训练。同时,搜狗自2013年开始研发深度学习的技术,近几年通过深度学习技术的累计,语音识别错误率累计降低了60%。

值得一提的是,“知音”引擎的语音识别使用了目前业界最先进的“端到端”模型,技术上更好地解决了用户在说话快过程中的吞音问题,同时在训练方法上使用了一种“主动学习”方法。通过“端到端”模型以及硬件加速,搜狗语音的识别速度提升了3倍,识别错误率降低30%,大大降低了由于口音以及嘈杂环境带来的错误率。

【真正解决用户痛点,“知音”让交互更加自然】


当前的语音交互产品普遍存在两个问题:识别时经常发生错误,以及交互能力不足,导致的结果就是交互过程中需要用户长时间注视屏幕或手动操作过多等,不能真正解放双眼和双手,让交互体验大打折扣。

为了针对性的解决这些问题,搜狗“知音”引擎不仅能在语音交互的过程中支持用户修正错误的识别结果,还能与用户进行多轮对话,更精准的把握用户需求。

首先,依托于搜狗输入法的拆字库和海量的用户词库,“知音”能够在语音交互过程中支持用户使用自然语言进行改错,并支持丰富的描述方法以及替换、插入、删除等几百种改错文法。例如,用户可以说:“把‘张’修改为立早‘章’,或者把‘张’修改为文章的‘章’”。 目前,“知音”的修改成功率达到80%,这也相当于语音识别的错误率进一步降低了80%。

同时,通过搜狗的百科知识图谱,“知音”引擎可以通过资源的累计、技术的加工,更好的理解用户在进行自然文字沟通时的表达。例如,用户说清华的邱勇,“知音”就可以通过知识图谱知道他说的是哪个邱勇。

不仅如此,“知音”还能与用户进行多轮对话,处理更复杂的用户交互逻辑,用更自然并且用户更容易接受和理解的方式进行交互,一步步定位用户最终的需求点,从而提供更为便捷的人性化服务。例如,当用户发出去首都机场的请求后,“知音”会进一步提问,你去首都机场的T1还是T2,当用户确定航站楼后,它还会问是出发还是接人。这是因为搜狗可以通过地图把数据结构化,再通过周围地标的方式彻底连成一个网,把这样一种深度数据放到语音里,就能够真正与用户做到更加自然的交互。

正如搜狗CTO杨洪涛所说,所谓自然交互指的就是让机器能够很好的理解人的自然表达,而语音技术就是一种方式。“知音”引擎拥有基于端到端语音技术识别能力、基于自然语言交互的语音纠错能力、基于知识图谱技术的行业知识整合能力、基于多轮对话的复杂语义理解能力,有这四个能力做辅助,当前“知音”的自然交互已经比以前有很大突破了。

业内人士认为,与目前市面上的语音技术不同,搜狗“知音”是从海量真实用户数据出发,结合垂直场景针对性的解决用户痛点,不仅极大提高了用户的语音交互体验,让交互方式变得更加自然。另一方面,“知音”引擎的出现也将促进整个智能语音行业的技术迭代革新,随着搜狗在自然交互与知识计算方面不断进步,以及与业界伙伴一道将语音技术打磨的更好更完美,相信未来语音交互体验一定会得到质的提升和飞跃。


上一篇: O2O行业拼到今天,可能只剩下互联网经济实体化这一条出路了
下一篇:冬天里的独角兽,如何跳过第三道龙门?

评论

Comments are closed.