siri是苹果公司在其产品iphone4s上应用的一项语音控制功能。siri可以令iphone4s变身为一台智能化机器人,利用siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。siri可以支持自然语言输入,并且可以调用系统自带的天气预报、rì程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。siri读音siri,读音为/siri./,更为体现其功能,汉语化,可以将其读为“say瑞”,寓意“说出吉祥与福瑞”。技术来源siri技术来源于美国国防部高级研究规划局所公布的calo计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件siri虚拟个人助理。功能
siri能做的,听起来相当不一般,使用者可透过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地xìng(locationbased)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
siri功能升级(4张)
不过其最大的特sè,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了drunk、home这些字(甚至不需要符合语法,相当人xìng化...),siri则会判断为喝醉酒
、要回家,并自动建议是否要帮忙叫出租车。
不过唯一可惜的是,该软件目前仅支持英语,另外相关信息也仅限于美国本土,但整个软件的概念,可以说是相当的有趣,而且还是免费的。[1]
相关支持:siri语音系统目前支持英语、法语和德语,不过由于其仍处于测试阶段,对中文的支持可能并不甚理想,未来会加入更多语言支持。
siri技术和语音控制的区别
说到语音控制识别技术,就不得不提android系统的voiceactions,这也是一项伟大的语音控制技术,并已经被许多android用户所熟知和使用。但是它和siri完全不是一个级别的产品。
voiceactions提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和过去的所有语音命令系统一样,它要求你说的话要具备严格的语法结构和格式,否则系统将无法识别。
然而siri和voiceactions就有本质的不同了。你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。
而更加人xìng化的特点是,一旦你开始和siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。而voiceactions做不到这样的事情,因为它只是一个声控命令软件,而并非人工智能。
语音识别不是革命xìng的。多年前,ibm的语音识别软件在pc上就有不错的识别率了。
基于语音识别,简单的智能分析和系统功能的调用也不算革命xìng的。无论是google的voiceaction,还是vlingo等dú lì的公司,做的都不错。
但是,从目前流出的视频看,siri并非这些已知技术的简单组合。
siri的智能程度更高
vlingo中你说
“textmike,messageshowareyou.”
。利用关键字的匹配就可以完成很多事情了。text是命令,messages是关键字。匹配上这两个词,就知道给谁,发送什么内容了。
而siri理解上下文。你问了běi jīng的天气,再说:“howaboutshanghai?”
,他知道你指的是天气。
一个更惊人的例子出现在siri被苹果并购前的演示里。你说“ilikearomanticpceforitalianfoodnearmyoffice”。
siri回答:”iamlookingforaitalianrestaurantswhichreviewssayare
romanticnearyourwokinsanjose…“
这个回答说明siri听懂了romantic是个形容词。并且知道nearmyoffice是个地方。并且,找到了以前存储的用户的工作地点。并且,他知道怎么判断一个餐馆是否romantic!(去搜索reviews)
把同样的话对着android的voiceaction或者vlingo说一遍,你就知道siri具有超越现有apps的智能。
siri和系统的整合更加紧密
siri在并购前的版本整合了大量网络服务的apis。比如opentable,tickets,taximagic等等。
而siri被苹果收购了之后,
他已经被整合为系统的一部分了。
在ios5的siri视频中,出现新短消息之后,交互由siri发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,maps等等)[2]
siri支持的语言
siri目前支持三种语言:英文,法文,德文。其中英文分美式,英式,澳大利亚式。相关技术
siri所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,何不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解siri可能采用的技术(由于有个人猜测,不一定准确)。
首先,在前端方面,即面向用户,和用户交互(userinterface,ui)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。[3]
其次,后台技术,这些其实才是真正的大角sè。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,以google为代表的网页搜索技术;②以wolframalpha为代表的知识搜索技术(或者知识计算技术);③以wikipedia为代表的知识库(和wolframalpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以yelp为代表的问答以及推荐技术。
网页搜索技术[3]
这个我想没必要介绍,大家天天用的google就是这个技术的代表。而国内的话,则以百度为代表。
知识计算(搜索)技术(putational
Copyright 2021宝石小说All Rights Reserved