深度解析:为什么人工智能领域中深度学习这么火

2023-05-29 综合 41阅读
深度学习首先在图像、声音和语义识别取得了长足的进步,特别是在图像和声音领域相比传统的算法大大提升了识别率,其实也很容易理解,深度学习是仿人来大脑神经感知外部世界的算法,而最直接的外部自然信号莫过于图像、声音和文字(非语义)。
图像识别:图像是深度学习最早尝试的领域,大牛Yann LeCun早在1989年就开始了卷积神经网络的研究,取得了在一些小规模(手写字)的图像识别的成果,但在像素丰富的图片上迟迟没有突破,直到2012年Hinton和他学生在ImageNet上的突破,使识别精度提高了一大步。2014年,香港中文大学教授汤晓鸥领导的计算机视觉研究组开发了名为DeepID的深度学习模型, 在LFW (Labeled Faces in the Wild,人脸识别使用非常广泛的测试基准)数据库上获得了99.15%的识别率,人用肉眼在LFW上的识别率为97.52%,深度学习在学术研究层面上已经超过了人用肉眼的识别。
当然在处理真实场景的人脸识别时还是差强人意,例如人脸不清晰,光照条件,局部遮挡等因素都会影响识别率,所以在实际操作中机器学习与人工确认相结合,更加妥当。国内做人脸识别的公司众多,其中Face++、中科奥森、Sensetime、Linkface、飞搜科技都是走在前面的,在真实环境运用或者在垂直细分领域中有着深厚的数据积累。在基于面部特征识别技术的情绪识别领域,阅面科技与Facethink(Facethink为天使湾早期投资项目)是国内少数进入该领域的初创公司。
语音识别:语音识别长期以来都是使用混合高斯模型来建模,在很长时间内都是占据垄断地位的建模方式,但尽管其降低了语音识别的错误率,但面向商业级别的应用仍然困难,也就是在实际由噪音的环境下达不到可用的级别。直到深度学习的出现,使得识别错误率在以往最好的基础上相对下降30%以上,达到商业可用的水平。微软的俞栋博士和邓力博士是这一突破的最早的实践者,租核冲他们与Hinton一起最早将弊歼深度学习引入语音识别并取得成功。氏简由于语音识别的算法成熟,科大讯飞、云知声、思必驰在通用识别上识别率都相差不大,在推广上科大讯飞是先行者,从军用到民用,包括移动互联网、车联网、智能家居都有广泛涉及。
自然语言处理(NLP):即使现在深度学习在NLP领域并没有取得像图像识别或者语音识别领域的成绩,基于统计的模型仍然是NLP的主流,先通过语义分析提取关键词、关键词匹配、算法判定句子功能(计算距离这个句子最近的标识好的句子),最后再从提前准备的数据库里提供用户输出结果。显然,这明显谈不上智能,只能算一种搜索功能的实现,而缺乏真正的语言能力。苹果的Siri、微软的小冰、安望的小灵灵都在发力智能聊天机器人领域。小灵灵众多竞争对手中还是蛮有意思的,她的设想就是“你随便和我聊天吧”,而其他竞争对手则专注于某些细分领域却面临着在细分领域仍是需要通用的聊天系统。
为什么深度学习在NLP领域进展缓慢:对语音和图像来说,其构成元素(轮廓、线条、语音帧)不用经过预处理都能清晰的反映出实体或者音素,可以简单的运用到神经网络里进行识别工作。而语义识别大不相同:首先一段文本一句话是经过大脑预处理的,并非自然信号;其次,词语之间的相似并不代表其意思相近,而且简单的词组组合起来之后意思也会有歧义(特别是中文,比如说“万万没想到”,指的是一个叫万万的人没想到呢,还是表示出乎意料的没想到呢,还是一部电影的名字呢);对话需要上下文的语境的理解,需要机器有推理能力;人类的语言表达方式灵活,而很多交流是需要知识为依托的。很有趣,仿人类大脑识别机制建立的深度学习,对经过我们人类大脑处理的文字信号,反而效果差强人意。根本上来说,现在的算法还是弱人工智能,可以去帮人类快速的自动执行(识别),但还是不能理解这件事情本身。
声明:你问我答网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系fangmu6661024@163.com