有没有想过我们如何才能理解我们所看到的东西?就像我们看到某人在走路,不管我们是否意识到,使用先决条件知识,我们的大脑就会了解正在发生的事情并将其存储为信息。想象一下,我们看着某样东西,然后完全空白。成遗忘。吓人吧?好吧,我们的大脑如何解释所看到的图像背后的秘密一直吸引着我。
将人的智力和本能传递给计算机的想法似乎很轻松。可以想象,因为它也可以由很小的孩子解决,但是与我们的生物学能力相比,我们经常会忘记计算机的局限性。视觉感知的复杂性是无限变化的,并且对于人类本身来说是动态的,更不用说计算机智能了。
我们的大脑有能力识别对象,处理数据并决定要做什么,从而在一瞬间完成了一项复杂的任务。目的是使计算机能够执行相同的操作。因此,这是一个可以称为人工智能和机器学习的融合的领域,其中涉及学习算法和专门的方法来解释计算机所看到的内容。
起点
最初,科技巨头仍在脑力激荡的令人费解的想法,被那些开创人工智能的人认为对于一个暑期本科项目来说足够简单。带您回到1966年,当时MIT人工智能小组的Seymour Papert和Marvin Minsky发起了一个项目,其目标是建立一个可以分析场景并识别场景中对象的系统。
深度学习
计算机视觉背后的科学围绕人工神经网络展开。用简单的话?受人脑启发的算法使用大量数据集进行学习,以尽可能地克隆人的本能。这些算法具有卓越的准确性,甚至在某些任务中甚至超过了人类的水平。深度视觉仅是深度学习的一个子集,它是计算机视觉的驱动力。
像素提取
OpenCV(开源计算机视觉)是一个跨平台且可免费使用的功能库,基于实时计算机视觉,该计算机视觉支持支持图像和视频处理的深度学习框架。在“计算机视觉”中,主要元素是从图像中提取像素,以便研究对象并由此了解其包含的内容。以下是Computer Vision试图在照片中识别的一些关键方面:
- 对象检测:对象的位置。
- 物体识别:图像中的物体及其位置。
- 对象分类:对象所在的广泛类别。
- 对象分割:属于该对象的像素。
应用与未来
Computer Vision的应用领域无穷无尽,因此占据了广阔的基础。它常常使我们无所适从,因为我们无法每天都使用Computer Vision在小工具中扮演的角色。
- 智能手机和Web: Google镜头,QR码,Snapchat过滤器(面部跟踪),夜视,面部和表情检测,镜头模糊,人像模式,Google照片(面部,物体和场景识别),Google地图(图像拼接)。
- 医学影像: CAT / MRI
- 保险:财产检查和损坏分析
- 光学字符识别(OCR)
- 3D模型构建(摄影测量)
- 将CGI与电影中的现场演员合并
计算机视觉是一个不断发展的研究领域,具有专门针对应用程序领域的定制任务和技术。我将其市场价值想象成与其能力一样快地增长。凭借我们的才智和兴趣,我们很快就能将我们的能力与Computer Vision相融合,并达到新的高度。