大白话讲清楚什么是计算机视觉?
什么是计算机视觉大白话定义它就是研究如何让机器像人一样从图片、视频中获取信息、理解内容的技术。核心组件输入源和算法模型。简单理解为眼睛大脑。输入源眼睛负责“看”把现实世界的光影变成数字图片。这就像人的眼球和视网膜。而计算机的“眼睛”常见的设备是摄像头。算法模型大脑特别是深度学习 负责“理解”搞清楚眼睛里看到的到底是什么。这就像我们的大脑皮层视觉中枢。而计算机的“大脑”常见代表有CNN、ViT、YOLO、U-NET。计算机视觉的地位在ChatGPT出现之前人工智能的商业化应用主要以CV领域为主导催生了智慧园区、智慧城市、自动驾驶等一系列“看得见”的AI应用。可以说直到2022年底CV在落地应用的广度和公众认知度上仍占据着主流地位安防、金融、移动互联网的普及都深深依赖CV技术。大语言模型出来后标志着人工智能的发展重心发生了一次历史性转折从以CV为主的感知智能迈向了以NLP自然语言处理为核心的认知智能。在这一转变中计算机视觉也通过与自然语言处理的结合衍生出文生图、文生视频等重要方向。在详细讲解之前我给大家整理了一份计算视觉入门到实战的学习资料不仅有配套教程讲义还有对应源码数据集。更有零基础快速入门学习路线不论你处于什么阶段这份资料都能帮助你更好地入门到进阶。需要的兄弟可以按照这个图的方式免费获取计算机视觉能做什么计算机视觉的任务范围非常广泛我们从基础到高级一个一个介绍。任务层级任务名称核心要解决的问题 (白话版)典型应用场景感知与定位(看懂有什么)图像分类这张图是什么 (整体判断)照片分类猫/狗、医学影像筛查是否肺炎、场景识别森林/城市目标检测图里有什么在哪 (找出来并框住)自动驾驶检测行人、车辆、人脸检测、工业质检定位缺陷图像分割每一个像素属于什么 (精细到像素)医疗影像分析肿瘤区域、自动驾驶场景解析区分道路、天空、车辆关键点检测物体的核心部件在哪 (定位特征点)人脸识别定位眼角、嘴角、人体姿态估计构建人体骨骼识别与解读(看懂是什么)人脸识别这张脸是谁 (识别身份)手机人脸解锁、公共安全监控、相册自动归类光学字符识别(OCR)图片里的文字是啥 (读取文字)扫描文档转文本、车牌识别、卡片信息自动录入场景文字识别复杂环境下的文字是啥 (OCR进阶版)街景门牌号识别、广告牌文字提取、产品包装文字识别理解与推理(看懂在发生什么)目标跟踪在视频里持续跟着某个目标 (跨帧追踪)体育赛事跟踪球或运动员、自动驾驶预测周围车辆轨迹行为识别视频里的人在干什么 (理解动作)智能监控识别摔倒、打架、体育分析识别投篮、射门交互与创造(回答与创造)图像问答 (VQA)看到图后回答你的问题。 (视觉推理)辅助视障人士“我前面有车吗”、智能客服“图中产品是什么颜色”图像生成与合成根据描述创造或修改图片。 (视觉创造)AI绘画文生图、老照片修复、图像风格迁移变成梵高画风一、核心基础任务---感知与定位看懂图中有什么这是CV最经典和基础的任务是许多高级应用的基础要从图像级别进行理解。1、图像分类任务判断一张图像属于哪个预定义的类别。例子判断一张照片是“猫”还是“狗”识别一张医学影像是否是“肺炎”识别场景是“森林”还是“城市”。2、目标检测任务不仅识别图像中有什么物体还要定位出它们的位置通常用边界框标出。例子自动驾驶中检测行人、车辆、交通标志照片中的人脸检测工业质检中检测产品缺陷。3、图像分割这是一个更精细的像素级任务旨在确定每个像素属于哪个对象或类别。语义分割为每个像素分配一个类别标签但不区分同一类别的不同实例。例子在街景图中将所有“天空”、“道路”、“车辆”、“行人”的像素区域用不同颜色区分开。实例分割比语义分割更进一步能区分出同一类别中的不同个体。例子在一张人群图片中不仅标出所有“人”的像素还能区分出张三、李四等不同的人。4、关键点检测任务检测物体上具有特定意义的点。例子人脸关键点检测检测人脸的眼角、鼻尖、嘴角等位置。人体姿态估计检测人体的关节位置如肩膀、手肘、膝盖从而构建出人体的骨架。二、 分析与识别任务---识别与解读看懂它是什么这类任务更侧重于对视觉内容进行深入分析和身份识别。1、人脸识别任务识别或验证图像或视频中人物的身份。例子手机人脸解锁、公共场所的安全监控、相册自动分类。2、光学字符识别OCR任务识别图像中的文字并将其转换为可编辑的文本。例子扫描文档转文字、手机扫描翻译、车牌识别。3、场景文字识别任务OCR的进阶版专门识别自然场景如街景、广告牌中任意形状、角度、光照下的文字。三、 动态视频分析任务----理解与推理看懂“在发生什么”这类任务处理的是连续的图像序列视频需要考虑时间维度上的信息。1、目标跟踪任务在视频序列中持续跟踪一个或多个特定目标的位置。例子体育比赛中跟踪篮球/运动员、自动驾驶中预测其他车辆的轨迹。2、行为识别任务识别视频中人物或物体的行为动作。例子监控视频中识别“摔倒”、“打架”等异常行为体育视频分析中的“投篮”、“射门”动作识别。四、 问答与生成任务---交互与创造看懂后“回答与创造”这类任务结合对图像的理解和自然语言处理能力对图片的理解和内容的创造。1、图像问答任务根据给定的图像回答以自然语言提出的问题。例子给AI看一张街景图问“图片中有几辆红色的汽车”它能回答“3辆”。重要性这是多模态智能的核心体现标志着AI从“感知”走向“认知”。2、图像生成与合成任务使用模型创造新的、逼真的图像或编辑现有图像。例子风格迁移将一张照片的风格如梵高的画风应用到另一张照片上。超分辨率将低分辨率图像放大并恢复细节。图像修复智能填充图像中缺失或损坏的部分。生成对抗网络/GANs 和 扩散模型根据文本描述生成图像如DALL-E、Midjourney、Nano Banana、生成不存在的人脸等。几个重要的补充1、模型输出的预设性传统CV模型遵循“封闭世界”假设 意思就是模型的输出在设计阶段就已经定义好了。比如要图像分类分10个类别在训练前就被固定死了。让它识别第11类它要么答错要么干脆答不上来。这是其泛化能力弱的核心原因。2、定制化场景专用传统CV模型基本都是“一事一议”的定制化模型。换一个场景比如从识别猫狗换成识别零件缺陷往往就需要重新标注数据、重新训练。这导致了它的开发成本高难以规模化复制。而LLM作为一个“万事通”式的基座模型具有泛化能力通过一个模型就能应对千变万化的任务这正是它引发革命的原因。3、CV和LLM训练模式的本质从顶层抽象看所有AI模型包括CV模型和LLM都遵循“数据模型参数”的训练范式。但核心差异在于学习目标CV模型学习的是从像素到特定任务如分类、检测的映射而LLM学习的是从词序列到下一个词的预测并在海量数据中涌现出了对通用知识和规律的掌握。4、多模态大模型CV领域自己的“基座模型”在哪里目前看来多模态大语言模型是最有希望的答案。它将视觉信号对齐到了一个强大的语言空间里从而获得了令人惊叹的开放世界理解能力。在要求极高精度、速度和可靠性的特定场景如工业质检、自动驾驶感知传统专用CV模型目前依然不可替代。未来很可能是“多模态大模型负责通用理解传统CV模型负责精密执行”的共存格局。总结计算机视觉早已不再是孤立的“看图”技术。它正在与自然语言处理NLP深度交融进化成更强大的多模态智能。那是什么模型支撑着CV领域是什么模型打通文字和图像的界限后面的文章会一一进行介绍比如CNN、ViT、ClIP。本文介绍的CV技术里你觉得哪个最神奇我说一个产品方向如果图像问答能跟硬件设备融合在一起是不是赋予了硬件“人”的能力了比如一个移动摄像头设备可以为盲人指路或者问答让这个摄像头充当盲人的眼睛科技的意义正是如此。