1.视觉:把目光放在机器人1.1预计2022-2027年中国3D工业视觉CAGR为53.8%。
预计2027年中国机器视觉市场规模为566亿元,CAGR为27%。根据高技术产业研究所的数据,2022年至2027年,全球机器视觉市场规模将增至172亿美元,年复合增长率为7.4%。中国市场规模预计将从170.7亿元增长至565.6亿元,年复合增长率为27.1%,远高于全球水平。预计2027年中国3D工业相机市场规模为160亿元,2022-2027年CAG R为53.8%。GGII数据显示,2022年,中国3D工业相机市场规模将为18.4亿元,同期增长59.90%,渗透率接近10%。随着制造智能化的深入, 预计2027年3D工业相机市场规模接近160亿元,2022-2027年CAGR为53.8%。1.2视觉技术用于识别、定位、测量和检测的难度越来越大。在机器视觉的下游应用行业中,消费电子占21.9%,锂电池和半导体各占10%,电力/电子占6.6%。在国内,机器视觉在3C行业的需求最大,其应用涵盖了电子元器件的生产、组装、检测、识别、分类和读码、溯源等全过程。近年来,国内新能源、半导体、汽车行业视觉普及率快速提升。就技术难度而言,识别、定位, 测量和检测正在增加。在线检测需要在短时间内处理和分析大量的图像数据,同时保证检测的准确性和可靠性,不受环境因素的干扰。由于工业细分场景多样,在线检测要适应不同的产品类型、规格和形状,自动识别和调整检测参数和策略,处理复杂的图像特征和背景干扰,实现自动学习和优化。从消费电子、锂电池、半导体三个典型行业的具体场景看机器视觉的应用:a .在消费电子领域,机器视觉主要用于工艺检测、尺寸测量、全尺寸检测。过程中检测包括精确的目视检测、高效的尺寸测量以及利用大数据快速定位源头。关键尺寸测量包括螺孔尺寸测量、关键轮廓测量、信号和焊接尺寸测量。全尺寸检测包括所有装配位置的测量、孔径长度和宽度的测量以及特征结构匹配的测量。b .在动力电池制造过程中,机器视觉应用于缺陷检测、尺寸测量和关键工序定位。在电池芯的预处理中,诸如箔暴露、黑斑, 锂电池在涂布和卷绕中容易出现亮点和划痕。机器视觉主要用于极片的涂层矫正、尺寸测量、表面缺陷检测、尺寸测量和绕组对齐。新的后处理主要应用于裸电池极耳的折叠、极耳切割碎屑、顶盖和密封钉的焊接质量检查、电池外观检查、尺寸测量、涂胶定位等。模块和封装阶段,主要用于底蓝胶、焊缝、侧焊缝、模块全尺寸和封装检测。c .在半导体领域,机器视觉主要应用于硅片检测分选、晶圆缺陷检测和成品外观检测,尤其是在晶圆制造的整个过程中,如检测、定位、切割、封装等。3D测量系统用于硅晶片检查和分类, 其实现了硅片产品各种性能参数的一站式自动检测、检测数据管理的可视化分析和统计、硅片质量等级的自动分类。半导体工艺检测利用机器视觉实现制造工艺外观缺陷、晶圆表面缺陷、杂物、裂纹、切割和碎裂的3D和2D检测。实现封装工艺、晶圆缺陷、胶缺陷、焊线缺陷、焊球缺陷、杂质的检测。成品外观检测主要包括划痕检测、电池检测、卡槽检测。2.3 3D视觉最有前景的场景:机器人引导, 高精度测量和缺陷识别。3D视觉技术的性能在检测精度和光照环境方面远优于2D。2D视觉技术在工业自动化过程中的应用已经超过30年。2D视觉是由物体的平面轮廓驱动的,可以在二维层面上解决读码条识别、边缘检测等一些问题,无法获得曲率、空间坐标等三维参数。完全可以用于外观检测识别,但检验精度较低。3D视觉技术在2014年左右开始兴起,利用立体摄像机、激光雷达等技术,精确采集物体的3D信息,对光照条件、物体对比度等客观因素的适应性更强,可以实现2D视觉无法或不能实现的功能,如检测高度、平面度、 产品的体积和三维建模。更适合半导体、汽车、3C等领域的高精度工业要求。要求的检测精度达到< 1微米..三维工业视觉提高了检测和测量的精度和效率,扩大了质量控制在线检测的应用范围,在机器人引导(移动机器人+三维视觉,机械臂+三维视觉)场景中具有广阔的应用前景。目前,三维视觉最有前景的工业应用场景是高精度测量和缺陷识别、高速高精度在线检测、自动装配、视觉引导机器人等。a .扩大在线质量控制检测的应用范围:2D视觉技术在低对比度、高反射或透明材料或有阴影的特征方面有局限性。由于这些限制,即使在最先进的制造商的工厂中, 只有30-40%的组件在线测试。三维视觉可以解决这些问题,扩大在线质量控制检测的范围。b .协同机械手的柔性装配:目前装配是大多数行业自动化程度最低的环节之一,涉及到精确的标定、各种工件和潜在的频繁变化。在汽车制造中,焊接过程的自动化程度在90%左右,而装配的自动化程度不到5%。3D视觉是使用协作机器人和其他先进自动化设备的下一代柔性装配系统的使能技术。c .仓库自动化和随机拣箱是应用难点。存储、检索、分类和码垛都需要3D视觉来确定包装尺寸。拣箱是工厂和仓库的基本功能。近年来, 生产和物流的自动化程度有了很大的提高,但是随机拣箱(多种类型的物体重叠堆积,而不是排列在一个平面上)的场景还是无人操作。三维视觉不仅可以识别物体,还可以让机器人识别物体的姿态,通过视觉伺服控制机器人工作。
D.视觉引导机器人:引导定位可分为移动机器人+机器视觉和机械臂+机器视觉两条路线。在几种环境传感技术中,激光雷达和毫米波雷达各有明显的优缺点。激光雷达精度高,探测范围广,可以构建机器人和周围环境的3D信息,但受天气干扰强。毫米波雷达对烟雾、灰尘等环境有很强的穿透力,所以在特殊环境下测距信息会更好,但测距精度会更弱。视觉感知可以有效弥补其他传感技术的不足。立体视觉加毫米波对于可靠性要求高的场合也是很好的组合, 而且视觉感知的技术成本会比激光雷达低。2.从2D成像到3D视觉感知是一次技术飞跃。2.1激光三角测量、结构光、ToF、多目视觉等技术共同推动了3D视觉的发展。在3D视觉中有四种常用的技术:激光三角测量、结构光、飞行时间(ToF)和多眼视觉。工作原理是红外激光发射器发射近红外光,经人脸反射后,红外信息被红外CMOS图像处理器接收,信息汇总到图像处理芯片,获得物体的三维数据,实现空间定位。区别在于发射近红外光获取三维数据的方式,激光三角测量利用激光线扫描物体表面,结构光发射散斑, ToF是发射面光源,双目立体成像是通过双目匹配的视差算法。激光三角测量:又称“位移传感器”。这种方法利用激光线扫描物体表面,通过摄像机观察到的激光线的变形分析,获得物体表面各点的深度数据。特点:测量结果可达微米级,但扫描速度和工作范围有限。激光三角测量的高精度和动态测速性能推动了在线检测的快速发展。结构光:带有编码信息的结构光通过光学投影模块投射到物体表面,在被测物体表面形成光条图像。图像采集系统采集到光条图像后, 通过算法处理获得被测物体表面的三维轮廓数据,从而恢复目标物体的三维空间信息。结构光技术是一种主动三维测量技术。特点:由于结构光是主动光,所以具有环境昏暗和夜间可用的优点。不需要根据场景的变化而变化,降低了匹配的难度。但显然在强光环境下会受到干扰,室外基本没有。此外,因为主动结构光被编码,所以同时使用多个结构光相机也是有问题的。在实际测量中,小角度一侧结构光反射严重,经常出现大黑洞。当然,黑色物体和玻璃是结构光的大缺陷, 一个吸收光线,另一个传输光线。飞行时间(ToF):在给定固定光速的情况下,通过传输和反射光信号之间的时间延迟来测量。为了精确测量时间延迟,通常使用短光脉冲。这项技术基本类似于3D激光传感器的原理,只不过3D激光传感器是逐点扫描,而TOF相机是同时获取整个图像的深度信息。特点:与结构光相比,ToF不需要对光纹进行复杂的分析,只需要反射回来,鲁棒性大大提高,深度信息还原程度比结构光好很多,点云完整性更好。主要表现在:深度图质量高于结构光,抗强光干扰能力更强,精度更高。对于玻璃, 是光学技术的死穴,只能靠其他技术来弥补。ToF速度很快,但精度只有毫米。ToF技术既困难又昂贵。立体视觉法:指从不同视点获取两幅或多幅图像,以重建目标物体的三维结构或深度信息。目前立体视觉3D可以通过单目、双目、多目实现。双目机器视觉是指利用两个RGB彩色摄像头采集图像,在后端通过双目匹配和三角测量计算深度图的技术方法。双目技术利用物体本身的特征点。由于每次双目匹配面对的图像不同,需要重新提取特征点,计算量非常大。双目是一种被动三维测量技术。特点:硬件复杂度低, 并且在光线较弱或者目标特征不明显的情况下几乎不可用。同时,双目摄像机的计算复杂度也很高。对硬件计算性能的要求极高。由于对计算能力要求较高,双目摄像机很少用于嵌入式系统设备,在一般场景下表现不佳,比如slam导航等应用。但是在工业自动化和x86系统中,双目摄像机的应用非常广泛,因为在工业自动化中,双目摄像机只需要解决特定场景中的特定问题。2.1移动机器人的指导性技术方案未定,将高精度测量中常用的3D视觉的关键应用场景和特点总结如下:a .检测,尤其是高精度缺陷检测场景(典型代表:半导体图形化晶圆检测) 是要求最高的技术,主要使用激光三角测量技术。b .生产线在线检测是最难的,需要复杂的解决方案,以适应不同的生产场景,在振动和环境光干扰下实现高速度和高精度。主要应用技术有激光三角测量技术和结构光技术,激光三角测量技术还可以用于生产线上的柔性装配领域。c仓库自动化:包括尺寸测量、环境感知、手势识别等功能。,主要利用结构光技术和单目/双目视觉技术,随机拣箱主要利用结构光技术。这些功能也将应用于消费场景, 比如手机的人脸识别,手势识别。d .机器人视觉引导是目前最有前景的场景。因为环境感知视野广,速度快(用于实时视觉伺服),所以最终的技术路径还没有确定。目前使用的主要技术有结构光、ToF和立体视觉。2.3人形机器人主要采用ToF和立体视觉Tesla采用纯视觉方案,其他人形机器人厂商大多采用深度摄像头+激光/超声波雷达的方案。特斯拉机器人的3D传感模块以多视觉为主,波士顿动力采用lidar+深度摄像头,Ubuntu采用基于多视觉传感器的3D视觉定位。小米机器人的mi深度视觉模块由小米设计,欧菲光研发,其机器视觉深度相机模块主要由iToF模块、RGB模块和可选的IMU模块组成。特斯拉采用纯视觉方案, 硬件成本低,对软件算法要求高。特斯拉人形机器人共携带8个摄像头和一个自主研发的FDS芯片,实现360度图像识别。FSD系统可以实现每1.5毫秒2500次搜索的超高效率,预测各种可能的情况,并在其中画出最安全、最舒适、最快的路径。特斯拉自主研发了基于神经网络的训练方法,拥有一支由来自世界各地的人才组成的约1000人的数据标注团队,每天在“向量空间”中对视频数据中的物体进行标注。在善于抓住细节的手动标注和更高效的自动标注的配合下,向量空间只需要一次就可以自动标注所有摄像机的多帧图像。这为特斯拉带来了数百亿有效且多样的原始数据, 而这些数据将用于神经网络训练。多任务学习神经网络架构可以拼接8个摄像头获得的图像,完美平衡视频图像的延迟和精度。通过手动或自动标记环境以及运动和静止的物体,系统将逐帧分析视频,了解物体的深度、速度等信息,然后将这些数据交给机器人进行学习,绘制出3D鸟瞰图,形成带有空间和时间标签的4D“道路网”,呈现道路等信息,从而帮助车辆/机器人更准确地把握行驶环境,找到最优路径。国内外仿人机器人厂商大多采用激光雷达+深度视觉的方案。激光雷达方案比纯视觉方案成本高,软件算法要求比纯视觉方案低。你必须选择的视觉模块是多视觉的, 小米的Mi是iToF+RGB,追求是ToF+结构光,致远A1是RGBD相机。3.3维视觉行业格局:2D视觉头厂商主导精密检测测量,国内初创企业深度介入移动机器人制导场景3.1维工业视觉市场格局:专业化、定制化趋势明确。消费电子领域是目前3D视觉感知最大的应用领域,占比近40%。2017年,苹果分销的X搭载了前置3D结构光视觉传感器,标志着3D视觉感知技术在消费领域的大规模普及。3D视觉感知技术在智能手机、移动支付、AIoT、人脸支付、智能门锁、3D看房等领域逐渐加速。代表公司:1)结构光:苹果(),微软-1,英特尔,奥比中光等。2)双目视觉:Leap,ZED, DJI等。、代表应用和产品:DJI创新无人机搭载了Pro/Pro+、2Pro/Zoom等双目视觉系统。3)光飞行时间:微软-2、PMD、联想Phab等。代表应用和产品:2020年,苹果推出iPad Pro和12 Pro配备基于dToF技术的扫描仪;华为、魅族等厂商相继推出搭载基于iToF技术的后置3D视觉传感器的智能手机,基于不同技术路线的产品日益丰富;4)激光雷达:归谷歌所有 公司配备激光雷达和多传感器的无人驾驶汽车。在工业领域,根据不同的应用场景定制3D视觉。机器视觉需要适应其他自动解决方案。在行业的垂直生产过程中,零件的类型(材料、形状、尺寸、位置和外观)、精度公差、生产效率和工作范围都是不同的。 这就引出了视觉产品的定制需求。在现实世界中,即使是同行业的相同工艺,两个工厂也会有不同的生产环境(光照、振动、几何配置等。)并且需要不同的视觉产品和配置。因此,3D视觉的AI模型很难标准化和通用化,针对不同自动化生产领域的专业化定制成为3D视觉的发展趋势。3D工业视觉的主流玩家有两种:国外头部厂商和原2D视觉领域的国内初创厂商。由于定制化程度高,国内外品牌应用场景存在明显差异:国外头显厂商在工业高精度、高效率测量识别领域具有优势,在原2D视野内 而国内3D视觉厂商在机器人视觉导航领域处于领先地位。同样,由于工业场景的高度定制化,以及对高精高效解决方案的需求,工业级3D视觉产品的定价更高,盈利能力更强。3.2借助供应链优势和行业专有技术积累,原2D视觉厂商进一步加深在测量识别领域的护城河,原2D视觉领域的国内外头部厂商,依托强大的供应链和项目实施经验,3D技术的升级将进一步加深其护城河。在工业领域,3D通常与1D和2D技术结合使用,领先的工业机器视觉制造商已经将该技术从2D扩展到3D。基于深厚的行业知识积累, 原2D视觉头厂商的竞争优势将进一步加强。3D相机方面,得益于镜头和CMOS传感器的领先技术,Keyes和康耐视的检测间隔可达0.6秒,Keyes和康耐视相机的检测重复精度可达0.5微米,优于海康0.06mm相机。Kearns算法搭载AI芯片,具有自动特征提取算法、机器学习算法和预处理功能。康耐视Deep软件基于AI神经网络模型运算,他们的3D定位精度是2.5微米,而海康算法的3D定位精度是6微米..在精密检测和测量的应用上,原2D视觉头厂商具有很大的优势:机器视觉的领先厂商主要应用于汽车、3C、锂电池、半导体晶圆检测等高端领域 芯片检测等。,而且产品价格比本地产品高。借助工业2D视觉强大的技术和客户积累,卡恩斯、海康威视、Opter等头部厂商在这个场景中取得了巨大的成功。大多数国产品牌的3D视觉更多地专注于低端场景,如物流、工程机械、金属加工、3C电子等,毛利率低,对产品精度要求相对较低。例如,Mecarmand和elson等公司专注于机器人引导的摄像机;途洋科技、海康机器人产品主要用于视觉定位;深度视觉智能产品主要用于精密测量和检测;盛翔技术侧重于检测场景等等。一些国内领先企业通过提高核心零部件能力来扩大产品线, 而他们的应用场景也不断向高端领域渗透。代表厂商有豪普特、凌广韵、大恒影像、Hikon机器人等。3.3国内初创企业深耕机器人引导场景,优势明显。国内3D工业视觉市场处于发展初期,产业链不成熟,尚未形成稳定的市场局面。国内3D视觉企业大多是初创企业。国内3D视觉企业主要专注于下游设备组装和集成,凭借解决方案的性价比、深度定制和服务能力获得客户。但他们的主要核心部件(机器人运动算法、应用进程包、核心3D摄像头)主要是购买的。在引导应用中,国内初创厂商以此为家快速设计方案并落地, 占据优势。引导定位分为移动机器人+机器视觉和机械臂+机器视觉两条路线。大多数3D视觉制造商专注于分拣和用机械臂装卸。代表企业有:美卡曼、图洋科技、熵科技、迈德威视、智翔光电、爱尔生、海康机器人、迁移科技、鲁本科技等。该产品主要用于机器人视觉定位。目前国内以视觉为主要导航方式的移动机器人很少。主要厂商有:海康机器人、智能科技、路创新、蓝芯科技等。GGII调查数据显示,2022年,中国3D工业相机销量超过5万台,其中机器人引导的3D相机出货量超过8500台。部分优秀企业基于自身核心技术突破,向其他应用场景拓展。2022年, Mech-Eye是Meckamander推出的一款用于检测/测量场景的微米级精密工业3D相机,应用于汽车零部件生产装配过程中的位置、间隙、面差的检测/测量。2023年,海康机器人发布光伏组件母线视觉检测解决方案,可满足串EL外部检测、排版定位、接线盒焊后检测等需求。同年,途洋科技推出工业相机——E1,用于无序分拣、计量检测等多种场景。4.三维视觉的核心部件:努力实现自主可控的三维视觉成像。该方案是基于2D相机的结构和软件重建,这些相机大多是作为零件购买的。3D摄像机由四部分组成:红外发射器(IR LD or),红外摄像机(IR CIS或其他光电二极管), 可视摄像头(Vis CIS),图像处理芯片。红外发射器向物体表面发射红外光,红外传感器采集物体的深度图像(Z轴信息),可见光传感器采集物体的平面图像(X轴和Y轴信息),通过图像处理芯片获得三维位置信息。红外相机需要专门的窄带滤光片,结构光方案还需要在发射端增加一个光学棱镜和光栅,增加一个红外相机进行双目立体成像。
4.1 3D光源:红外激光发射器2D光源:竞争激烈,豪普特是国内最具竞争力的光源。公司一个。机器视觉光源对照度、均匀性、稳定性三个核心指标的要求更高。按分类,光源可分为LED光源、卤素灯、高频荧光灯和激光光源。全球市场份额超过5%的公司是日本的CCS和Haupt,CCS全球市场份额超过10%。第二梯队的市场份额在1%-5%之间,代表企业有美国,Inc,中国锐视光电,中国康士坦茨,中国嘉利等。第三梯队的市场份额不到1%,代表企业有中国的Wodup和中国的朗威光电。豪普光源产品涵盖普通可见光和不可见光, 而不可见光产品涵盖了波长从~的紫外光和红外光,共38个系列,近千个标准化产品。光源控制器包括模拟控制器和数字控制器,后者可以通过PC远程控制。目前CCS标准光源的最小尺寸和厚度为3mm,Haupt中各类光源的厚度在10mm-20mm之间..在3D相机中,光源是红外激光发射器,发射图像的质量对整体识别效果至关重要,是近红外光源的最佳方案。红外线的主要波长是100 ~ 100nm。目前的相机图像传感器对上述红外光的灵敏度较差,需要更强的光来感知,这就要求红外发射器的电流更大,功耗也更大。下列波长太接近可见光, 极易受太阳光干扰,所以一般红外波长选在~处。能提供800波段的近红外光源有三种:红外LED、红外LD-EEL(边发射激光二极管)和垂直腔面发射激光器。早期的3D传感系统一般使用LED作为红外光源。但是由于LED没有谐振腔,光束更加发散,耦合性也不如以前,所以演变成了LED到LED的转变。有很多厂家。全球主要供应商包括ⅱⅵ、ams等,他们在移动终端方面处于研发的前沿。国内制造商:武汉广讯,山东太平洋,深圳国源、国星光电、华工科技、光迅科技、三安光电、赣兆光电、 华灿光电和瑞熙科技有低端设计和生产能力。长春光机所在技术研发方面具有一定的竞争力。结构光需要图像进行空间识别,所以需要定制DOE衍射光学元件(苹果,仙境光电,傅晶科技,宇光科技等。)和WLO晶圆级光学元件(AMS、仙境光电、蔡羽、水晶科技等。).红外传感器是距离传感器的高端版本,主要由AMS/和意法半导体主导,国内没有企业切入。一直致力于微型化t of传感器的研发,2016年被AMS收购。TI在这一领域也有布局。4.2 3D红外摄像机红外摄像机主要包括:光学镜头、 红外窄带干涉滤光片和红外CMOS传感器。以手机摄像头的成本构成为参考,CIS是最有价值的部分,模组封装占20%,光学镜头占19%。海外品牌垄断工业镜头高端市场,国内厂商成立涉足高端领域。红外相机对光学镜头的要求没有可见光相机高,对光通量、畸变校正等指标的容忍度较高,大多采用成熟的普通镜头。可见光相机,使用普通镜头模块,用于拍摄2D彩色图片。制造商主要有德国施耐德、卡尔·蔡司、美国KOWA、意大利CBC光电公司等。, 基本垄断了国内高端市场。卡尔·蔡司与ASML紧密合作,利用光刻透镜技术引领半导体制造业。施耐德等主流厂商的工业镜头广泛应用于晶圆切割、精密零件检测、航空航天、医学显微镜等诸多领域。一些国内工业镜头企业已经能够提供全系列的工业镜头,并开始涉足高端市场。例如,毛雷尔光学的产品可以满足不同条件下半导体测试的要求。深圳郑东光学的扫描线系列应用于华为、比亚迪、富士康的生产检测。4.3窄带滤光片在近红外识别系统中,窄带滤光片是主要的滤光片。对于3D视觉来说, 红外相机和RGB相机在滤色器上有很大的区别。传统的RGB可见光相机需要使用高通红外滤光片过滤掉不必要的低频近红外光,避免红外线影响可见光产生假色或波纹,同时可以提高有效分辨率和色彩还原。但为了不受环境光干扰,红外相机需要使用窄带滤光片,只允许特定波段的近红外光通过。目前近红外窄带滤光片主要采用干涉原理,需要几十层光学镀膜,技术难度和产品都比RGB吸收滤光片高。价格。世界窄带滤光片主要生产厂家:美国水晶光电。其他制造商包括Brebold Optics()、Metilon Precision Optics() 和波长技术()。4.4 CMOS图像传感器CMOS图像传感器,索尼三星销量占全球市场55%,格科威全球出货量第一。从硬件结构上看,2D工业相机主要由图像传感器、驱动器、时序发生器和传输接口组成。长期以来,智能手机保持着对CMOS的第一需求,而随着智能驾驶技术的不断升级,汽车已经成为增长最快的需求侧应用。索尼凭借自研堆叠式CMOS传感器等技术领先于全球厂商,下游覆盖手机、汽车、智能制造、安防物流等多个应用领域。三星在3C电子和汽车领域紧随其后, 而国内厂商如格科威、豪厄尔主要在手机等领域布局中低端产品。索尼和三星在全球市场份额长期领先全行业,2022年合计将达到全球55%。国产厂商格科微CMOS出货量超过索尼。2021年出货量22亿件,连续三年全球第一。其产品更侧重于低端领域,所以销量离索尼还有很大差距。由于收购了豪威,威尔股份销售额位居世界前列,国内厂商有比阿迪微电子、瑞芯微、思必克威、长光陈欣等。3D图像处理芯片技术壁垒高。目前全球少数芯片巨头可以提供这类产品,包括意法半导体。德州仪器,英飞凌, 等等。3D图像处理芯片需要将红外CIS采集的位置信息和可见光CIS采集的物面信息处理成具有深度信息的单像素3D图像,完成3D建模。数据处理和计算的复杂度高于半个ISP图像处理芯片,壁垒更高。5.AI赋能机器视觉,提升特定场景的分析能力,拓宽场景5.1中可视化软件的开发模式:软件平台+可视化包机器视觉软件和新的开发模式是软件平台+可视化包,针对不同的流程场景不断开发迭代流程包。机器视觉软件的具体指标主要包括定位算法模块数量、算法性能、软件灵活性和易用性。视觉软件XG-X在算法准确性和操作方面处于领先地位, 支持的三维精度可达2.5μm..国产软件算法正在努力追赶,积累了无数垂直领域算法。Hikon开发了超过170个算法工具包,Haupt和凌云光学机器视觉算法平台已经收录了100+个算法工具包,支持6微米的3D精度..
5.2 3D视觉和AI技术的应用提高了对具体场景的分析能力。视觉识别过程分为两条路线:训练模型和识别图像。a .训练模型:样本数据包括阳性样本(包含待检测目标的样本)和阴性样本(不包含目标的样本),视觉系统使用算法从原始样本中选择和提取特征来训练一个分类器(模型);此外,由于样本数据成千上万,提取的特征翻倍,为了缩短训练过程,人们会人为地加入知识库(提前告诉计算机一些规则)或者引入限制条件来缩小搜索空间。b .识别图像:首先对图像进行信号变换和降噪预处理, 然后使用分类器来检测输入图像的目标。一般的检测过程是用一个扫描子窗口在待检测的图像中不断的移动和滑动。子窗口的每个位置都会计算该区域的特征,然后用一个训练好的分类器对特征进行筛选,确定该区域是否为目标。目前全球最大的图像识别数据库由斯坦福大学人工智能实验室提供,对于医疗等细分行业需要收集相应的训练数据。为市场提供开源算法框架,为初创企业提供视觉识别。公司提供主要算法。目前,工业机器视觉系统主要采用基于规则学习的思想。以缺陷检测为例,首先, 人们需要总结缺陷的类型,提取特征来判断各种缺陷。然后通过大量的带特征的样本训练,计算机就可以区分这些特征,判断是否存在缺陷。然而,当检测场景变得复杂时,基于规则学习的思想已经不能很好地满足要求。基于深度学习的机器视觉不仅可以判断缺陷,还可以理解缺陷的共同特征,预测新的缺陷类型,从而实现对更复杂场景的更好分析。深度学习技术的应用将对计算能力和存储能力提出更高的要求。5.3结合大模型实现降本增效,推动商业落地视觉大模型更大范围的技术突破,赋能机器视觉的创新突破。在过去, 工业机器视觉系统主要针对垂直场景下的少量数据训练小模型。干模型的教导量是有限的,因此模型能够处理的问题的复杂性是有限的。在这种训练模式下,如果要将工业机器视觉应用到新的场景中,需要更多的相关场景数据,并对模型进行重新训练,带来了更高的应用推广成本,也不利于大规模商业化。视觉大模型赋能的机器视觉行业变革主要体现在两个方面:a .数据成本和训练成本高的场景有望降本增效。大模型在广泛的下游场景中具有优异的能力,因此有望大大降低定制开发产品的成本, 提高机器视觉产品毛利率,加速应用场景拓展。b .机器视觉因样本不足而难以应用的场景将被拓展。得益于大模型在零样本或少量样本上的优异表现,机器视觉将在这些领域得到拓展,比如机器人领域从代码驱动到视觉驱动,流程工业场景等等。从卷积神经网络到SAM和通用视觉模型,AI帮助机器视觉提高效率。2012年Alex等人提出卷积神经网络后,业界不断改进卷积神经网络算法来处理计算机视觉任务,广泛应用于边缘检测()、特征提取(SIFT)、图像分割等领域,解决了传统2D算法错误率高(超过15%)、重叠包排序困难、 分拣速度慢等。但仍存在影响计算精度的问题,如训练数据过大、无法处理时间序列数据、容易过拟合等。业界逐渐提出了基于编解码概念(-)的全卷积神经网络算法和VIT模型,从像素分割层提高算法精度。2023年4月,Meta和致远分别发布了通用图像分割模型(SAM)和,增加了交互性和实例的自动推理学习,大大提高了监督模型的效果。为了降低成本,业界提出了弱监督学习算法。全卷积神经网络算法和编解码概念都是全监督模型,很难在训练阶段做出像素级精确标注的图像并大批量获取, 所以前期在各种工业场景推广是很贵的。本文在原模型中加入简单的标记作为监督信息进行计算,并将结果与标记进行比较,再次迭代上述步骤,直至精度收敛。弱监督算法主要基于三种弱标记材料:帧级、涂鸦级和图像级,这将大大降低预先训练SAM的成本,大模型有助于提高图像分割的准确性。2023年4月,Meta和致远分别发布了通用图像分割模型和,两者整体架构采用了编解码结构。基于ViT架构,将不同的切分任务统一到一个通用的上下文学习框架中进行训练,并通过提供实例自动推理和完成切分任务。AM将提示()引入模型, 这增加了用户的交互性。在接受了数百万张图像和超过10亿个掩膜的训练后,能够根据交互提示返回有效的分割掩膜。SAM模型在切割任务的不同具体场景下表现出很强的泛化能力,在零样本和少量样本的基础上,可以很好的完成不同的切割任务;SAM模型还具有高精度自动标注的能力,降低了数据标注的成本。SAM在医学成像、视频、数据标注、三维重建、机器人、视频文本定位、图像字幕、多模态视觉和开放词汇的交互式分割等广泛的图像处理应用中具有巨大的潜力。(本文仅供参考。不代表我们的任何投资建议。有关信息,请参阅原始报告。)精选报告来源:【未来智库】。