作者:王政、竹梦圆、武欢、陈亚峰
来源:邮电设计技术
摘要:
针对目前通信局房及其内部通信设施资源数字化工作,提出一套完整的基于人工智能的技术方案,详细论述了SLAM、三维重建、三维语义分割、目标检测、OCR识别等技术在通信机房三维重建、机柜设备属性与标签识别等方面的应用。通过本技术方案,实现通信基础设施三维重建、现场环境AR再现及设备信息的自动识别,从而建立和完善通用的行业基础设施三维智能化平台。基于此平台,可助推行业“规建维优营”的工作模式革新,推进无人化勘察运维,为通信工程设计企业的数字化转型打下坚实的基础。
01、概述
近年来,为响应国资委推进国有企业数字化转型的工作部署,中国联通及其下属的通信工程设计单位针对自身业务开展了数字化转型工作。通信工程设计单位的核心业务主要是向通信运营商提供通信工程建设相关的技术咨询、建设方案规划服务及可行性研究报告、工程设计的编制等工作。以往的工作方式主要是由工程师个人或团队配合通信运营商以知识服务的形式完成;通信工程设计的数字化转型是对通信工程设计工作的一次重大革新,它将通信工程设计工作过程中使用到的网络资源数据、业务数据、专家知识数据等以统一的方式集中存储并管理起来,工程设计人员借助信息系统以集中化、结构化的数据为基础来完成通信工程设计的大部分工作。
通信机房及其内部的空调、电源、网络和计算设备等通信设施资源的数字化工作,是通信工程设计数字化的基础。据统计,目前中国联通在全国范围内拥有大机房(面积为300~500 m2)约1万间,基站局房(面积20~50 m2)数十万间。如何快速、准确地实现大量通信机房及其附属通信设施资源的数字化工作,是通信工程设计数字化转型的重要挑战。
面对规模庞大的现网资源,完全由人工完成局房及其设施资源的数字化工作几乎是不可能的;而通过使用先进的人工智能技术,利用三维重建、三维语义分割、目标识别、OCR文字识别等基于计算机视觉的技术手段,则可以较好地完成大规模现网资源的数字化工作;从而构建起通信工程设计数字化所必需的基础资源数据,为通信工程设计企业的数字化转型打下坚实的基础。
本文主要对在通信工程局房及其设施资源进行数字化的过程中实际应用到的人工智能技术相关原理、技术方案、实施过程及应用效果进行探讨说明。
02、数字化勘察作业流程
为完成通信局房及其设施数字化,需建立一套基于人工智能技术的勘察作业流程。该作业流程如图1所示。
a)原始数据采集。需要勘察人员在现场以专用相机拍照方式,采集机房、机柜及设备等的原始图像数据。
b)采用相关深度学习算法工具,生成机房三维模型,并识别机柜内部设备类别、板卡、端口占用等情况,识别内部设备的相关铭牌文字信息。
c)根据机柜或设备编号将采集的图片与实际机房中的机柜或设备关联。
d)根据b)、c)2步,得到机房内设施资源的完整矢量模型,并存储为json格式。
e)人工通过用户界面对矢量模型进行修正或补充,同时将补充的新属性提交至深度学习算法训练过程,不断完善算法识别种类,形成闭环。
03、SLAM技术应用
数字化勘察过程中,勘察人员亲临现场,通过全景相机拍照方式,对机房环境进行数据采集。采集到的数据是后续三维重建算法的基础。首先,为保证重建质量、提升重建精度,需确保全景相机的拍摄场景和采集数据覆盖所有需要重建的区域,否则重建模型会产生空洞、空隙,影响重建信息的完整性。为辅助勘察人员及时发现采集遗漏之处,我们开发了实时预览功能,勘察人员在采集现场可以及时发现扫描遗漏的地方,并及时补扫,避免由于采样缺失导致二次采集,从而提升数据采集效率。其次,三维重建算法同时需要全景相机拍摄的视频关键帧以及全景相机坐标系在世界坐标系下的六自由度位姿(包含3个平移和3个旋转)数据作为输入。视频关键帧在采集过程中即可获得,为了实现采集现场的实时预览及运动载体(全景相机)的实时六自由度位姿计算,本文基于SLAM(Simultaneous Localization And Mapping)算法进行求解。
SLAM,即同步定位与地图构建技术,机器人从未知环境的某点出发,在运动过程中通过重复观测到的环境特征定位自身位置和姿态,再根据自身位置构建周围环境的增量式地图,从而达到同时定位和地图构建的目的。典型的视觉SLAM算法以估计摄像机位姿为主要目标,通过多视几何理论来重构3D地图。为提高数据处理速度,部分视觉SLAM算法首先提取稀疏的图像特征,通过特征点之间的匹配实现帧间估计和闭环检测。目前代表性的工作有ORB-SLAM、VINSMONO等。
这里使用双目全景相机作为传感器,实时跟踪设备的六自由度位姿。通过对采集到的全景图像进行图像处理、提取关键点、追踪关键点,建立关键点之间的关联等一系列操作,可获取历史关键点的关联信息,结合IMU观测到的载体(全景相机)的运动状态,可进行位姿估计,推测物体在地图上的准确位置。这里需建立一个迭代求解的优化问题:精准定位需基于高精度无偏差的地图,但同时高精度的地图需要精准的位置估计来描绘。通过迭代优化,可精确求解出全景相机在世界坐标系下实时的六自由度位姿和环境中稀疏的关键点的3D坐标。在算法后台,存储维护视频关键帧,用于全景相机回到之前经过的区域附近后与关键帧进行对比实现回环,从而对环境噪声在运动过程中不断累加引起的累积定位误差进行修正,降低对定位、导航精度产生的影响。最终生成全景相机坐标系在世界坐标系下的实时六自由度位姿,作为下一环节三维重建算法的输入,同时恢复场景的三维几何结构。
04、三维重建技术
随着信息技术的发展,三维重建技术已日趋成熟,三维技术成果对基础设施资源的呈现更加直观、清晰,其所包含的信息量更大、更丰富,结合AI与三维重建技术适配网络建设、维护、运营领域应用具有较高的技术研究价值。为建立和完善通用的机房三维智能化平台,机房三维可视化、三维辅助勘察设计、现场环境AR再现等业务功能,需对机房及其内部设施资源进行三维重建。
三维重建技术是一种通过图像或视频捕获的视觉信息、定位信息作为输入,获取场景和物体的三维模型的一种技术方法。它主要通过寻找特征立体匹配来恢复稠密的三维点云信息,再通过网格构建的技术从三维点云中提取场景或物体的几何结构。基于三维重建算法可以生成三维点云模型、带纹理的三维网格模型及全景漫游模型,其中三维模型均包括机房内部布置的实体对象的长宽高、基准点坐标、方向等空间定位信息,可与实际场景进行一对一的对应,供网络工程师进行工程环境线上AR漫游和基础设施远程巡检。
目前主流的三维重建技术方案主要包括主动光三维重建和被动光三维重建。这里引入一个概念:光学重建,其分为被动光学和主动光学的重建。主动光重建一般由结构光源发射和接收进行成像,主流方法包括激光扫描法、结构光法、阴影法以及TOF(Time of Flight)技术、雷达技术、Kinect技术;被动光重建则是从多视角获取图像信息,基于视差原理来完成,主流的被动视觉法包括单目视觉、双目视觉、多目视觉等方法。
在研发对机房场景下三维重建算法的技术路线时,本文对国内外较为先进的三维重建设备和技术方案分别进行了测试,发现通信局房的场景与设备,特征点少,且表面构成多为镂空和玻璃,会对激光的发射和接收造成很大的影响。图2展示了对机柜进行激光三维重建的结果,从建模结果可以看到,由于柜门表面镂空,接收的激光信息中产生特征点的缺失,建模结果出现较大空洞,严重影响建模效果和精度;另一方面,如果采用被动光进行建模,虽然数据采集相对全面,但想获得很好的建模效果,需要对建模算法进行进一步的研发与优化。
通过对多种三维重建设备及技术方案进行比较测试,最终选定基于全景相机的被动光三维重建技术方案。具体的,在基于SLAM算法生成的相机位姿基础上,从全景图片序列中恢复场景的稠密三维点云结构。重建流程如下。
a)基于SLAM算法中生成的相机位姿,利用稠密立体匹配技术恢复每张图像的深度图。
b)结合相机位姿,将图像序列的深度图融合成稠密三维点云。
c)采用表面网格提取技术从稠密三维点云中抽取场景的稠密三维网格。
最终通过全景相机采集的视频所抽取的照片序列,以及第3章SLAM算法求解得到的相机位姿作为输入,通过稠密三维重建,生成场景的稠密三维点云和网格模型,其中点云和网格模型的顶点均带有颜色,点云和网格模型的坐标与运动恢复结构算法求解的相机位姿的坐标系一致。然后通过纹理贴图算法,利用多视角的图像序列和相机位姿对三维模型做纹理映射,最终生成带无缝隙纹理贴图的稠密三维网格模型。
在传输机房场景下使用全景相机采集数据并对本方案进行多次测试验证,结果证明在重建精度及重建完整性方面均优于主动光三维重建方案,基本能够满足通信工程数字化设计的要求,可以较好地完成通信机房及其附属设施的三维数字化工作(见图3)。
05、三维语义分割技术应用
在对机房及其内部设施完成三维重建后,还需要对三维模型进行语义分类,以将三维空间中的模型与实际的业务逻辑实体关联起来,实现后续预览、设置属性、图纸生成等业务应用。该功能主要通过三维语义分割技术实现。
三维语义分割是指将场景中的三维模型基本元素进行语义分类,实现对场景内容信息高纬度的理解。通过三维模型稠密语义分割算法,可输出三维点云或三维面片每个单位元素(点云、体素、网格等)所属的语义类别,从而将无业务意义的三维模型与具备意义的业务逻辑实体关联起来。基于语义分割算法,可获得三维空间模型中各个业务逻辑实体的类别、属性等,为三维重建的结果提供与语义理解与知识关联能力。
三维语义分割技术目前主要有2种技术方案。
a)二维语义分割三维融合。通过识别多帧二维图像的语义分割结果,结合图像像素与三维坐标的转换关系,对三维坐标中的点对应的多个二维语义结果进行投票,融合得到最终三维的语义结果。
b)对三维表达进行语义分割。以三维的表达(如点云、体素、网格等)为输入,直接在三维空间中进行语义分割。
这里采用基于三维表达语义分割的技术方案,使用深度学习中全卷积的网络结构,以先编码再解码的方式,实现对任意大小的图像输入的语义分割,网络结构中的多尺度信息融合设计可以让网络对于场景中同一个物体的尺度变化具有更强的鲁棒性,特别是机房场景下,设备的大小可能差别较大,需要对设备尺度具有自适应性的三维语义分割方法。通过将三维点云与语义分割能力结合,可以提供三维场景理解能力。目前已实现对天花板、机柜、柱子、墙面、电源柜等机房内部常见物体的识别(见图4)。
此外,由于机房中的设备在不断迭代更新,需要持续增加模型可处理识别的物体种类。因此为赋予模型在线学习的能力,实现三维语义分割能力的持续扩展,还需构建三维语义分割模型的自学习能力。主要技术流程为:
a)前期需要对设备的类型和型号进行少量的人工交互来进行标注和分类,在此过程中积累数据。
b)基于半自动语义标注器,可以在现有模型识别结果的基础上对新场景进行快速标注,将标注后的新场景扩充到现有数据库中。
c)利用扩充后的数据库训练和更新深度学习网络模型,从而获得更好的识别性能。
d)基于三维语义分割技术的机房及其内部设施的语义理解是通信工程数字化设计中的重点,通过在线学习的方法,逐步实现模型自动化标注和自学习功能,实现整个三维语义分割流程的闭环式优化,同时在此过程中不断积累通信行业基础设施的三维模型数据库,在数字化设计领域保持领先优势。
06、目标检测技术应用(二维)
三维语义分割主要用于完成机房内部设施在三维重建完成后的识别。对于机柜内部放置的设备识别,则需使用二维图像的目标检测技术完成。通过目标检测技术,可实现对机柜内部设备型号、板卡型号及数量、端口占用情况等的识别,从而高效地完成机柜内部设备信息的收集、提取工作。
目标检测算法主要用于找出二维图像中所有感兴趣的目标,确定它们的位置和类别。该类算法一般包括目标检测和分类2个阶段,其中检测阶段通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框;分类阶段则根据目标位置信息,在原始图像中裁剪出相应区域,确定目标类别。
常用的目标检测算法有Fast-Rcnn、YOLO、Reti-naNet等,本项目中采用多种算法结合的方式完成目标检测任务,主要处理流程为:
a)拍摄机柜内设备照片。
b)对照片进行预处理,包括去噪、剪切、拼接等。
c)使用YOLO v5算法检测设备、槽位、板卡端口等目标所在位置。
d)采用ResNet50网络对此类目标进行分类。
采用上述处理流程对机柜内部设备进行识别的样例如图5所示。
通过应用目标检测技术,有效提高了机柜内部信息的识别和统计速度。值得一提的是,机柜中线缆较多或布线不规范导致设备或端口被遮挡,会对识别效果造成影响,目前我们通过人工交互的方法解决,未来我们将结合半监督学习的方法,进一步进行优化。
07、OCR文字识别技术应用
通信机房的机柜、电源、空调及计算机等设备通常贴有运维部门制作的标签或铭牌,通过识别标签或铭牌上的文字内容,使用资源管理、网管等系统的查询接口,可以准确地获取设备的详细信息。铭牌字体一般为通用简体印刷文字,其识别难度远低于不规则的手写字体。采用光学字符识别(OCR——Optical Character Recognition)技术识别机房场景内的关键文字信息,与目标检测技术、外部系统查询接口等配合,可较好地完成设备信息的识别、收集任务。
OCR是指对输入图像文件进行分析处理,识别出图像中文字信息的过程。OCR技术一般包括2个核心步骤:文字检测和识别。基于深度学习的OCR技术可利用模型算法能力,自动检测出文字的类别及位置信息,再根据位置信息,从原图中裁剪出包含文字内容的区域,并自动识别文字内容。
主要工作流程为:
a)采集机房内部多种形式的包含文字的图像。
b)图像中文本行常存在一定角度的倾斜和透视变换,采用EAST模型检测文本行对应四边形的4个顶点。
c)利用顶点在原图中裁剪出对应检测框的位置。
d)采用倾斜矫正和透视变换技术,将裁剪出的不规则四边形转换为矩形。
e)采用CRNN+CTC模型识别文字内容。
OCR文字识别效果如图6所示。
采用OCR技术识别文字信息,解决了人工录入存在的繁琐、低效、易出差错的问题,有效提高了机房内部文字信息的收集效率。不足之处在于,拍摄存在模糊、散焦以及中英文混合的场景,会对识别效果造成影响,下一步我们将通过增加预处理模块、增加采集样本量进行训练、使用业内更先进的商用OCR识别模型等方法进行优化。
08、结束语
借助于三维全景相机等硬件设备及三维重建、三维语义分割、目标检测、OCR等人工智能技术,针对大规模的局房及其设施的数字化工作,我们已经实现了一套完整的通信局房及其设施数字化的技术方案,并在中国联通相关通信工程设计单位得到了落地应用。人工智能技术是实现通信局房及其设施数字化的技术主导,通过人工智能技术,替代了大量原来需要高级技术人员才能够完成的勘察、信息收集、信息提取整理等工作,从而完成了人工手段不可能解决的超大规模局房资源的数字化工作;对我国通信工程设计行业的数字化转型具有重要的借鉴意义。
参考文献
[1] 赵洋,刘国良,田国会,等 . 基于深度学习的视觉 SLAM 综述[J]. 机器人,2017(6).
[2] 郑太雄,黄帅,李永福,等. 基于视觉的三维重建关键技术研究综述[J]. 自动化学报,2020,46(4).
[3] 范柏江 . 点云数据的三维重建与跟踪注册技术的研究与实现 [D]. 成都:电子科技大学,2019.
[4] 陈炎,杨丽丽,王振鹏 . 双目视觉的匹配算法综述[J]. 图学学报, 2020,153(5):18-24.
[5] 廖中平,蔡晨光,陈立. 基于激光点云的真三维模型在GIS中的应用[J]. 地理空间信息,2020,135(11):7+59-61.
[6] 景川. 基于深度学习的三维点云语义分割研究[D]. 西安:西安电子科技大学,2020.
[7] 施泽浩,赵启军 . 基于全卷积网络的目标检测算法[J]. 计算机技术与发展,2018,28(5):55-58.
[8] 王慧婷,董天阳,张侠,等. OCR技术在报账自动化中的应用研究 [J]. 科技经济导刊,2020,732(34):41-42.
[9] 姜嘉佳. OCR技术在报刊加工中的应用分析[J]. 科技传播,2019, 11(10):159-160.
[10] 夏昌新,莫浩泓,王成鑫,等. 基于深度学习的图像文字识别技术研究与应用[J]. 软件导刊,2020,208(2):133-137.
[11] 朱曦阳,张春,张德兵. 智能机房监控系统中损失函数与图像合成的优化[J]. 微电子学与计算机,2019,36(1):43-46+51.
[12] 严春满,王铖 .卷积神经网络模型发展及应用[J]. 计算机科学与探索,2021,15(1):27-46.
[13] 任江涛,李定主,屠惠琳 . 基于训练网络的目标检测方法及应用 [J]. 火力与指挥控制,2020,45(4):173-177.
[14] 白梦璇,李帅阳,齐立萍. 基于深度学习的目标检测综述[J]. 科技视界,2020(9):153-154.
[15] 邝熠,陶果,朱玉洁,等. 基于深度学习的目标检测算法研究与应用[J]. 计算机产品与流通,2020(1):241.
作者简介:
王政,中讯邮电咨询设计院首席创新官,主要研究方向为计算机视觉、增强现实和机器人;
竹梦圆,毕业于清华大学,助理工程师,主要从事计算机视觉、视频AI领域的算法研发工作;
武欢,毕业于南开大学,助理工程师,主要从事人工智能、企业信息化应用等领域的系统研发工作;
陈亚峰,毕业于武汉大学,高级工程师,主要从事信息化工程建设及咨询、软件开发、云计算研究等相关工作。
本文转自:邮电设计技术,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。