2023-09-22

基于5G MEC+边缘智能的AI训练推理边云协同测试床

分享:

1.1 引言/导读

云端和边缘端需互相补充,协同训练推理,构建云端和边缘端连续的学习循环,保证业务长期可靠稳定地运行。云边协同训练推理,解决工业边端算力不足;数据无需上传云端,解决工业客户数据隐私问题;AI协同服务按需定制,解决工业智能化场景碎片化问题。

 

1.2 关键词

边云协同平台、边缘智能、协同推理、模型优化

 

1.3 测试床项目承接主体

1.3.1 发起公司和主要联系人联系方式

中国电信:丁鹏,dingpeng6@chinatelecom.cn  

1.3.2 合作公司

瑞斯康达:提供智能工厂典型应用场景环境,参与现场测试床验证

 

1.4 测试床项目目标

1.4.1 测试床项目目标

基于柔性制造PCB焊点质量检测验证:已有大量PCB焊点质量检测数据集,在此基础上建立PCB焊点质量检测模型,通过测试床进行模型的持续优化,为柔性制造PCB焊点质量检测提供基于5G MEC+边缘智能的AI跨边云协同训练推理测试床。

定制化AI协同服务验证:基于智能边缘设备,实现基于5G MEC+边缘智能的AI边云协同训练和协同推理,就近为端侧提供算力支持和模型持续优化支持,保护数据隐私,为用户持续提升智能化品质。

1.4.2 测试床计划解决哪些问题、价值点

保障企业保密数据本地化:保障企业数据不出边缘节点即可参与模型训练。

让服务可定制,降低资源消耗:提供适合业务需求的智能边缘设备AI协同服务,即装即用,降低资源消耗。

提升模型效果:云边协同,循环促进的训练推理模式,保证模型的长期可靠运行。 

 

1.5 测试床方案架构

1.5.1 测试床应用场景

测试床在企业本地部署通用服务器或MEC,也可使用运营商云主机或公用MEC平台,作为测试床云端,使用定制化的智能边缘设备作为边缘端,兼容现有的AI框架,提供跨云边协同训练推理框架,并使用增量学习、联邦学习和迁移学习等能力提供可优化的AI模型服务。使用模型压缩等技术实现云边协同推理,保证业务的稳定可靠运行。

测试床适用于支撑智能工厂中的工业智能应用场景,例如焊点检测、产品质量检测、工人非法越界检测、安全帽检测、工服检测、人脸识别等。

1.5.2 测试床架构

1. 在体系架构的位置

本测试床在工业互联网功能视图平台体系框架中的位置如下图所示,通过边缘层的数据接入、数据预处理和智能分析实现边缘侧的数据处理和分析,通过PaaS层和应用层的资源部署与管理、数据管理与服务、模型管理与服务和工业创新应用实现模型优化和更新、协同推理。过程实现数据的优化闭环,形成云边模型连续的学习循环。

image.png 

 

2. 在实施框架的位置

工业互联网平台实施框架中,本测试床内容包含边缘层的数据预处理和边缘智能应用部分,企业层在企业MEC上部署平台的云端包括数据模型、工业模型的管理等。在产业层提供多企业MEC协同接口,支撑开展资源配置优化和产业生态的构建。实施架构如下所示:

image.png 

 

3. 本测试床架构

本测试床主要提供低成本、高性能、易使用、隐私保护的边缘智能,满足企业数据本地化(数据不出厂区)和即装即用的定制化服务。测试床架构如下图所示:

image.png 

1.5.3 测试方案

基于5G MEC+边缘智能的AI跨边云协同训练推理测试床功能架构如下图所示

image.png 

1. 自动化异构边缘适配

定制化边缘AI服务与边缘智能设备、边缘智能硬件厂商进行适配,实现自动化的边缘资源适配。

2. 实现边缘AI基础框架

实现边缘AI 管理,数据集管理,数据预处理,跨云边数据同步,配置管理等。

3. 云边协同训练和协同推理

高效利用云边各类资源。利用模型压缩、困难样本发现等技术实现协同推理;利用迁移学习、增量学习、联邦学习技术实现边缘AI可长期可靠稳定的使用 。实现高性能、低成本、隐私安全的边缘AI系统。基于5G MEC+边缘智能的AI跨边云协同训练推理测试床技术实施方案如下图所示

image.png 

 

1.5.4 方案重点技术

Ÿ 模型优化技术:解决边缘AI模型的训练优化问题,保证模型长期稳定运行。

Ÿ 边云协同训练、协同推理技术:基于现有的边云协同平台打造边云协同训练和协同推理框架,保证业务对时间延时和精度的需求。

Ÿ 轻量化模型分割技术:通过DNN模型压缩技术和模型拆分技术,实现轻量化的边缘模型,适用边缘算力较低的设备

4.5  应用场景

测试床应用:

image.png 

基于5G+AI的零部件质量检测,可在复杂纹理图像及背景干扰下,对零部件外观进行精准分类,大幅减少漏检误检,同时对检测结果数据实时回传训练,形成模型高效迭代闭环,提升检测准确率,解决传统管理痛点,助理提升企业效能。

本测试床将5G MECAI工业视觉能力与产线结合,构建了一套基于5G MEC云边协同+工业视觉检测的柔性制造SMT产线。PCB板进入产线后,分别通过锡膏印刷、SMT贴片焊接、波峰回流焊接等流程后,最终与其他零部件一起通过装配、成品测试以及包装行程成品。流程包括SPI视觉检测、炉前/炉后AOI 视觉检测、产品装配工序视觉检测、产品质量视觉检测和包装贴标视觉检测。

image.png 

1. 协同推理

在焊点质量检测场景中如何使用跨云边协同推理服务。由于边缘资源有限,焊点质量检测性能较低。但是,协同推理服务可以提高整体性能,将通过困难样本挖掘识算法将困难样板上传到云并进行推理。

协同推理对延时要求较高,5G网络与MEC,实现推理结果的超高速率和超低时延。

image.png 

2. 联邦学习

充分利用5G海量机器连接特性满足大量的5G工业网关和工业摄像头的接入,为联邦学习提供可靠的网络基础。

隐私保护、数据安全:不同工厂的焊接技术是属于加密技术,焊点成像采集的图像不能用于共享训练数据,通过联邦学习技术,无需分享本厂的成像数据,保证数据的隐私性和安全性。

解决数据孤岛问题:单一工厂的数据数量有限,焊点技术单一,不能包括多种质量问题的类型,通过云上的参数服务模块对全局模型进行优化合并,充分利用各节点资源,提高模型的精度。

云边联邦学习通信开销问题:真边缘端和云端之间经由网络连接和传输数据(模型、参数)所造成的。

上行通信成本:边缘端将本地计算得到的模型更新传递到云端。

下行通信成本:云端到边缘端传递全局模型。

客户端和中央服务器之间要进行多次通信。在工业的边缘计算场景中,通过有大量设备与云端进行通信。对带宽有较高的要求,要求大量节点能同时将其消息上传到云端。带宽问题会导致训练速度大大减慢,模型的收敛速度较慢。

5G网络中通信速率和带宽得到了极大的提升。依托5G网络,解决联邦学习中的通信开销问题,推动联邦学习在工业领域的应用,是本测试床需要解决的问题之一。

image.png 

3. 迁移增量学习

条件允许的情况下,使用全部数据重新训练模型的效果是最佳的。真实的生产环境是开放并且复杂多变的,在训练模型之前无法获得所有可能情形的有效信息作为训练数据。随着终端运行不断生产数据,新的类别不断产生,已有类别的新实例不断出现,智能边缘能够在获得新数据时,重新训练数据,保证不断优化学习的能力。

利用5G MEC的计算、存储能力,实现模型的自优化、自更新。

image.png 

1.5.5 方案自主研发性、创新性及先进性

技术创新:平台兼容现有的AI框架,通过迁移学习、联邦学习、增量学习和模型压缩等技术实现协同训练和协同推理,解决边缘数据样本少,冷启动、边缘数据隐私问题等,让模型越用越精确。

模式创新5G MEC下沉,降低业务时延;平台在产业层实现多企业MEC协同接口,汇聚产业资源,优化资源配置,有助于构建产业生态。

应用创新:结合不同层级不同环境的计算设备承担不同算力需求的任务,结合企业需求,提供定制化的AI协同服务。

1.6 测试床实施部署

1.6.1 测试实施规划

本测试床实施分为三个阶段:

image.png 

Ÿ 1阶段2021.02-2021.03

开展测试床场景梳理、可行性评估、测试床架构设计等工作。

Ÿ 2阶段2021.04-2021.07

开展测试床实施方案设计、设备选型与环境建设、测试床平台功能测试等工作。

Ÿ 3阶段2021.08-2022.01

开展测试床部署、典型应用场景验证、输出针对焊点检测常间的实施方案等工作。

1.6.2 测试实施的技术支撑保障措施

测试床参与方分工协作,共同支撑与保障本测试床的实施工作:

中国电信股份有限公司研究院负责基于5G MEC+边缘智能的AI跨边云协同训练推理测试床部署与验证

瑞斯康达科技发展股份有限公司负责提供智能工厂典型应用场景环境,参与现场测试床验证等工作

1.6.3 测试实施的自主可控性

          测试床实施各项关键技术均为自主研发,具有良好的自主可控性。

 

1.7 测试预期成果

1.7.1 测试床的预期可量化实施结果

1. 适配异构边缘AI设备适配

实施前:目前的模型在某些硬件平台上无法直接运行,与硬件环境有强依赖。

实施后与硬件设备厂商开展合作,适配设备环境,实现自动化资源适配。

2. 边缘AI协同基础框架实现

实施前:目前平台的云边协同平台未支持各种AI框架、未实现对数据集和模型的管理。

实施后:云边支持TensorFlowpytorchAI端框架、数据集管理、模型管理、跨云边数据同步等。

3. 跨边云协同训练推理构建

实施前:云端训练,边缘推理,边端不支持大模型的运行。

实施后:合理利用云边资源,根据负载,对应用类型实时调度,实现高性能、低成本、数据安全。

4. 增量学习、联邦学习和迁移学习验证

实施前:缺少跨边云AI协同优化框架实施情况

实施:支持多种模型优化方案,保证AI模型长期稳定可靠运行。

1.7.2 测试床的商业价值经济效益

首个具有增量学习、联邦学习、迁移学习框架、协同训练推理的平台:解决边缘智能跨云边协同训练推理落地推广中遇到的AI模型训练等棘手问题。

让工厂用得方便的边缘智能:提供定制化的服务,实现企业的智能化生产与监控,持续优化提升工厂的智能化水平,节约资源,提升效率。

1.7.3 测试床可推广

1. 形成可推广解决方案

可基于5G定制网,以边缘智能为核心,形成面向智慧工厂的AI定制协同服务解决方案:

边缘智能AI跨边云协同服务框架

AI跨边云协同服务产品:工业智能边缘设备+定制化AI跨边云协同服务

面向智慧工厂集成产品:端+++AI协同管理

image.png 

2. 推广垂直行业

以瑞斯康达测试床为基础,向柔性制造行业推广,如网关设备制造、MEC设备制造等。

以焊点检测场景实施为基础,向其他工业智能场景推广,产品质量检测、防静电服检测、人脸识别、安全模识别检测等。

3. 推广路径

• 技术推广:牵头制定行业标准、测试床推广、典型案例推广

• 产品推广:不断丰富边云协同训练推理框架在智慧工厂场景的实施部署

• 服务推广:打造面向智慧工厂边云协同平台培训/展示服务,带动更多行业和企业部署

 

1.8 测试床成果验证

1.8.1 测试床成果验证计划

测试床部署在工厂车间内,在此进行测试床成果的测试与验证。具体时间计划见测试床实施规划时间表。

1.8.2 测试床成果验证方案

1. 边缘智能服务部署验证内容

• 适合工厂特定场景的自研轻量级边缘模型和云模型

• 实现模型管理和数据集管理

• 具有与边缘模型相匹配算力的智能边缘设备

2. 跨云边协同训练推理平台验证内容

• 兼容现有的AI框架

• 具备联邦学习、迁移学习、增量学习模型的协同训练框架

• 具备云边协同推理框架

 

1.9 测试床成果交付

1.9.1 测试床成果交付

Ÿ 具备可定制的边缘智能AI跨边云协同服务,适用于企业/园区等特定场景的需求

Ÿ 自研跨边云协同训练推理平台,普遍适用于工厂智能生产,智能监控等场景

Ÿ 典型工厂焊点检测、安全帽识别和人脸识别等场景的跨云边协同训练和协同推理的智能AI边缘部署方案

1.9.2 测试床可复制

测试具有较好的复制推广性。一方面以瑞斯康达测试床为基础,向柔性制造行业复制推广,如网关制造、MEC设备制造等;另一方面以焊点检测场景实施为基础,向其他场景推广,产品质量检测、防静电服检测、人脸识别、安全帽识别等。

1.9.3 测试床开放

测试床可开放给更多通讯提供商、运营商和制造企业共同参与测试床验证与推广工作。

1.10 其他信息

1.10.1 测试床使用

欢迎所有的AII成员企业参与和使用本测试床项目。然而,在初始阶段,由于试验站点的访问权限有限,本测试床将仅限于现有的合作伙伴。之后,本测试床将逐步开放给更多AII成员企业使用

1.10.2 测试床知识产权说明

         中国电信与瑞斯康达科技发展股份有限公司共同测试床的建设、运营以及使用拥有产权。

1.10.3 测试床运营及访问使用

         测试床的部署和运营将在瑞斯康达工厂进行。现阶段访问控制和管理权限仅限于测试床参与企业。

1.10.4 测试资金

测试床的资金将来自于测试床参与企业。

1.10.5 测试时间

1阶段(2021.01-2021.03):完成测试床场景梳理、可行性评估、测试床架构设计等工作。

2阶段(2021.01-2021.07完成测试床实施方案设计、设备选型与环境建设、测试床平台功能测试等工作。

3阶段(2021.08-2022.01完成测试床部署、测试床典型应用场景验证、输出针对焊点检测场景的实施方案等工作。

测试床当前进展:

1. 测试床输出成果:

Ÿ 具备可定制的边缘AI智能跨边云协同服务,适用于企业/园区等特定场景的需求

Ÿ 自研跨边云协同训练和协同推理平台,普遍适用于工厂智能生产,智能监控等场景

Ÿ 典型工厂焊点检测、安全帽识别和人脸口罩识别等场景的跨云边协同训练推理的智能边缘AI部署方案

2. 测试床地点:瑞斯康达北京工厂

3. 参与者分工:

          中国电信:基于5G MEC+边缘智能的AI跨边云协同训练推理测试床部署与验证

          瑞斯康达:提供智能工厂典型应用场景环境,参与现场测试床验证

4. 部署方案:

image.png 

5. 输出PCB焊点检测数据集

Ÿ 输出标记不同产线的PCB焊点检测数据集一套,并开源发布到华为雅努斯,链接为https://github.com/kubeedge/ianvs

Ÿ 该开源数据集用于5G环境下,协同训练和推理平台的测试验证。

Ÿ 本次pcb检测共使用原始图片集共有484,其中80张作为测试集,训练集和测试集的比例为51,在使用水平翻转,竖直翻转,90度旋转,180度旋转,270度旋转以及缩放后,图片总集合为2904张。

    image.pngimage.pngimage.png

 

6. PCB焊点检测数据集下协同训练模型1

image.png 

Ÿ 输出针对PCB焊点检测数据集下, 增量学习模型代码。

Ÿ 包括协同训练的难例检测算法1套。

Ÿ 测试结果:

1)单机训练时间:

ü 硬件配置:CPU类型26230NIntel Xeon Gold 6230N 20C 125W 2.3GHz处理器)4x10GEGPUTesla V100 32G

ü 2904张图片训练时间:1609

25G工厂生产环境4个边缘节点云边协同增量训练测试结果:

增量训练次数

图片数量

训练耗时

1

126

47min

2

178

64min

3

123

47min

4

199

59min

 

3)单机测试推理结果:


坡度

翘脚

测试目标个数

708

153

正确识别目标个数

623

133

准确率

88.6%

87.3%

平均准确率

87.95%

 

45G工厂生产环境测试结果:


坡度

翘脚

测试目标个数

396

284

正确识别目标个数

342

240

准确率

86.5%

84.8%

平均准确率

85.6%


声明

本报告所载的材料和信息,包括但不限于文本、图片、数据、观点、建议,不构成法律建议,也不应替代律师意见。本报告所有材料或内容的知识产权归工业互联网产业联盟所有(注明是引自其他方的内容除外),并受法律保护。如需转载,需联系本联盟并获得授权许可。未经授权许可,任何人不得将报告的全部或部分内容以发布、转载、汇编、转让、出售等方式使用,不得将报告的全部或部分内容通过网络方式传播,不得在任何公开场合使用报告内相关描述及相关数据图表。违反上述声明者,本联盟将追究其相关法律责任。

工业互联网产业联盟
联系电话:010-62305887
邮箱:aii@caict.ac.cn