OpenAI 在 2022 年 11 月发布了对话型大语言模型 ChatGPT,提供了高度智能化的人机交互体验和极富创造力的内容生成能力,模型一经发布,就得到全世界的广泛关注。在 ChatGPT 火爆以后,中国科技企业纷纷投入大模型的相关工作,包括通信厂商、互联网厂商、AI 厂商,以及很多初创公司,从算力层、平台层、模型层、应用层等各个层面进行全面布局和突破,涌现出华为盘古、百度文心一言、阿里通义千问、科大讯飞星火认知等一批具有行业影响力的大模型产品。
对通信行业来说,大模型技术表现出的技术能力和潜力,让业界普遍认为,大模型技术不仅在自然语言处理、计算机视觉以及多模态领域有广泛的应用前景,在通信网络中大模型技术同样可以大有可为,能够促进通信网络自智能力持续提升。
本文针对通信行业在智能化发展方面的痛点,分析大模型技术的优势,针对大模型技术在无线通信领域,特别是无线通信网络智能运维方向的应用进行分析,重点聚焦在大模型技术背景下,如何将 AIGC 技术和网络运维需求相结合,进行应用场景和模型构建的相关探讨。
随着5G无线通信网络的发展,无线网络的架构日趋复杂,终端类型和业务应用也不断增加,覆盖增强、网络资源管理、干扰提升、跨制式和跨层优化、节能等问题不断突出,多场景、多制式、多目标等问题日趋明显,每一维度的’多’都为网络建设、运营和网络优化带来了更高的挑战。从通信技术本身来说,存在大量传统方法难以进行精确数学建模或者高效求解的技术问题,而AI技术在自然语言处理和计算机视觉等方面的突飞猛进,推动了近年来 AI 技术在通信系统中的广泛研究与探讨,目前的研究热点包括:
从业界广泛的研究和探讨[1][2]进展可以看到,AI技术应用到无线通信网络,尤其是无线空口侧存在以下挑战:
这些问题,导致AI技术在无线网络的空口层面短期难以落地,而业界更多的面向6G无线AI的应用进行探讨和尝试,而目前AI技术在无线网络的实际应用主要集中在智能运维领域,所以,本文重点针对大模型技术在智能运维的应用进行探讨。
从5G无线网络智能运维的角度,如何将AI技术应用于5G无线网络,提升网络的性能和效率的需求日趋强烈,业界已经在规、建、维、优、营等网络智能化方面有大量实际应用。从一方面来说,5G网络架构复杂、参数众多,从另一方面说,5G网络难以获得站点环境、组网环境、用户体验、业务质量等影响网络部署和资源分配的关键因素;而AI技术在特征提取、感知预测等方面具备优势,如何利用先进的AI模型和算法,解决移动通信网络对无线环境、业务体验的感知和预测,从而提升网络性能和业务感知,将是当前阶段的一个急需突破的工作。
从目前OpenAI推出的ChatGPT和之后GPT-4产品来看,大模型技术拥有一些重要的技术特征[3],具体包括:
根据大模型技术展现的这些技术特征,针对无线通信的智能运维应用,大模型技术在以下方面有明显的技术优势:
对于构建电信行业大模型,需要利用行业数据对大模型继续微调或重新训练,以提升模型的专业性。从行业数据角度,通信行业基于标准化的体系架构,是一个高度标准化、数字化的专业领域,已经积累大量的历史数据,经过场景业务梳理和对数据的处理,可以转化为大规模、多样性、高质量的有效训练数据集,在行业数据方面具有构建行业大模型的必要条件。
图1 通信领域的数据优势
虽然大模型技术在无线网络的应用前景广阔,但是,依然存在一些具体的问题和挑战,具体包括:
针对大模型技术,首先基于智能网络三层架构,进行技术拆解。考虑大模型作为统一技术底座,提升功能模块的通用性,改变从异构的单一模块设计弊病到功能模块的内核统一化;形成统一的模型训练和模型下发,提升模型的可迁移性和可靠性;形成统一的评估模型,便于异厂家、异构网络的互联互通。
图2 智能网络架构和解决方案
针对大模型技术在智能运维的应用,考虑在智能运维当中,日志本身就是一种近似自然语言的文本,可以通过大模型技术来加强对日志文本的理解;可以采用预训练和指令学习,根据多场景任务需求,建立统一的平台框架。对于应用场景,以异常检测为例,将日志按照模板进行日志解析和数据构建,利用大模型技术平台进行日志分析,进行告警压降、异常检测、故障预测和诊断等相关任务。图3展示了利用大模型技术针对告警压降场景进行的应用效果,根据告警数据和专家经验构建训练集,将告警日志导入大模型进行告警压降,根据专家规则的数据进行验证,效果良好,表明大模型技术具备日志理解、分析和挖掘的巨大应用潜力。
图3告警压降应用示例
借鉴LangChain技术框架,综合考虑智能运维的场景任务和应用需求,基于大模型技术构建智能运维的平台框架主要包括下面几方面组成部分:
图4 智能运维平台框架
针对大模型在智能运维的应用,包括网络AI大模型支撑的场景和任务研究、网络AI大模型高效集成方案研究、网络AI大模型成效评估体系研究等研究任务。当前阶段,重点考虑利用大模型技术底座,构建多任务统一框架平台,并进行了应用验证。
基于ChatGLM2-6B基础大模型,采用P-Tuning v2方法微调训练,验证大模型技术的推理能力。考虑根因分析和异常检测是运维中最基础和关键的功能,将根因分析和异常检测作为三个单任务构建模型进行验证,测试评估结果如下。
任务 | Prompt格式 | 测试集准确度 |
根因分析 | "prompt": "告警数据有2条,第0条数据中,子原因是人为操作,告警项是RHUB不在位,故障类型是规划RHUB,小区号是NoCELL,发生的时间顺序是3374,第1条数据中,子原因是链路异常,告警项是射频单元不在位告警,故障类型是规划RRU,小区号是NoCELL,发生的时间顺序是20,“ "response": "这条告警数据的根因是链路异常。“ | 97.7% |
"prompt": "告警项有3个,分别是时钟进入异常运行状态,小区退服,XN链路断开。", "response": "这条告警数据的根因是:时钟进入异常运行状态。“ | 90% | |
异常检测 | "prompt": "多维指标数据列表为[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "这条数据异常“ | 87.4% |
进一步的,输入多种任务训练数据,通过微调训练得到混合任务模型,并对该模型进行多任务推理测试,测试评估结果如下。
任务 | Prompt格式 | 测试集准确度 |
根因分析 | "prompt": "告警项有3个,分别是时钟进入异常运行状态,小区退服,XN链路断开。", "response": "这条告警数据的根因是:时钟进入异常运行状态。" | 84.4% |
异常检测 | "prompt": "多维指标数据列表为[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "这条数据异常" | 87.1% |
从验证效果看,基于大模型技术,对比传统技术,单项任务的性能获得明显提升;针对多任务混合模型,大模型技术也呈现出非常优越的性能,说明基于大模型技术具备建立统一的平台框架的可能性。在后续工作中,还将继续尝试更大规模模型,结合微调优化方法,提升现有任务性能;进行更多混合任务评测及性能提升,充分验证多任务统一框架平台的可行性;考虑使用Long Chain外挂网管运维专业知识库,构建AI Agent智能代理,实现运维自动化的跨越式提升。
本文初步探讨了基于大模型技术构建智能运维平台的应用场景和平台框架,进行了分析和应用尝试,我们有理由相信大模型技术在无线网络的智能运维领域具有广阔的应用前景,通过提升网络的智能化和自动化水平,可以极大的提高网络的可靠性、性能和用户体验。
参考文献: