随着人工智能的快速发展,大模型的应用正逐步改变各行各业的面貌。在网络安全这一复杂且日益重要的垂直领域,亚信安全再度彰显行业领导力,自主构建了高质量、多模态的网络安全专属数据集——信立方AICube-Sec数据集,并基于该数据集,亚信安全信立方安全大模型在评估中取得了卓越成绩。
大模型的核心能力来源于海量数据的训练,但在高度专业化的网络安全领域,单靠通用数据显然不足以满足需求。在大模型训练中,数据集扮演着至关重要的角色,它就像是AI的“教材”,让模型能够从中学习并掌握知识。构建专属的高质量数据集,不仅能提升大模型在垂直场景中的适应能力,还能验证其在真实业务中的实用价值。
网络安全领域的复杂性体现在多样化的威胁场景和快速演变的技术环境中。大模型只有通过专业数据的学习,才能具备威胁检测、漏洞分析、攻击预测、事件研判等高阶能力。因此,一个优质的数据集是检测这些能力是否成型的基础。
AICube-Sec数据集
专注网络安全大模型的专业能力评估
亚信安全建设的AICube-Sec数据集是国内网络安全领域首批高质量垂直数据集之一,专为评估大模型在网络安全方向的能力而设计。数据集包含4953条专业数据,覆盖基础通识、网络与基础架构安全、应用安全、威胁检测等10大主题。每个方向又细分为多个子方向,力求实现评估内容的全面性与精细化。
其中,基础通识数据量最大,占比18.5%,而网络与基础架构安全数据量最少,占比3.4%。这既反映了网络安全领域的广度,也突显了某些方向的专业深度。为确保问题和答案的相关性与准确性,Aicube-Sec数据集经过三轮严格验证,展现了高质量和高可靠性的特点。
在AICube-Sec数据集上,亚信安全采用了多种科学方法对模型进行评估:
采用0-shot方法,无需示例即可推测出答案,展现大模型的泛化能力。
以准确率为核心,通过不同主题的平均分反映模型在网络安全领域的综合表现。
亚信安全采用准确率的方法进行评估模型性能:计算公式如下:
基于Aicube-Sec数据集,亚信安全信立方系列大模型在多个评测维度中拔得头筹。其中,AICube2.5-32B-Instruct模型取得了93.92%的准确率,成为表现最优的模型。这一成绩超越了国内外众多主流模型,彰显了亚信安全在数据定制与模型优化上的深厚技术积累。
亚信安全信立方大模型在网络安全领域的专业能力居于行业前列。作为AICube-Sec数据集的构建者,亚信安全不仅通过高质量数据集驱动了模型性能提升,更引领了网络安全人工智能的创新方向。
亚信安全信立方安全大模型 (AICube),是亚信安全人工智能安全实验室基于AI技术构建的安全防护大模型。利用国内外优秀大模型资源,并融合了亚信安全多年来积累的丰富安全知识及专业安全小模型的训练成果,信立方大模型能够为精准问答、复杂的告警日志解读以及深度的网络安全事件分析等多样化专用场景,提供高效且可靠的人工智能安全支撑。
信立方安全大模型针对安全运营技术门槛高、工作运营效率低、智能化程度不足等问题,结合亚信安全高质量数据以及丰富的安全攻防经验,落地安全智能研判、智能分析、智能运营等安全场景,助力安全运营工作提质增效。
在知识类场景中,信立方安全大模型主要用于构建和丰富安全知识库,提升威胁情报的生产效率和质量,以及实现知识的系统化管理与应用,形成专业化安全知识图谱。
在检测类场景中,信立方安全大模型应用于入侵检测、恶意软件识别、异常行为检测等领域,提升了安全检测的准确性和效率。
在运营类场景中,信立方安全大模型主要用于提升安全运营的效率和效果,提供了告警解读、告警降噪、基于安全处置生成指令,并调用插件执行,实现了安全事件的全闭环自动化处理和响应。
未来,亚信安全将持续优化数据集与模型,加强网络与基础架构安全方向的数据增强,持续提升数据清洗和生成质量,引入更先进的推理与上下文理解方法,增强模型的工具调用与逻辑推理能力,以适配更多复杂场景。面对日益复杂的网络安全挑战,亚信安全将继续秉持技术创新与行业服务的初心,以信立方大模型为基石,打造更安全、更智能的数字化未来。
目前,AICube-Sec数据集已开源,下载链接:
https://github.com/yaozhspider/LLMs-Sec-Eval/