工行专利:通过大模型提升代码检测精度

发布于: 雪球转发:0回复:0喜欢:0

来源:移动支付网 作者:木子剑

5月28日,工商银行申请的一项名为“可提升检测精度的代码检测方法、装置、电子设备及介质”的专利公布。其申请于2024年3月5日,涉及金融科技领域。

方法包括:获取以不同编程语言表达的第一源代码数据集,对第一源代码数据集进行预处理;利用预处理后的第一源代码数据集对大模型进行训练,获得用于代码检测的通用大模型;获取具有多种问题类型的第二源代码数据集,对第二源代码数据集的各种问题类型进行标注;利用已标注的第二源代码数据集对通用大模型进行微调,生成用于代码检测的专用大模型;在确认专用大模型符合预期的情况下,对专用大模型进行压缩;获取待检测的第三源代码,将第三源代码输入压缩后的专用大模型,输出第三源代码具有的问题类型。

其中,通用大模型具备代码检测的通用知识和基础逻辑思维能力;专用大模型具备代码内容的语义和语法识别能力。

第二源代码数据集的各种问题类型包括:无问题;语法缺陷;语义缺陷;无语法缺陷和语义缺陷的恶意代码。

以下是上述方法中一些步骤的进一步分解:

对第一源代码数据集进行预处理,包括以下至少一种:对第一源代码数据集中的多个第一源代码进行分类;去除第一源代码数据集中的敏感信息;对第一源代码数据集进行规范化处理。对第一源代码数据集进行规范化处理,又包括:对第一源代码数据集中的多个第一源代码进行格式化;去除第一源代码数据集中的无效注释或非代码数据。

利用已标注的第二源代码数据集对通用大模型进行微调,包括:基于微调策略,利用已标注的第二源代码数据集对通用大模型进行微调,其中,微调策略包括低阶适应微调、全量微调或者前缀微调。

通过以下方式确认专用大模型符合预期:获取用于验证的第四源代码数据集;利用第四源代码数据集对专用大模型进行验证,当验证结果满足预设的要求时,确认专用大模型符合预期。

对专用大模型进行压缩,包括:对专用大模型的网络结构进行剪裁或者量化,以均衡专用大模型的计算精度和运行效率。

另外,方法还包括:基于第三源代码具有的问题类型,生成对应的预警信息或修复建议。

说明书提到该发明的背景为,随着计算机技术的发展,代码编写时由于不规范、不准确导致各类代码漏洞等威胁日益严重,给个人用户和企业带来了巨大的风险。目前的代码检测方法往往依赖于静态分析和规则匹配等传统技术,但这些方法往往无法有效地应对日益复杂和隐蔽的恶意代码。

该发明通过使用大规模的训练提升大模型对代码语义分析的能力,进而提升大模型对代码的语义理解层面的能力,提高代码检测的准确性和效率,避免之前传统基于静态分析和规则匹配等技术无法检测出的恶意攻击类型的代码的问题,可有效地识别和阻止恶意代码,提高代码安全性。