近日,我院计算机技术2020级硕士研究生喻思宇同学为第一作者的学术论文“Log Parsing with Generaliztion Ability under New Log Types”被中国计算机学会(CCF)推荐A类国际学术会议 The ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering(ESEC/FSE 2023)录用,论文通讯作者为指导老师陈宁江教授。
将半结构化日志转换为结构化日志的日志解析是智能日志分析的关键第一步。然而,由于新日志中会出现新的日志类型,现有的解析器在实际应用中仍不能令人满意,此外根据现有日志设置的解析器参数很难泛化支持新的日志类型,对此,该论文提出一种可变生成模仿策略来设计具有泛化能力的新的日志解析方法Log3T。Log3T分为离线训练和在线解析两部分。在离线训练阶段,Log3T将日志解析制定为二分类任务,利用标记的历史日志来训练Transformer编码器;在在线训练阶段,根据模型分配给单词的概率,从新出现的日志中提取最有可能的常数单词,在此基础上将新日志划分为不同的日志组,进而生成具有代表性的日志模板。为了增强模型泛化到新的日志类型的能力,Log3T进一步开发了一个包含测试时间训练的在线解析版本。在16个基准数据集上的实验结果表明,Log3T的解析准确率超过了当前的解析器,并能自动适应新日志类型。Log3T日志解析器软件在GITHUB开源(https://github.com/gaiusyu)。
图 Log3T 的工作原理
ESEC/FSE是软件工程领域顶尖学术会议,是CCF-A类国际会议、Core Conference Ranking A*类旗舰会议。该会议每年汇集了来自学术界和工业界的研究人员和从业人员,重点关注软件工程各个领域的实际应用。2022年共接收99篇论文,接收率22%。