GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. LLbezpeky: Leveraging Large Language Models for Vulnerability Detection
简介:近年来,机器学习在漏洞检测中的潜力备受瞩目,但其实际应用受限于数据需求和特征工程挑战。大型语言模型(LLM)凭借庞大的参数,展现出理解和解析人类语言及编程语言语义的强大能力。研究者深入探索了LLM在Android安全环境中检测漏洞的潜力。实验结果显示,LLM在Ghera基准中高达91.67%的情况下准确识别出不安全应用程序,结果超出了预期。基于这一发现,研究者构建了一个强大且实用的漏洞检测系统,并验证了其有效性。
链接:
https://arxiv.org/pdf/2401.01269.pdf
2. HW-V2W-Map: Hardware Vulnerability to Weakness Mapping Framework for Root Cause Analysis with GPT-assisted Mitigation Suggestion
简介:由于物联网(IoT)设备的硬件攻击数量不断增加,研究者提出了一种专注于硬件漏洞和物联网安全的机器学习(ML)框架——硬件脆弱性到弱点映射(HW-V2W-Map)框架。这有助于减轻漏洞的影响,并预测和预防未来的暴露。此外,研究者的框架还利用生成预训练转换器(GPT)大型语言模型(LLM)提供缓解建议。
链接:
https://arxiv.org/pdf/2312.13530.pdf
3. Can Large Language Models Identify And Reason About Security Vulnerabilities? Not Yet
简介:大型语言模型(LLMs)被认为可用于自动漏洞修复,但至今尚无足够的基准测试证明其一致的漏洞识别能力。为了深入了解LLM在安全漏洞识别方面的可靠性,研究者进行了详细调查。结果显示,LLM的响应具有不确定性,推理结果不准确且不可靠,并且在真实世界场景中表现欠佳。此外,研究发现即使是先进的模型如PaLM2'和GPT-4'也存在显著的非鲁棒性:仅通过简单的代码更改,这些模型在26%和17%的案例中产生了错误的答案。因此,在将LLM用作通用安全助手之前,需要进一步改进和优化。
链接:
https://arxiv.org/pdf/2312.12575.pdf
4. LLMs Perform Poorly at Concept Extraction in Cyber-security Research Literature
简介:随着网络安全领域的快速发展,对组织构成威胁,提高适应能力变得至关重要。为了跟踪该领域的最新发展和趋势,研究者采用大型语言模型(LLMs)从网络安全相关文本中提取知识实体。然而,研究发现LLMs无法产生反映网络安全上下文的好知识实体。尽管如此,名词提取器被证实具有一定的潜力。因此,研究者开发了一个通过统计分析增强的名词提取器,以提取特定和相关的复合名词。这一进展为更好地理解和应对网络安全威胁提供了有力工具。
链接:
https://arxiv.org/pdf/2312.07110.pdf
5. Benchmarking Large Language Models for Log Analysis, Security, and Interpretation
简介:在网络安全领域,LLM对于日志文件分析具有重要意义。本研究探索了不同架构的LLM(BERT、RoBERTa、DistilRoBERTa、GPT-2和GPT-Neo),并对它们进行基准测试,以评估它们对安全应用程序和系统日志文件的深入分析能力。结果表明,经过微调的模型能有效用于日志分析,特别是在特定日志类型的领域适应方面,微调尤为重要。表现最佳的序列分类模型(DistilRoBERTa)在六个数据集上平均F1-Score达到0.998,超越了当前最先进的技术。为达成此目标,研究者提出并实现了一个新的实验管道(LLM4Sec),该管道利用大型语言模型进行日志分析实验、评估和分析。
链接:
https://arxiv.org/pdf/2311.14519.pdf
6.netFound: Foundation Model for Network Security
简介:在网络安全领域,传统机器学习工作流程受到数据集和专业知识限制,导致模型难以捕捉关键关系并有效泛化。为了解决这一问题,研究者开发了一种基于未标注网络数据包踪迹的预训练基础模型——netFound。实验结果表明,netFound在流量分类、网络入侵检测和APT检测等下游任务上表现优于现有先进解决方案。此外,netFound具有对噪声和缺失标签的鲁棒性,并能适应时间变化和多样化网络环境。研究进一步证实了netFound设计选择的实用性,使其在网络安全应用中展现出卓越性能。
链接:
https://arxiv.org/pdf/2310.17025.pdf