站长之家用户 - 传媒 2025-10-22 14:11

00后担大梁交大本科生在计算机安全会议上实现突破,打造大模型全方位安全分析底座

上海交通大学计算机学院(网络空间安全学院、密码学院)本科生徐菲悦作为第一作者的论文“A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models”被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy2026(简称 IEEE S&P)录用。论文提出面向大型语言模型(LLM)的“安全魔方(Security Cube)”评估体系,构建覆盖攻击、防御与判定三大维度的多指标框架,为大模型安全评估建立统一多维框架,系统化刻画攻击与防御版图,为大模型安全研究与产业落地提供全方位安全分析底座。该研究由王烁、贺超翔、胡宏盛、孙士锋、谷大武等老师指导,合作者包括交大研究生杭晟、刘修铭、赵宇博,以及微软首席科学家Bin Zhu等。据悉,本次 IEEE S&P全球仅录用118篇论文,本科生作为第一作者在 IEEE S&P2025发文在大陆地区尚属首次。

IEEE S&P、ACM CCS、Usenix Security、NDSS称为网络与信息安全领域四大国际顶级学术会议,代表着国际网络与信息安全研究的最前沿水平。

从“攻防样例”走向“系统评价”,构建“安全魔方”统一多维评估框架

大型语言模型在通用智能方面取得显著突破,但现实世界的越狱(jailbreak)等攻击会诱导模型输出不当内容,威胁高风险应用中的安全、合规与信任。现有评估多依赖单一的攻击成功率等指标,难以反映攻击可复现性、跨模型与跨防御的普适性,以及对模型内部机制的实质性影响,导致安全治理缺乏统一、可比较的评价基准。

论文对越狱攻击与防御方法进行了结构化分类,进一步提出安全魔方(Security Cube),从攻击者轴、 防御轴、评判轴三条主轴系统刻画 LLM 安全性,共引入14项指标,并对13种攻击、5种防御与4种评判器进行了全面评测。

其中,框架新增并强调了多项关键度量,用以弥补传统单指标评价的不足,包括:

攻击稳定性与可重复性:衡量攻击在不同设置下是否稳定复现;

跨防御、跨模型的可迁移性:评估攻击是否能跨越不同防护策略与模型架构;

内部破坏程度:判断攻击是否仅绕过表层过滤,还是对模型内部激活与安全检查造成了本质影响;

对抗效率:刻画实现成功攻击所需的计算/查询成本,支持在安全与效率之间进行工程权衡。

该魔方框架从指标维度与实验设计两方面统一了攻击、加固与裁决的评价语言,为研究者横向比较不同方法、为工程团队制定安全基线与合规标准、为监管机构形成可量化的审查视角提供了可操作的“通用量表”。

学生风采

第一作者徐菲悦为上海交通大学计算机学院2022级本科生,已获直博资格。在校期间曾获国家奖学金、本科生 A 等奖学金、优秀学生干部等多项荣誉;作为核心成员获得2024全球 AI 攻防挑战赛季军与杰出方案奖等成绩,展现了面向真实场景问题的攻防能力与工程落地潜力。

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看