专题征文 | Agent安全与可解释性

2026-06-03

专题征文 | Agent安全与可解释性

近年来，大语言模型驱动的智能体（Agents）从单纯的对话机器人向具备自主规划、决策与执行能力的方向快速演进。这些智能体配备了感知、记忆、推理与行动模块，能够调用外部工具、访问数据源、执行多步任务，甚至代表用户在多个系统间完成端到端的操作。从自动预订旅行、管理云资源到处理大量邮件，AI智能体正推动生产效率发生深刻变革。与此同时，多智能体系统的角色分工、协同推理与群体决策，进一步拓展了智能体的能力边界与应用范围。

智能体这种“自主性”就像一把双刃剑，虽然极大提升了效率，但一旦失控，其破坏力将不再局限于错误信息的输出，而是直接延伸到数据泄露、资金损失甚至物理系统的破坏。OWASP最新发布的《Agentic AI Top 10 2026》明确指出，智能体目标劫持、工具滥用、身份与权限滥用等已成为智能体领域的十大关键风险。与安全挑战相伴而生还有可解释性问题。大语言模型固有的“黑箱”特性在智能体场景中被进一步放大，研究者与使用者难以理解智能体为何做出某一决策、调用某一工具、遵循怎样的推理路径，这直接影响了安全审计、事故溯源与用户信任的建立。

专题征文

面对这一双重挑战，亟需汇聚学术界与产业界的研究力量，开展系统深入的探索。为此，《计算机应用研究》开设“Agent安全与可解释性”专题，聚焦该领域的理论框架、关键技术、评估标准与工程实践，推动形成系统性研究路径。

本专题诚邀国内外学者、研究人员及业界专家踊跃投稿，分享高水平研究成果，共同推动Agent安全与可解释性研究迈向更系统、深入且具备实践指导意义的新阶段。

征文主题包括但不限于以下几个方面：

01Agent安全

Agent防御机制与技术：输入净化、动态信任管理、记忆生命周期管理、沙箱隔离、最小Agent原则等。
多智能体系统安全：多智能体通信协议安全、协同决策中的安全约束、角色与权限隔离、共识驱动的安全机制等。
Agent身份与访问控制：去中心化身份标识、短效令牌与即时授权、归因溯源等。
Agent安全评估与测试：安全基准构建、漏洞挖掘与评估框架、安全度量指标体系等。
Agent供应链与数据安全：RAG污染防御、记忆投毒防护、数据隐私保护与合规治理等。

02Agent可解释性

Agent可解释性理论框架：面向多步任务与工具调用的解释性形式化模型。
Agent推理过程的可解释：思维链解释、跨模型对比解释、结构化事实推理、知识溯源等。
工具调用与决策轨迹的解释：因果溯源、行为轨迹可视化、跨模态解释方法等。
Agent透明性与测评方法：可解释性评估基准、忠实性度量、用户理解与信任评价、最小解释包等。
人机协同与可相信Agent：人机交互中的解释与反馈机制、可信任Agent系统的构建与验证等。

征文要求

论文必须具有原创性、学术性、科学性、准确性、规范性和可读性，所述内容应为作者独立或与他人合作完成的研究成果，且未在国内外公开发行的刊物或会议上发表过，不存在一稿多投问题。
论文一律用Word格式排版，格式请参照《计算机应用研究》提供的“论文写作模板”以及近期已发表的论文。
投稿请通过《计算机应用研究》官方网站（https://www.arocmag.cn/）完成，并在投稿时提供联系方式。请在投稿栏目项选择“Agent安全与可解释性”或在论文标题后注明“（Agent安全与可解释性）”字样，以标识为本专题投稿。
稿件经评审确定采用后，将在2个月内网络首发出版，6个月纸质见刊。

联系方式

办公地址: 四川省成都市武候区成科西路3号
电话: 028-85249567
E-mail: journal@arocmag.cn

* 最终解释权归《计算机应用研究》编辑部所有
** 插图来源：通过豆包AI生成工具生成，2026年6月3日

专题征文 | Agent安全与可解释性

专题征文 | Agent安全与可解释性

专题征文

01Agent安全

02Agent可解释性

征文要求

联系方式

Related Content