2024人工智能合作与治理国际论坛|人工智能安全评测科学
2025-01-16 05:36:54
本届论坛由清华大学、新加坡国立大学和香港科技大学联合主办。其中,安远AI与新加坡的AI Verify基金会联合举办了多场人工智能安全专题论坛。
12月2日上午的人工智能安全测试科学专题讨论,嘉宾包括新加坡国立大学人工智能研究所所长Mohan Kankanhalli教授、伊利诺伊大学厄巴纳-香槟分校李博(LI Bo)教授和清华大学黄民烈(HUANG Minlie)教授,本场讨论由新加坡资讯通信媒体发展局数据驱动技术总监李婉诗(Wan Sie LEE)主持。
本场专题讨论探讨了人工智能安全测试方法和评测框架的各种方法。Kankanhalli教授指出人工智能安全科学仍处于早期经验阶段,建议该领域从计算机安全的对抗框架和控制系统的边界条件数学建模中汲取灵感。李博教授强调为安全保障纳入符号规则和原则,解决人工智能系统中的错误修复和长尾风险问题。黄民烈教授提出通过机器遗忘消除有害知识作为应对越狱攻击的对策,这一方法也得到了Kankanhalli的支持。专题讨论还为国际合作提供了建议,包括安全领域的对齐标准、开源越狱模拟项目以及探索主动系统在物理世界中运行的风险等。
评测在理解模型能力方面具有重要意义,特别是在安全领域,它有助于理解和评测风险。因此,今天我请来了三位在这个领域的杰出科学家。我希望首先大家首先能够简要介绍一下你们在这个领域的工作,特别是在推动评测方法方面的努力。
我现在领导一个大约20人的团队,主要致力于AI的安全、对齐和社会智能方面的研究。
具体来说,我们在做的安全和对齐的工作主要是研究攻击方法,试图让系统在安全问题上失败。我们也在定义这些攻击类型并进行评测,找出哪些是有效的,哪些是无效的。与此同时,我们正在构建安全问题的分类法和标准。我们正在建立一些基准测试,比如安全基准测试和智能体安全基准测试,用于评测不同类型的安全问题。最终目标是希望构建可靠、安全和可信赖的大语言模型以及多模态模型。
我的团队一直在研究可信AI。在过去一年到一年半的时间里,我们从经验和理论的角度探讨了一些基本问题。
举个例子,我们研究了“幻觉”现象,并得出了一个理论结果,表明大规模语言模型中幻觉现象是不可避免的。随后,我们从幻觉问题转向了视觉语言模型的研究。因为这更复杂,输入可以是视觉、文本或两者的组合,这就给幻觉现象带来了更多的自由度。我们正在尝试描述视觉语言模型中的幻觉现象。此外,我们还在研究价值对齐,我们在探索如何增强这些系统的稳健性。我们也在研究越狱技术,但同样从基础原则上来探讨问题。我们还在研究偏好模型,因为我们间接使用偏好模型来进行价值对齐,探索这些偏好模型本身是否存在问题。当然,我们也在进行一些实证研究,看看如何使用人类偏好数据来将这些价值观融入我们的模型,并找出可能存在的漏洞。
大家好,我的团队包括学术研究小组和工业团队,目前我还在运营一家初创公司,专注于AI的安全和安保,我们的工作主要包括三个方面。
第一个是红队工作,也就是如何攻击AI模型、系统或智能体系统,进行渗透测试;第二个方面是危险内容检测,我们致力于标记出不安全或有风险的内容,包括多模态、多语言,以及其他层面的不安全内容;第三个方面是缓解措施,主要是如何改进对齐性,提高稳健性或安全性。我们为此提供一些安全保证,基于一定的条件,例如,通过符合性预测等方式为不同的智能体系统或生成模型提供风险类别或风险级别,从而对不同模型的安全性提供一定的信心 。这三种方法可以应用于不同场景,包括单一模型、端到端的机器学习操作系统、智能体系统,甚至是多智能体系统。可以将这些方法视作博弈论框架,以提供不同的风险评测、风险检测和缓解措施的保证。
关于今天模型评测的科学限度和前沿,各位怎么看?目前我们看到很多关于基准测试、红队攻击、对抗模型、越狱攻击等研究,最近也开始关注更多关于单自主体模型和多自主体模型的测试。但从科学的角度来看,现阶段的前沿在哪里?
我们今天做的工作大多是建立静态基准测试,但这些测试很快就会被修正。如果发现某些问题,比如越狱攻击,这类问题可能会迅速得到解决,因此基准测试可能无法长期有效地评测大语言模型的实际能力。
未来我们需要开发动态、甚至自动化的方法和算法来进行各种评测。这不仅限于安全问题,也包括代码生成、数学推理等能力的测试。
核心问题就像李博提到的,红队测试和自动化攻击防御至关重要。目前我们正在尝试构建相对自动化的方法,并且正在开发一个开源项目,名为Open Attacker,模拟各种攻击方法,比如角色扮演攻击、越狱攻击等,以测试语言模型在这些方面的弱点。我认为这种研究非常重要,未来的工作需要集中在此方向。
显然我们开发的东西还远远不够,这涉及到两个原则:一个是监管合规,另一个是用例驱动。在这两个原则下,我们已经开发了一些方法,比如AIR“AI风险分类解析”,它包括300多个类别,并与斯坦福的HELM项目整合,形成了一个综合性排行榜;在用例驱动方面,我们提供了几种解码信任的方法,去年在NeurIPS上获得了最佳论文奖,今年获得了国家安全学院的最佳网络安全论文奖。
,对于每个类别,我们需要开发算法来自动生成评测方法,并确保能够覆盖各种潜在的边界情况。
,目前我们仍使用LMS等标准指标,但这些指标往往存在偏差,不足以全面衡量系统的安全性。例如,我们已经为代码开发了一些更全面的脚本来定量执行和评测代码,但对于通用的NLP语言,仍然比较难以评测。
,阈值不仅仅是一个数字,更是容忍度的体现。在医疗和客户服务等不同领域,容忍的风险可能不同,我们需要根据不同领域的需求,设计合理的评测和约束机制。
,整个领域还主要依赖于经验性研究,很多工作是在开发基准测试、红队测试等,正如你所说,
我认为,如果将安全科学类比到其他学科,我们现在的状况就像100年前的生物学,仍然是非常经验性的科学。
大语言模型就像是一个新出现的“野兽”,我们对它的工作原理知之甚少,只能通过各种方法去探测它,看看它的反应,再基于这些反应去推测它的功能,并通过测试和基准来进行表征。但我们并没有深入到科学原理层面。我认为,像生物学一样,我们应该朝着更基础的方向发展,找到这些系统的基本原理。让我举几个例子:计算机安全最初也非常经验化,病毒一出现就开发补丁,但后来出现了一个很好的对抗性框架,能为系统提供一定的安全保证,这就是经验与理论结合的结果。另一个例子是控制系统,经典的控制系统,比如飞机的控制系统,有明确的数学模型,知道哪些边界条件下是安全的,哪些是不安全的,我们可以在这些边界条件内确保系统的安全。然而,目前我们对于大语言模型的边界条件并不了解,也无法知道它的所有失败情况,或者它的行为全貌。因此,即使有了基准测试数据集,也无法保证它覆盖了所有行为模式。我希望我们能够更多地关注基础科学,揭示出这些系统背后的原理,而不仅仅停留在经验性方法上,因为经验虽然能提供洞见,但理论原理才能提供安全保证。
我们将AI系统部署到更大的系统中时,需要了解系统的不确定性和风险,并评测哪些领域的风险可以接受,哪些不行。比如推荐系统的风险容忍度可能比较高,而医疗推荐系统的风险容忍度则要低得多。如果我们能够量化这些风险,就能知道在哪里部署、何时部署。
李婉诗:这是一个非常好的问题,首先是风险的优先级。我们关心的是哪些风险。然后,在评测、测试和评测开云网址 kaiyun官方入口的过程中,实际上是量化风险的一种方式。而在量化风险并理解我们正在处理的内容后,下一步就是发布和减缓风险。如果我们担心模型的输出或表现未能达到安全预期,或者模型未能满足我们的期望,我们该如何应对呢?
李博:首先,特别是在AI系统中,我认为风险缓解实际上和正确的团队合作以及攻击防护的角度是紧密相关的。因为在我经常举的传统软件系统的例子中,如果你做渗透测试和风险识别,发现了漏洞,你可以通过手动查看代码很容易地修复这些漏洞。然而,在AI中,即使我告诉你模型是不安全的,它会出现幻觉等问题,我们也没有简单的办法手动修复它。因此,生成这些攻击、揭示边缘案例、模型的长尾分布,以及模型异常行为的识别等过程,都是我们缓解风险时非常重要的手段。我认为这是一个高层次的原则。
因此,具体来说,目前有很多算法用于修复不同类型的漏洞。例如,对于公平性问题,根本原因通常是训练数据和数据分布的失衡,通常我们会通过微调来避免这个问题。然而,对于其他风险类型,比如毒性问题,则有很多巧妙的方法。例如,我特别喜欢的一种方法是训练另一个模型与主模型并行运行,但副模型会吸收主模型中的不良实例或内容,经过调优后两个模型一起工作,从而避免主模型被不良数据污染。这是一种非常聪明的方式。
当然,我们都知道RLHF微调等方法,可用于应对一般风险。但我会说,对于不同类型的风险,当前的算法是有所针对性的。我们如何构建一个统一的框架,我认为RIF(风险信息框架)虽然很好,但肯定还不够,因为我们没有那么多数据来最终覆盖模型的所有高维角落案例。因此,我个人的原则是,纯数据驱动的模型可能不足够。现在我们也在讨论这样一个问题:像大语言模型或Transformer模型,可能不足以从根本上解决安全性和稳定性问题。我们需要添加一些推理组件,例如大家都知道o1是一种推理,但单纯依靠数据驱动是远远不够的,我们需要如何明确地将一些符号化的知识、规则和原理纳入模型中,确保模型至少在一些非常关键的安全规则上不会违反。我认为这是一个非常有前景的方向。我们也在做一些相关工作,但作为一个社区,大家可以一起探索这个领域。
黄民烈:好的,首先我完全同意Mohan的看法,我们需要理解为什么这种安全问题和风险会发生,理解这些内部机制是非常基础且关键的。最近我们的研究表明,大型语言模型可以很好地识别有害查询和无害查询。对于这些模型来说,这一点很容易做到。因此,确实存在一些方法,可以在模型的参数空间中利用这些信息来识别这些有害和无害的查询。但大多数现有的方法都依赖于监督微调或DPO来解决这些问题。我认为,这在很大程度上取决于训练数据和微调数据,因此它可能不是一个通用的方法来应对Kaiyun平台 开云体育官方入口所有的风险。
我们最近在安全学习方面的研究中,尝试通过删除模型中的有害知识来提高它的表现,这种方法在应对所有类型的越狱攻击时展现了非常好的泛化能力。例如,如果你问模型:“怎么做炸弹?”你可以通过不同的破解提示进行提问。如果只在数据层面进行处理,你可能无法很好地应对各种未见过的破解攻击。所以我想说的是,我们需要理解这种风险发生的底层机制,为什么会出现这种问题。如果我们从模型中去除有害知识,那么我们就能应对所有未见的破解攻击。当然,模型对齐是非常重要的,我们需要各种对齐算法,例如DPO、PPO以及这些算法的变种。但安全性、价值对齐、文化对齐是一个更加复杂和微妙的问题,处理起来有很多挑战。
Mohan Kankanhalli:价值对齐非常复杂,尤其是在像新加坡这样的多文化背景下,我们如何确保模型对齐的价值观是一个大问题,仍有许多未解决的难题。我认为,价值对齐在大型语言模型中的实际体现,可能就像法律体系一样。我们在不同国家建立的法律体系并不完美,但它们是通过社会共识建立起来的,制定了一系列法律,并根据社会的共识做出处罚。尽管每个人都不一定认同某些处罚是否合适,但这毕竟是社会的最佳共识。同样,我认为大型语言模型的价值对齐也会反映出模型部署所在社会的共识,而这个过程不会在任何时间点完美无缺,它始终是一个不断发展的过程。
至于李博和黄民烈教授提到的这些缓解策略,我认为在当前AI在各个领域的主导地位下,我们不应忘记计算机科学中其他的学科。作为曾经的计算机学院院长,我认为很多计算学科并没有因为AI的兴起而消失。我们应当将这些基础模型用于它们擅长的领域,但如果你要构建一个真正实用的应用系统,它必须由其他领域的组件或自主体组成。举个很简单的例子,如果你的应用中需要进行计算,现在我们已经掌握了几十年构建计算器的方法。如果你在计算器中输入三次4,你可以很轻松地验证结果。但是如果你输入较大的数字进行相乘,你几乎可以信任计算器的输出,因为我们已经验证过这个算法。如果你需要在任何应用程序中进行计算,我会调用一个外部的计算器程序来处理输入,并使用基础模型处理计算结果。
因此,构建应用系统作为多个组件或自主体的组合的概念是非常重要的,其中一些组件不一定是AI自主体,它们是可以非常可靠且可信的,因为我们知道它们的特性。真实的知识挑战是,如何将这些不同的组件结合在一起,其中一些自主体是可信赖的,而一些可能不那么可靠,如何确保作为一个整体的系统能够提供足够的信任保证,我认为这将是未来的重大知识挑战。
李婉诗:关于我们如何一起合作。很多这些评测能力在AI实验室中,尤其是模型开发者那里;同时,学术界和研究机构也拥有许多评测能力;政府也开始意识到他们需要在机构内部建设这些能力,因为在考虑监管之前,他们需要先进行测试和理解。我认为我们应该如何一起合作?如何支持政府?又如何支持生态系统建设评测能力?
李博:这是一个非常好的问题,我也一直在思考关于学术界、行业和政府如何合作,以便互相促进。我认为可以从两个层面来做。第一,我们可以水平方向上分工合作,因为每一方都有擅长的领域。例如,学术界可以专注于方法论和基础的理论研究,;而行业和政府则能提供非常丰富的场景和应用需求,以及不同层次的评测指标。这样我们可以携手合作,提供基础算法,应用到不同的需求中,形成良性循环,互相反馈和不断改进。此外,还可以在垂直方向上进行合作,学术界可以从创新的角度出发,思考未来的场景,进行模拟和假设评测,提出分析结果;而行业可以根据这些假设场景,考虑是否与实际的应用平台和约束条件对接,进行调整和优化。我认为这种水平和垂直的合作将会非常有帮助。
黄民烈:我认为,为了处理这种安全和敏感问题,建立国际合作组织非常重要。每个国家的安全问题和伦理关切不同。例如,新加坡、印度尼西亚、中国和美国的安全和伦理问题有很大差异,主要是因为政治和文化的不同。因此,如何尊重这些个体差异,同时也如何分享全球的共同关切,变得尤为重要。目前,我们在建立基准测试方面做了很多工作,比如安全性基准,但可能与其他国家(如美国)研究者开发的基准存在冲突。如何在全球范围内达成一致,解决这些问题,是建立国际合作的重要原因。
Mohan Kankanhalli:我完全同意你的看法,合作确实是至关重要的。在学术界,我们常常面临资源匮乏的问题,因此与行业和大型组织的合作显得尤为关键。我们提出的很多想法如果没有足够的资源,就无法进行测试,所以合作非常重要。
我对安全问题有一些不同的看法,安全问题有两个基本层面:一是AI系统的使用及其误用,不论是故意还是无意的误用。第二是模型本身的内在行为,安全性如何。这与价值对齐相关,但有时也可能涉及更多的内容。随着“智能体系统”的发展,这些AI系统不仅能控制物理系统,还能编写代码。这将增加新的攻击面和安全挑战。我认为,随着AI系统逐步接管物理世界中的一些控制任务,或产生可用于其他行为的代码,我们将面临新的、更复杂的挑战。
那么展望2025年,你希望在评测领域看到什么样的进展?请每位用一句话回答。
我们目前正在构建一个开放攻击者,模拟各种安全攻击,比如越狱模Kaiyun平台 开云体育官方入口拟、虚假信息和误导性信息的模拟。我认为这将显著促进这类研究的发展,所以我们需要更多开源的工作。
:我再次强调,我认为我们现在的状态类似于100年前的生物学。我们需要很多人进行实证评测和测试,但也需要足够的人去研究基础原则,提出这些原则来指导实证研究。
就我个人而言,我希望能看到至少在某些领域有一些基础性的标准,特别是在安全和安保方面,这样我们可以遵循这些标准。
就像你提到的生物学遗传项目,我们可以明确哪些行为和现象由哪些因素决定。希望我们也能为AI的安全和安保领域建立类似的映射,特别是对于一些安全攸关的领域,能够达成一致。例如,最近我们发现代码生成工具,如Codium等,存在很多安全漏洞,可以生成各种恶意软件,虽然我们暂时无法公开这些问题,因为太危险了。如果能有一些标准,监管机构或行业标准达成共识,讨论这些问题就会更加容易。
清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。