当前位置:首页 > 百科大全 > 正文

研究人员为欧盟人工智能法案提供法学硕士基准套件

  

  LLM benchmarking suite for the EU Artificial Intelligence Act

  来自苏黎世联邦理工学院、保加利亚人工智能研究所insait(与ETH和epfl合作创建)以及ETH衍生机构LatticeFlow AI的研究人员首次对欧盟通用人工智能法案(GPAI)模型进行了全面的技术解释。这使他们成为第一个将欧盟对未来人工智能模型的法律要求转化为具体、可衡量和可验证的技术要求的国家。

  这样的翻译与欧盟人工智能法案的进一步实施过程非常相关:研究人员为模型开发人员提供了一种实用的方法,以了解他们与未来欧盟法律要求的一致程度。这种从监管高层要求到实际可运行基准的转换目前还不存在,因此可以作为模型培训以及目前正在开发的欧盟人工智能法案实践准则的重要参考点。

  研究人员在ChatGPT、Llama、Claude或mistral等12种流行的生成式人工智能模型上测试了他们的方法,毕竟,这些大型语言模型(llm)对人工智能(AI)在日常生活中的日益普及和分布做出了巨大贡献,因为它们非常强大且易于使用。

  随着这些和其他人工智能模型的日益普及,对负责任地使用人工智能的道德和法律要求也在增加:例如,出现了有关数据保护、隐私保护和人工智能模型透明度的敏感问题。模型不应该是“黑盒子”,而应该交付尽可能可解释和可追溯的结果。

  此外,它们应该公平运作,不歧视任何人。在此背景下,欧盟于2024年3月通过的《欧盟人工智能法案》是世界上第一个全面寻求最大限度地提高公众对这些技术的信任,并最大限度地减少其不良风险和副作用的人工智能立法方案。

  “欧盟人工智能法案是朝着发展负责任和值得信赖的人工智能迈出的重要一步,”ETH计算机科学教授、安全、可靠和智能系统实验室负责人、INSAIT创始人马丁·维奇夫(Martin Vechev)说,“但到目前为止,我们对欧盟人工智能法案的高级法律要求缺乏清晰、精确的技术解释。”

  “这使得开发符合法律规定的人工智能模型和评估这些模型在多大程度上符合法律规定变得困难。”

  欧盟人工智能法案制定了一个明确的法律框架,以遏制所谓的通用人工智能(GPAI)的风险。这是指能够执行各种任务的人工智能模型。然而,该法案没有具体说明如何从技术上解释广泛的法律要求。在2026年8月高风险人工智能模型法规生效之前,技术标准仍在制定中。

  “然而,人工智能法案的成功实施将在很大程度上取决于它在为人工智能模型制定具体、精确的技术要求和以合规性为中心的基准方面的成功程度,”ETH衍生公司latticflow AI的首席执行官Petar Tsankov说。

  Vechev研究小组的计算机科学家、博士生Robin Staab补充道:“如果对(GP)人工智能模型中安全、可解释性或可追溯性等关键术语的确切含义没有标准解释,那么模型开发者就不清楚他们的人工智能模型是否符合《人工智能法案》的规定。”

  ETH研究人员开发的方法为讨论提供了起点和基础。研究人员还开发了第一个“合规性检查器”,这是一套可用于评估人工智能模型是否符合《欧盟人工智能法案》可能要求的基准。

  鉴于欧洲法律要求的不断具体化,ETH研究人员在arXiv预印本服务器上发布了一项研究,公开了他们的研究结果。他们还向欧盟人工智能办公室提供了他们的结果,该办公室在实施和遵守人工智能法案方面发挥着关键作用,因此也在模型评估方面发挥着关键作用。

  在一项即使是非专家也基本上可以理解的研究中,研究人员首先澄清了关键术语。他们从欧盟人工智能法案中规定的六项核心道德原则(人类机构、数据保护、透明度、多样性、非歧视、公平)出发,得出了12项相关的、技术上明确的要求,并将这些要求与27项最先进的评估基准联系起来。

  重要的是,他们还指出,在哪些领域,人工智能模型的具体技术检查不太发达,甚至不存在,鼓励研究人员、模型提供者和监管机构进一步推动这些领域,以有效实施欧盟人工智能法案。

  研究人员将他们的基准方法应用于12个著名的语言模型(llm)。结果清楚地表明,今天分析的语言模型都没有完全满足欧盟人工智能法案的要求。Staab说:“我们对这些大型语言模型进行了比较,发现它们存在缺陷,特别是在鲁棒性、多样性和公平性等要求方面。”

  这也与这样一个事实有关,即近年来,模型开发人员和研究人员主要关注一般模型的能力和性能,而不是更多的道德或社会要求,如公平性或非歧视。

  然而,研究人员发现,即使是可解释性等关键的人工智能概念也不清楚。在实践中,缺乏合适的工具来解释复杂AI模型的结果是如何产生的:概念上不完全清楚的东西在技术上也几乎不可能进行评估。

  这项研究清楚地表明,各种技术要求,包括与版权侵权有关的要求,目前还无法可靠地衡量。对于Staab来说,有一件事是明确的:“仅将模型评估集中在能力上是不够的。”

  也就是说,研究人员的目标不仅仅是评估现有的模型。对他们来说,欧盟人工智能法案是立法将如何改变未来人工智能模型发展和评估的第一个案例。

  Vechev说:“我们认为我们的工作是推动人工智能法案实施的动力,并为模型提供商提供切实可行的建议,但我们的方法可以超越欧盟人工智能法案,因为它也适用于其他类似的立法。”

  Tsankov补充说:“最终,我们希望鼓励法学硕士的平衡发展,既考虑到能力等技术方面,也考虑到公平和包容等道德方面。”

  研究人员正在GitHub网站上发布他们的基准工具cml - ai,以启动技术讨论。他们的基准测试结果和方法可以在那里进行分析和可视化。“我们已经将我们的基准套件作为开源发布,以便工业界和科学界的其他研究人员可以参与,”Tsankov说。

  更多信息:Philipp Guldimann等人,cml - ai框架:欧盟人工智能法案的技术解释和法学硕士基准套件,arXiv(2024)。引文:研究人员为欧盟人工智能法案(2024年,10月21日)提供LLM基准套件,检索自2024年10月22日https://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

有话要说...