由合成数据支持的可解释人工智能-电子发烧友网

数据是模型可解释性的核心。可解释人工智能（ XAI ）是一个快速发展的领域，旨在深入了解人工智能算法的复杂决策过程。

在人工智能对个人生活有重大影响的领域，如信用风险评分，管理者和消费者都有权要求深入了解这些决策。领先的金融机构已经在利用 XAI 验证其模型。同样，监管机构也要求深入了解金融机构的算法环境。但在实践中如何做到这一点呢？

潘多拉的封闭盒子

人工智能越先进，对可解释性来说，数据就越重要。

现代的 ML 算法有集成方法和深度学习，即使没有数百万个模型参数，也会产生数千个。当应用于实际数据时，如果不看到它们的实际作用，就不可能掌握它们。

甚至在培训数据敏感的情况下，广泛访问数据的必要性也是显而易见的。用于信用评分和保险定价的金融和医疗数据是人工智能中使用最频繁、但也是最敏感的数据类型。

这是一个相互矛盾的难题：你想要数据得到保护，你想要一个透明的决策。

可解释的 AI 需要数据

那么，这些算法如何变得透明呢？你如何判断机器做出的模型决策？考虑到它们的复杂性，披露数学模型、实现或完整的训练数据并不能达到目的。

相反，您必须通过观察各种实际案例中的决策来探索系统的行为，并探索其对修改的敏感性。这些基于示例的假设探索有助于我们理解是什么驱动了模型的决策。

这种简单而强大的概念，即在给定输入数据变化的情况下，系统地探索模型输出的变化，也称为 local interpretability ，可以在域和 model-agnostic 按比例中执行。因此，同样的原则可以应用于帮助解释信用评分系统、销售需求预测、欺诈检测系统、文本分类器、推荐系统等。

然而，像 SHAP 这样的局部可解释性方法不仅需要访问模型，还需要访问大量具有代表性和相关的数据样本。

图 1 显示了一个在模型上进行的基本演示，该演示预测了客户对金融行业内营销活动的反应。查看相应的 Python 调用可以发现需要经过训练的模型，以及执行这些类型分析的代表性数据集。然而，如果该数据实际上是敏感的，并且无法被 AI 模型验证器访问，该怎么办？

图 1 ：。使用实际数据通过 SHAP 解释模型的示例

用于跨团队扩展 XAI 的合成数据

在人工智能采用的早期，通常是同一组工程师开发模型并对其进行验证。在这两种情况下，他们都使用了真实的生产数据。

考虑到算法对个人的现实影响，现在越来越多的人认识到，独立小组应该检查和评估模型及其影响。理想情况下，这些人会从工程和非工程背景中提出不同的观点。

与外部审计师和认证机构签订合同，以建立额外的信心，确保算法是公平、公正和无歧视的。然而，隐私问题和现代数据保护法规（如 GDPR ）限制了对代表性验证数据的访问。这严重阻碍了模型验证的广泛开展。

幸运的是，模型验证可以使用高质量的人工智能生成的 synthetic data 来执行，它可以作为敏感数据的高度准确、匿名的替代品。例如， AI 的综合数据平台主要使组织能够以完全自助、自动化的方式生成合成数据集。

图 2 显示了使用合成数据对模型执行的 XAI 分析。比较图 1 和图 2 时，结果几乎没有任何明显的差异。同样的见解和检查也可以通过利用 AI 的隐私安全合成数据来实现，这最终使真正的协作能够在规模和连续的基础上执行 XAI 。

图 2 ：。使用合成数据通过 SHAP 解释模型的示例

图 3 显示了跨团队扩展模型验证的过程。组织在其受控的计算环境中运行最先进的合成数据解决方案。它不断生成其数据资产的合成副本，可以与内部和外部 AI 验证器的不同团队共享。

图 3 ：。通过合成数据进行模型验证的流程

使用 GPU 扩展到真实数据量

GPU 加速的库，如 RAPIDS 和 Plotly ，能够以实际遇到的实际用例所需的规模进行模型验证。这同样适用于生成合成数据，其中以 AI 为动力的合成解决方案（主要是 AI ）可以通过在全栈加速计算平台上运行而受益匪浅。有关更多信息，请参阅加速信用风险管理的可信 AI 。

为了证明这一点，我们参考了房利美（Fannie Mae，FNMA）发布的抵押贷款数据集，目的是【VZX19】。我们首先生成一个具有统计代表性的训练数据合成副本，由数千万个合成贷款组成，由几十个合成属性组成（图4）。

所有数据都是人工创建的，没有一条记录可以链接回原始数据集中的任何实际记录。然而，数据的结构、模式和相关性被忠实地保留在合成数据集中。

这种捕获数据多样性和丰富性的能力对于模型验证至关重要。该过程旨在验证模型行为，不仅针对占主导地位的多数阶级，还针对人口中代表性不足和最脆弱的少数群体。

图 4 ：。真实和合成数据样本的快照

给定生成的合成数据，然后可以使用 GPU 加速的 XAI 库来计算感兴趣的统计信息，以评估模型行为。

例如，图 5 显示了 SHAP 值的并列比较：贷款拖欠模型在真实数据上解释，在合成数据上解释之后。通过使用高质量的合成数据作为敏感原始数据的替代品，可以可靠地得出关于该模型的相同结论。

图 5 ：。贷款拖欠 ML 模型的 SHAP 值

图 5 显示，合成数据可以作为解释模型行为的实际数据的安全替代品。

此外，合成数据生成器生成任意数量新数据的能力使您能够显著改进较小组的模型验证。

图 6 显示了数据集中特定邮政编码的 SHAP 值的并排比较。虽然原始数据在给定地理位置的贷款不到 100 笔，但我们利用 10 倍的数据量来检查该区域的模型行为，从而实现更详细和更丰富的见解。

图 6 ：。通过使用合成过采样进行模型验证，获得更丰富的见解

使用合成样品进行单独水平检验

虽然汇总统计和可视化是分析一般模型行为的关键，但我们对模型的理解还可以通过逐个检查单个样本获得更多好处。

XAI 工具揭示了多个信号对最终模型决策的影响。只要合成数据真实且具有代表性，这些案例不一定是实际案例。

图 7 显示了四个随机生成的合成案例，以及它们的最终模型预测和每个输入变量的相应分解。这使您能够在不暴露任何个人隐私的情况下，深入了解对无限潜在案例的模型决策有多大影响的因素和方向。

图 7 ：。检验四个随机抽样合成记录的模型预测

利用合成数据进行有效的 AI 治理

人工智能驱动的服务越来越多地出现在私营和公共部门，在我们的日常生活中发挥着越来越大的作用。然而，我们只是在人工智能治理的黎明。

虽然像欧洲提议的人工智能法案这样的法规需要时间才能体现出来，但开发人员和决策者今天必须负责任地采取行动，并采用 XAI 最佳实践。合成数据支持广泛的协作环境，而不会危及客户的隐私。它是一个强大、新颖的工具，可以支持开发和治理公平、健壮的人工智能。

关于作者

Jochen Papenbrock 位于德国法兰克福，在过去的15年中，Jochen一直在金融服务业人工智能领域担任各种角色，担任思想领袖、实施者、研究者和生态系统塑造者。

Alexandra 是金融服务业的综合数据专家，在隐私、公平和负责任的人工智能方面拥有深厚的专业知识。作为主要人工智能的首席信托官，她参与了有关隐私、道德人工智能和新兴合成数据领域的公共政策讨论，并定期在国际人工智能和银行会议上发言，讨论如何协调个性化与隐私，确保算法的公平性，以及如何克服数字转型带来的数据挑战。除此之外， Alexandra 还是数据民主化播客的主持人，她邀请一些最大银行的高管讨论隐私和道德 AI 最佳实践。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4419

浏览量
126705
AI

AI

+关注

关注
87

文章
26450

浏览量
264068
人工智能

人工智能

+关注

关注
1776

文章
43863

浏览量
230614

5G智能物联网课程之Aidlux下人工智能开发

课程类别课程名称视频课程时长视频课程链接课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件：参赛基础知识指引

发表于 04-01 10:40

嵌入式人工智能的就业方向有哪些?

嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下，嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下，众多名企也纷纷在嵌入式人工智能领域布局

发表于 02-26 10:17

机器学习模型可解释性的结果分析

AI 一文中我们已经了解到模型可解释性发展的相关背景以及目前较为成熟的技术方法，本文通过一个具体实例来了解下在 MATLAB 中是如何使用这些方法的，以及在得到解释的数据之后我们该如何理解分析结果。

发表于 09-28 10:17 •511次阅读

ai人工智能机器人

随着时间的推移，人工智能的发展越来越成熟，智能时代也离人们越来越近，近几年人工智能越来越火爆，人工智能的应用已经开始渗透到各行各业，与生活交融，成为人们无法拒绝，无法失去的一个重要存在

发表于 09-21 11:09

《通用人工智能：初心与未来》-试读报告

作者给出的结论。整体读下来，可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是通用

发表于 09-18 10:02

语音合成数据——打开未来人机交互的新篇章

随着人工智能技术的日新月异，语音合成数据的技术也得以快速发展。语音合成，即通过计算机技术生成逼真的语音，是人工智能领域的重要组成部分。本文将深入探讨语音

发表于 09-11 11:41 •346次阅读

如何将人工智能应用到效能评估系统软件中去解决

，我们可以将其应用到效能评估系统中，进一步提高效能评估的准确性和实用性。　　华盛恒辉可以利用人工智能技术，通过对大量数据的分析，来识别和评估各个业务环节的表现，从而对效能进行评估和监测。此外，我们还可

发表于 08-30 12:58

语音合成技术与语音合成数据，赋予声音新的可能性

随着科技的不断进步，语音合成技术成为人机交互和智能应用领域的重要创新。在这个领域中，语音合成数据扮演着至关重要的角色，为技术的发展提供了关键的支持和驱动力。语音

发表于 06-28 23:56 •337次阅读

AI 人工智能的未来在哪？

人工智能、AI智能大模型已经孵化；繁衍过程将突飞猛进，ChatGPT已经上线。世界首富马斯克认为AI对人类是一种威胁；谷歌前CEO施密特认为AI和机器学习对人类有很大益处。每个国家对核武器的运用有两面性，可造可控；但AI智能

发表于 06-27 10:48

用于对象检测的合成数据生成

电子发烧友网站提供《用于对象检测的合成数据生成.zip》资料免费下载

发表于 06-25 11:00 •0次下载

语音合成数据的重要性：打造自然流畅的语音合成体验

和应用提供关键支持。提供训练基础：语音合成数据作为语音合成模型的训练基础，直接影响合成语音的质量。丰富、准确的语音合成数据可以帮助模型学

发表于 06-24 03:07 •342次阅读

【书籍评测活动NO.16】通用人工智能：初心与未来

之后的达特茅斯研讨会开始，用机器来模仿人类学习及其他方面的智能，即实现“人工智能”（Artificial Intelligence，AI）便成为计算机领域持续的研究热点。时至今日，以深度学习为代表

发表于 06-21 14:41

语音合成数据定制服务：为智能化语音应用赋能

在数字化时代，语音技术的应用越来越广泛，语音合成作为其中的重要组成部分，为智能化语音应用提供了强有力的支持。语音合成技术可以将文本转化为自然流畅的人

发表于 06-18 21:26 •292次阅读

【EASY EAI Nano人工智能开发套件试用体验】EASY EAI Nano人工智能开发套件开箱及硬件初体验

及接线柱、12V 1A电源等。 EASY EAI Nano人工智能开发板用塑料盒和静电袋包装，里面有一根黑色的数据线。 EASY EAI Nano人工智能开发套件包装还是很不错的，用很多的黑色

发表于 05-31 19:18

可信人工智能研究方向与算法探索

为了建立可信、可控、安全的人工智能，学术界与工业界致力于增强人工智能系统与算法的可解释性。具体地，可信人工智能旨在增强人工智能系统在知识表征

发表于 05-24 10:02 •410次阅读

搜索历史

由合成数据支持的可解释人工智能

评论