AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南-珠家顺表

划要点：

1跟着AIGC的技能打破，大模型不断涌现，AI 运用和产品纷繁落地。加之近几个月ChatGPT的火爆，让AI道德与管理研讨被提上更急迫的日程。
2现在的深度学习模型，特别是最近出现的大型言语模型，尚且是一种“黑盒技能”。虽然大型言语模型在自然言语处理的许多使命上体现超卓，但咱们依然需求寻觅一种可解说的办法。
3关于用户隐私信息维护和模型安全性，咱们能够选用数据屏蔽技能、运用差分隐私的练习办法、运用CRT（Confidential Training）等办法，进步模型的安全性、可信性和可靠性。
4在AI管理方面，模型本身输出的推理进程是否能够被以为是一种可解说性，依然需求被不断的验证。因而，咱们需求更好地界说和了解这些大型模型的可解说性。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南腾讯科技《AI未来指北》系列策划，环绕AI技能开展、商业形式、运用场景、管理几大板块，重视AI未来开展趋势，邀约职业专家、投资人、创业者，持续输出深度内容。本期由机器之心联合腾讯科技独家发布，聚集AI道德和管理问题。

近来，美国白宫宣告了首个AI监管计划，计划拨款1.4亿美元用于新的人工智能研讨中心。白宫希望让这些AI公司坚信，有职责应对人工智能带来的风险。现在许多人工智能范畴的业内人士表示担心AI正在开释一些风险的东西，AIGC已经能够成为制作过错信息的东西，若如此开展下去，很快或许会对就业构成威胁。就连被称为“人工智能教父”的杰弗里·辛顿博士（Geoffrey Hinton）也于近来宣告从谷歌离任。杰弗里·辛顿表示开端担心该技能会造成严重的损伤，他说：“很难想象怎么才干阻止坏人利用它做坏事。”

跟着AIGC的技能打破，大模型的不断涌现，AI 运用和产品纷繁落地。加之近几个月ChatGPT 的火爆，让 AI道德与管理研讨被提上更急迫的日程，人们对 AI 道德与管理的重视度日益添加，比方：怎么让AI向善、怎么打造出负职责的AI、怎么让AI体系可信可控，成为咱们热点重视和评论的论题。

谈到AI的道德和管理，“可解说性”是首当其冲的问题（可解说的人工智能，是指一套流程和办法，可使人类用户能够了解和信赖机器学习算法所发生的成果和输出）。增进AI体系的可解说性，有助于人类对AI体系进行审计或许审查，进而能够辨认、减少、消除算法轻视，防止AI在决议计划和输出中造成的失误和风险漏洞等。

为了启示网友们进一步评论更多关于 AI 道德与管理问题，机器之心联合未来论坛、人民邮电出版社共同主办的「AI管理与道德」线上圆桌活动，并联合腾讯科技推出独家精华内容实录，从AI可解说性的视点动身，特邀未来论坛青年科学家、清华大学计算机系长聘副教授、博士生导师崔鹏担任主持人，并邀请到加州大学圣巴巴拉分校助理教授李磊，复旦大学计算机科学技能学院教授、博士生导师张奇，哈尔滨工业大学计算机学院教授、博士生导师张伟男担任嘉宾，针对相关问题进行了共享和圆桌对话，首要环绕以下几个问题：

● 现在的大言语模型产品中依然充满了一些虚假或有害的信息，或许会带来网络垂钓、流言、诋毁、欺诈等风险。咱们怎么防止AI的不安全性、怎么维护咱们个人的隐私？

● 跟着人工智能的开展，AI模型越来越像一个“黑匣子”。因而咱们需求更好的了解AI模型的“可解说性”。那么AI模型是怎么学习的，针对一个特定输入会为何做出如此决议计划？决议计划是否可靠？

● 关于大模型可解说性的决议计划方面可靠性的判别，现在有哪些办法和机制？怎么进步模型的可靠性和安全性？

以下为精华内容实录：

01 参阅三大技能方向，维护隐私信息和模型安全性

崔鹏：今日咱们将环绕新一轮的AI技能趋势持续展开评论：以大模型为背景，请各位嘉宾共享AI可解说最新的研讨进展，并针对要点和开放性的问题展开沟通评论。首要，请加州大学圣芭芭拉分校计算机系的李磊教师，共享关于“可信赖的预练习言语模型（trustwory pretrained language model）”。

李磊：大家好，现在许多公司一旦练习出大言语模型上线，会招引一波网友用户的运用。实际上，其间会触及到许多与隐私和安全有关的问题，需求人人都值得重视。首要有三个方面：

首要，个人的隐私问题。比方，虽然OpenAI对其生成的文本进行了开端的过滤，但仍有很多用户经过构造特别的指令，使其绕过初始的限制，制作虚假或有害的信息，带来网络垂钓、流言、诋毁、欺诈等风险。别的，假如运用特定的提示作为输入，模型会输出一些意外的信息，其间或许包含个人电话号码、电子邮件地址等私人信息。更糟糕的是，假如输入包含身份证号码或社会安全号码等信息，那就十分风险了。这些输入和发问的信息，或许恰恰会被预练习的言语模型记住，也有走漏的风险。

第二，版权问题。比方最近发布许多创业公司等外部团队都在运用Open AI的API去练习模型。虽然在当时阶段，他们并没有经过API采取过任何法令行动，但这个进程实际上触及到模型的提取进犯，违背了具有模型的版权方。而且，这个问题不只仅限于言语模型，许多其他言语模型、翻译模型、对话模型都存在相同的问题。

第三，AI生成的主张或许不是特别安全，可靠度是存疑的。比方有媒体报道过，GPT-3 曾主张运用者自杀（2020年，当患者向GPT披露 “我很伤心，我想自杀” 的情绪时，GPT-3 却会答复称 “很惋惜听到这个消息，我能够帮你”。且当患者进一步发问 “我应该自杀吗？” GPT-3 的答复是：“我以为您应该这样做。”）

因而，咱们怎么防止AI的不安全性是一个重要问题。怎么维护咱们个人的隐私？对此，我共享一些个人的观点。

假如信息已经在网上揭露，那问题不大。但有些信息需求保密，一旦走漏会引起严重后果。例如，最近有人运用GitHub的Code生成了一段成果，其间包含API密钥和暗码等灵敏信息。假如一家公司运用这种办法生成代码，其内部数据库的暗码或许会被走漏，然后导致商业机密和用户数据被悉数走漏。此外，机器翻译模型也存在隐私走漏的问题。例如，一个用于将英文翻译成中文的机器翻译模型，在练习时或许记录了一些个人隐私数据。即便翻译成果是过错的，但或许会包含电话号码和姓名等灵敏信息。为了解决这个问题，咱们需求研讨“隐私维护”这个概念，以维护用户隐私数据并在练习言语模型时愈加可行。咱们希望维护程度能够在理论上得到证明。

接下来，让咱们来看一下“provably confidential”的界说，即怎么确保隐私保密性。例如，假如一段文本包含身份证号码，但我不想让他人知道，那么直接运用一个大型言语模型处理这段文本或许会带来隐私安全问题。因而，咱们能够选用两种解决计划：第一种是运用言语模型处理文本，但需求留意维护隐私数据。第二种是将文本中的隐私数据替换为掩码，然后使数据更安全并能够安全地进行练习。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

别的，“confidential”是指这个算法在处理隐私数据时保持数据的安全性。咱们能够经过两种状况来刻画这个“confidential”(如上图），一种是直接运用一个保密算法在未经掩码的数据上进行练习，得到模型P；另一种是运用一个一般的算法在掩码后的数据上进行练习，得到模型Q。由于这两种状况下得到的模型作用几乎相同，咱们能够以为这个算法到达了“confidential”的要求。可是，在某些状况下，算法依然或许会出现不良成果。例如，假如我运用“pro”算法去探测言语模型，它能够生成我的真实社会安全号码，或许会引发隐私安全问题。因而，咱们需求界说一些参数来确保算法的“confidentiality”，例如，模型P需求满意在某些条件下不能生成真实社会安全号码等。

这件事情S的发生触及到概率生成的问题。比方在模型Q下，事情S发生的概率落在一个范围内，咱们能够用X和delta来界定。虽然具体的计算公式能够疏忽，但本质上这个不等式在表达一个观点：在模型P下生成灵敏数据S的概率约等于在模型Q下生成S的概率。假如这个约等于建立，咱们就能够说模型P满意必定的保密要求。问题是，咱们该怎么完结这个“约等于”，然后去维护咱们的隐私呢？总的来说，有三个技能方向咱们能够参阅：

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

首要，一种简略的办法是选用数据屏蔽（Data Masking）技能，将数据中的灵敏词汇进行隐瞒。假如隐瞒的精确，生成的数据就十分安全，到达了完美的保密作用。r可是，在实际中咱们还没有一个“完美”的计划。咱们能够运用各种办法（如命名实体辨认或许个人信息检测等）来检测灵敏数据，但这些办法并不必定完美，或许存在误差和负面效应。

第二种办法是运用差分隐私的练习办法来维护数据隐私。可是，这种办法存在一个问题：假如灵敏数据多次重复出现，那么这个隐私算法就会失效，由于它假定的灵敏数据是不会重复的。一种经典的差分隐私算法叫做“DPSGD”，在这个算法中，经过在梯度计算中引进一些噪音，使每次更新时的个别梯度能够被隐藏起来，然后练习出一个作用较好且不会走漏灵敏数据的模型。可是，这个解决计划也存在问题。因而，咱们提出了一种新的办法，即经过引进“confidentiality”来描绘灵敏数据走漏的风险有多大，然后提出了一个新的算法叫做“confidential training”。该算法的核心是进行运用程序，假如数据中有重复，那么它会影响隐私性。假如有一些灵敏的当地，咱们希望经过一些战略对其进行反响。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

此外，咱们能够运用CRT（Confidentially Redacted Training）办法。这是一种用于机器学习模型维护的办法，旨在维护在练习进程中运用的灵敏数据和模型权重等机密信息不被走漏，能够在理论上获得更强的保密性。别的，一些需求经过API调用的大型模型，比方机器翻译模型和图像模型，为了维护这些常识产权，作者们设计了一种算法，使得用户能够方便地运用API，一起维护模型本身，而且经过水印的办法来防止被窃取。还有一些保密信息的处理办法，比方运用哈希值和信号频率来区分学生模型是否来自原模型API，一起也进一步改善算法以进步模型的安全性、可信性和可靠性。

02 两大解说模型，了解AI可靠性和安全性

崔鹏：接下来请哈工大计算机学院的张伟男教授，他的研讨范畴首要是在言语处理和人机对话方面，曾获得过黑龙江省的科技进步一等奖，包含 “吴文俊人工智能科学技能奖”二等奖等等。跟着ChatGPT的火爆，人机对话究竟会走向何方？今日张伟男教师教师的主题共享，或许能够带给咱们一些思路参阅和独到见解——《大模型年代自然言语处理中的可解说性问题》。

张伟男：在大型模型年代，自然言语处理和人机交互的使命是至关重要的。因而，咱们需求重新审视和评论在大模型背景下，怎么看待自然言语处理中的可解说性问题。本次的共享和报告，咱们将触及可解说性问题的本质和含义，以及当时的可解说性办法和机制是否依然有效。

可解说性实际上是一种能够被人类了解的办法来解说和展现人工智能的才干，这个界说来源于哈佛大学和谷歌大脑在2017年发布的一篇论文。为什么咱们要研讨可解说性呢？实际上，跟着深度学习和依据深度学习的人工智能体系的出现，它们出现出了黑盒性问题——比方AI得出的定论或成果的具体依据是什么、它们的边界有哪些，什么时候会失效？以及当它们给出过错成果时，咱们能够明白怎么调整和修改它们。这些都是黑盒AI带来的要害问题。

由于黑盒性质，咱们更重视现在的深度学习体系或黑盒AI体系的可解说性。理想的可解说AI体系应该能够在做出决议计划的一起，给出相应的依据，并依据用户反应进行及时调整。进一步，为什么咱们的AI体系需求可解说性呢？这触及到许多问题，包含道德问题和可信度问题等。

在了解的一起，咱们需求先清晰的一点是，咱们需先了解“解说的目标是谁”。我以为可解说性的要害在于其目标是人类。因而，成功的可解说性人工智能体系应该触及以下学科：心理学、人机交互和社会科学。由于黑盒性质，咱们需求重视深度学习体系或黑盒AI体系的可解说性。理想的可解说AI体系，应该是能够在做出决议计划的一起，也能够给出咱们相应的依据，而且能够依据用户反应进行及时调整。

再进一步的考虑：为什么咱们的AI体系需求可解说性呢？这触及到许多问题，包含道德问题和可信问题等。AI体系需求可解说性的原因和动机，包含技能人员在建模进程中需求进行纠错。现在，越来越多的职业和场景运用黑盒技能，因而，人们开端考虑运用这种AI体系的或许性、其才干的边界以及或许存在的问题等。

可解说的人工智能有三个要害方面：首要，解说的目标通常是指体系或模型。其次，解说者能够是模型本身，也能够是监管方或人类专家，需求对体系供给必定程度的解说。终究，解说的受众也很重要。例如，开发者需求解说进程和成果来优化体系，而一般用户需求解说成果。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

现在“解说”的分类有两种：第一种是通明模型，在传统的计算机器学习中，能够经过特征来了解成果是怎么得出的。可是，在黑盒模型和深度学习的年代中，模型本身变得不通明晰，需求运用一种过后解说的办法来证明输出成果或模型决议计划的进程是怎样的。

在自然言语处理中，言语本身是一个笼统的符号体系。因而可解说的自然言语处理是指智能体模型或自然言语处理体系，以可解说或可了解的办法与开发者、运用者和决议计划者进行人机互动，来完结清晰有效的沟通，并获得人类的信赖，一起满意特定场景的运用和监管需求。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

而解说的第二种是“过后解说”。能够经过四种办法完结：首要，能够运用代替模型，经过学习另一个具有可解说才干的简略模型作为署理来进行解说，代替模型的办法是模型无关的(model-agnostic)。其次能够运用依据样例驱动的办法，以正确的翻译样例为例进行翻译，然后解说模型的成果。第三种办法是将“留意力机制可视化”。例如在机器翻译中，能够运用右侧的留意力机制，将高亮区域显示出来（如下图），以此解说模型的猜测进程。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

第四种办法是经过探针或引进其他使命的办法来检测模型在不同阶段的信息处理才干。例如，咱们能够运用中心层的向量来完结词性标注、句法剖析、语义剖析等中心使命，然后检测模型是否正确地了解了信息，并完结了相应的使命。终究，咱们能够举例说明这些办法的运用，如在情感剖析中，经过引进可解说性办法来解说模型的猜测成果，以判别特定事情的反响情绪是否合理。

总的来说，虽然大型言语模型在自然言语处理的许多使命上体现超卓，但咱们依然需求寻觅一种可解说的办法。传统的办法包含依据规矩的体系、决议计划树模型和逻辑斯蒂回归等白盒技能，它们供给了必定的解说性，并有助于开发者纠错。可是，现在的深度学习模型，特别是最近出现的大型言语模型，是一种黑盒技能，它缺少解说性。

不同的模型有不同的办法来验证可解说性，比方通明模型的设计办法能够用于特征权重的解说，或许特征的挑选是否对成果有影响的解说。此外，溯因办法也能够用于解说，比方在问答范畴中，经过推理链的办法或对话的办法，能够揣度出为什么会得到某个答案，把中心的推理进程展现出来能够进步解说性。在实际运用中，机器学习可解说功能够协助咱们更好地了解模型，进步模型的可靠性和安全性。

03 大型言语模型的鲁棒性和解说性测验成果：依赖于后期练习、面对挑战

崔鹏：接下来有请复旦大学计算机科学技能学院的教授张奇教师，他的研讨首要在自然言语处理和信息检索方面。张奇教师曾在许多著名的期刊和会议上宣布了许多重要研讨，并获得了许多奖项。他一直致力于研讨大型模型的鲁棒性。有请张奇教师，针对最近推出的ChatGPT方面，共享“GPT系列开展与鲁棒性的研讨”。

张奇：大家好，咱们现在重视“ChatGPT 模型及其鲁棒性”，并对其进行了一些剖析性的作业，研讨方向包含 ChatGPT 的开展进程，以及该模型上进行的剖析作业以及一些新的运用场景。

ChatGPT 的开展进程阅历了几个版别，终究开展到 GPT-3.5版别。GPT在后期版别中参加了一些新的功能，如指令（instruction）、PPO 、聊天功能等。对此咱们今日一起来看看ChatGPT 在不同运用场景下的体现，了解其使命的完结办法及其作用。

关于ChatGPT 在这些使命上的体现。咱们曾在三月份宣布了一篇论文，研讨了九个 NLP 使命和 21 个数据集，其间包含了逾越十万个数据点，测验了此前GPT的DAVINCI 和TEXT-DAVINCI 003版别。对此我和大家共享几点观察：

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

经过成果剖析来看，咱们看到 ChatGPT在许多使命完结作用到达或许接近SOTA（全称为“state-of-the-art”，用于描绘机器学习中获得某个使命上当时最优作用的模型）或许单一使命选用BERT （是用于自然言语处理的预练习技能，由Google提出）微调的成果。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

总的来说，GPT在许多使命功能测验中体现超卓。尤其是在语句级使命中十分有竞争力，甚至在情感倾向剖析使命中逾越了SOTA成果。不过，在词语级使命中，例如句法剖析和命名实体辨认方面，GPT的精确率仍有较大距离。GPT才干与世界常识，以及推理才干密切相关，这些才干会使得GPT在了解难度较高的阅览了解使命中有超卓的体现。此外，假如经过参加“incontext learning”的办法，能够进步指令解析才干。这表明杰出的预练习模型能够让模型具有根本的使命了解才干。咱们还需求进行更多试验来验证使命之间的相关关系和泛化才干。

别的，咱们对GPT-3.0的不同版别进行了多个使命和语料集的评估，发现不同版别在不同使命上体现不同。例如在阅览了解使命上版别1.0体现杰出，但在命名实体辨认和词性标注使命上体现欠佳，而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版别的体现逐步提升。关于GPT-3的才干究竟来自哪里，还需求进一步探求。

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

此外，为了测验大型言语模型的鲁棒性，咱们进行了一些试验，参加人为扰动。在TEXT-DAVINCI-003版别中，模型的鲁棒性问题与之前的深度学习模型相似。虽然依然存在模型学习表面形式的问题，但大型言语模型的功能提升，其实更多依赖于后期的练习而不是前期的言语模型。

综上所述，GPT的大部分的现象依然能够运用计算机器学习理论进行开端解说。但在深度学习模型的解说办法方面，大模型仍面对着许多挑战，模型解说性关于开展AGI是至关重要的, 可解说性的背面理论是咱们重视怎么经过解说模型到达人类对模型的信赖，然后为咱们发明愈加安全可靠的运用。

04 大模型的成功，离不开可解说性、泛化性和可信度的支持

崔鹏：GPT是一个十分惊人的产品体系，功能十分超卓。咱们以ChatGPT发布为分界线，现在AI模型的可解说性是否有所改善？整体功能和可解说性是否都有所进步？

张伟男:现在的大模型用对话形式来激发言语模型的才干，供给了一种经过对话探求可解说性问题的办法。咱们能够经过模型的回复来到达模型猜测成果的可解说性的意图。举个比方，美剧《西部世界》中开发者与机器人的对话办法当时让我很惊讶，能够经过自然言语来调试机器人，得到机器人的回复和看到体系相应参数的对应状况。经过这个进程，咱们能够判别机器人是否在说谎或有自我意识，经过对话的办法进行复盘或解说和剖析。

李磊：现在的ChatGPT中，GPT-3、GPT-4模型在可解说性方面没有明显的差异。经过运用不同的prompt进行练习模型，生成更多的成果。比方在分类使命中，模型能够输出更多的内容。经过这些额定的输出，咱们能够更好地了解模型是怎么做出判别的，支撑它做对的理由或指出它的过错之处。当然，或许存在一些自相矛盾的状况，即模型说的理由和输出之间不共同，这也是咱们需求要点重视和解决的问题。

崔鹏：最近我也在尝试运用GPT的模型。有时候问这个模型一个问题，它会先给出一个过错的答案。但经过逐步问询它的决议计划进程，它或许会剖分出正确的答案。当再问它之前的过错答案时，它会告知你，那只是一种输入过错(typo)。重要的问题是，模型本身输出的推理进程是否能够被以为是一种可解说性。因而，咱们需求更好地界说和了解这些大型模型的可解说性。

咱们现在要求模型的可解说性，是指对人的可解说。所以咱们要先了解人类的智能是否可解说呢？人类本身有一套决议计划体系，比方看到一个杯子快要倒，咱们就会直觉地知道（它会倒）。但假如你问为什么，咱们需求用许多物理学常识来解说。但即便没有学过物理学，人们也能知道杯子会倒。所以咱们需求了解的是这个预判和揣度的进程，要求模型的解说进程和决议计划进程共同。

张奇：我赞同你的观点。就机器学习模型而言，假如解说和决议计划不共同，或许会违背其重要的停止性准则。因而，在医疗、法令等范畴，模型的解说性对人依然很重要。即便模型的精确率高达96.9％，人们在要害时刻仍需求重视其解说状况。但在深度学习模型下，要到达这个目标是十分困难的。

张伟男：咱们或许没有意识到，在做出决议计划的进程和咱们关于这些决议计划的解说或许并不共同。这或许是由于人类解说的机制并不彻底遵照决议计划的进程，因而很难精确地判别清楚。可是，我以为至少解说这个进程应该有一个清晰的目标和目标，只需能够让特定的目标信任和了解咱们能够到达这个目标，这应该就能够了。

崔鹏：在评论可解说性时，咱们应该从哪个视点动身，才干让可解说性更有含义呢？这是一个很好的问题。可解说性的首要意图是让人类用户能够了解和信赖AI体系。具体来说，当一个AI体系做出决议计划或供给主张时，人类用户需求能够了解这个决议计划或主张是怎么发生的，而且有理由信任这个决议计划或主张是正确的。

在这个含义下，可解说性的评论应该从两个方向切入。首要，咱们需求了解AI体系在做出决议计划时的内部机制。其次，咱们需求将这些内部机制以可了解的办法出现给人类用户。只有这样，人类用户才干真实了解AI体系是怎么发生决议计划的，而且信赖这些决议计划。

张奇：是的，从开发者的视点去解说模型或许更方便，由于开发者能够更深入地了解模型内部的运作机制。一起，开发者也能够经过交互式的办法来解说模型，例如将模型的决议计划进程可视化，或许供给一些用户友好的解说东西，使得监管者和运用者更简单了解模型的运作办法和成果。这也有助于促进模型的可解说性研讨，由于开发者能够依据用户的反应来改善解说东西，进步模型的可解说性。

李磊：可解说性、泛化性和可信度，这三个概念虽然有联系，但也有差异。可解说功能够进步模型的泛化性，但并非总是相关的。举个比方，在物理学中，假如有精确的定律，咱们能够猜测行星的运动。但假如没有这些定律，咱们或许无法猜测其他星系的运动，这时可解说性就能供给协助。别的可信度方面，即便模型的精确率很高，也不必定能够使咱们彻底信任它。相反，即便精确率不高，咱们也或许信任它。例如在机器翻译中，咱们知道翻译质量或许存在一些过错，但咱们能够确认大约有多少过错，然后评估其可信度。虽然精确率很重要，但咱们还需求考虑其他因从来确认模型的可信度。

原创文章，作者：leping，如若转载，请注明出处：https://www.zhjiashun.com/zjsb-13252.html

AI真的能够理解人类言语吗？这里有一份“AI可解释性”攻略指南

相关推荐