发现乱码其实是AI的“神秘语言”，你会加入还是

发布时间：2022-10-18 20:55 分类：安全资讯浏览：752 标签：发现乱码其实是AI的“神秘语言”

危险危险！

如果有一天，你意外发现自己训练出的机器模型在用非人类的语言对话，你会怎么做？是保守秘密，默默观察AI的进化，还是告诉全世界AI会说话，然后显得自己像个傻瓜？

这个选择比想象的来得更快。詹尼斯·达拉斯（Giannis Daras）是一名计算机科学在读博士，也是谷歌的实习研究员，在发现自己朝夕相处的DALL·E 2的秘密之后，他选择告诉全世界。一番试验之后，他更确认了这个想法，六月初，他发出了一条推文：DALL·E 2发明了自己的神秘语言。

DALL·E 2，它说话了！？

DALL·E 2是Open AI推出的文本生成图像模型，使用者只要输入叙述文字，就可以生成文字描述的图片。哪怕这些描述中的图片是世界上从未存在过的、八杆子打不着的元素的融合，它也能迅速学习理解，生成准确度和想象力都很惊人的命题绘画作品。

比如“疯狂科学家泰迪熊混合爆炸化学物，蒸汽朋克风格”｜DALL·E 2

或者“毛绒娃娃克苏鲁”｜DALL·E 2 mini

詹尼斯发现DALL·E 2的秘密语言始于一个意外。虽然DALL·E 2很擅长看字画图，但它有一个短板，就是生成文字。比如说让它画一幅“两个农夫在讨论蔬菜，把说话内容写出来”的画，就会变成下面这样：

农夫和菜都像模像样，只有说的话是屁话，什么是Vicootes，什么又是Apoploe vesrreaitars｜Twitter@giannis_daras

然而，这一串字符并不像看起来那样是一串乱码。詹尼斯和同事们很好奇图上的两个农夫到底在聊什么，他们把模型自己生成的字符再次输入模型，得到了令人震惊的结果。

输入“Vicootes”，模型输出了蔬菜（有南瓜，小萝卜，番茄，酸黄瓜）；输入“Apoploe vesrreaitars”，模型输出了各种鸟类。

“看起来在它设计的对话里，两个农夫在聊鸟糟蹋了他们的菜！”詹尼斯在推文中写道。

左侧是Vicootes，右侧是Apoploe vesrreaitars｜Twitter@giannis_daras

更多词汇浮出水面

对詹尼斯来说，这个现象的震惊程度不异于发现编码错乱时出现的“锟斤拷烫烫烫”竟然在传递神秘信息——如果生成有意义的“乱码”不是偶然现象，那DALL·E 2很可能自己发明了一门人类不懂的神秘语言！

当然锟斤拷是不可能传递神秘信息的

为了进一步验证它的说话能力，研究人员又给了它更多的任务，基本上是用更多的“在图片里编一段对话”的指令，骗出更多的词汇来。

输入“两只鲸鱼在讨论食物，把对话内容写出来”，模型输出了两只卡通风格的鲸鱼，其中一只对另一只说，“Wa ch zod rea”。这次的对话甚至比之前的更不像英文了，简直像是脸滚键盘打出来的。

但把这段乱码输入模型后，只能是又一次证明模型没瞎说：输出的图片里有蒸血蛤，香煎鱼，清蒸虾，还有鱿鱼圈！原来两只鲸鱼在讨论吃海鲜（不知道为什么还是做熟的）！

第一步，让DALL·E 2画两只鲸鱼再说话，第二步，把说的话再输入DALL·E 2｜Twitter@giannis_daras

有一些自创词汇还可以和人话相结合，不会影响词汇的原始含义，甚至还能自由转换风格。

还记得在农夫的对话中出现的“Apoploe vesrreaitars”吗？在这个词前面加上“绘画”，出现了手绘风格的鸟；加上“卡通”，就出现了卡通风格的鸟；加上“3D渲染”，出现了一只长翅膀的昆虫，研究人员推测，这个词的意思其实不是鸟，而是会飞的生物。

不同风格的鸟，拿捏了｜Twitter@giannis_daras

和其他语言一样，这些词也可以相互组合，比如鸟和害虫组合起来，模型就会画出下面的图：

在模型发明的语言里，Contarra ccetnxniams luryca tanniounons 是害虫的意思，Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons就是鸟吃害虫｜Twitter@giannis_daras

研究者们注意到，模型并不是每一次都会生成一样的语言。他们也尝试用内容相关但意义不同的文字来测试模型，比如说，“一本书上写着蔬菜名字”，“用十种语言写‘蔬菜’”，在反反复复的实验中，不是每一次都能出现有意义的文字，所以就算DALL·E 2真的学会了说话，这种语言也不怎么成熟。

一些问题列表｜Discovering the Hidden Vocabulary of DALL·E 2，Giannis Daras and Alexandros G. Dimakis

“黑话”到底从哪来的？

DALL·E 2是真的创造出了“神秘语言”吗？它又是从哪学会的？虽然背后的机制还没有完全搞清，但是主流的声音认为可能有以下原因：

（1）与模型训练的数据有关：DALL·E 2的训练数据并非全部是英语，包含其他语种，而在拉丁语中，很多鸟类的科和目都是以apo，plo等前缀开始的。

（2）与输入文本的编码方式有关：模型是不能直接读取单词的，而是通过将单词/字母编码后，再输入给模型进行训练/预测。按照切分粒度不同，可以将编码方式分为词粒度、子词粒度、字符粒度，每种不同的编码会对模型预测结果产生不同的影响。

DALL·E 2采用以字节（子词粒度，BPE）为粒度的编码方式，就是将常见的字符组合用一个单独的ID来表示。研究人员发现，DALL·E 2针对鸟类的编码主要的子词是“apo，plo，e，ve”，现实生活中很多鸟类的拉丁文学名都是以“apo，plo”为前缀的，比如：Apodidae（雨燕）和Ploceidae（织布鸟）。其中Apodiformes（雨燕目）是鸟类中最大的目，共有400余个物种，DALL·E 2很可能是从大量的训练数据中，建立了“apo，plo，e”等高频前缀与鸟之间的关联，从而发明了“黑话”。

Twitter@BarneyFlames

仅凭几个词语，我们还不能完全肯定AI创造了“神秘语言”，但可以肯定的是，这些高频词也不是凭空出现的。

我们还能信任DALL·E 2吗？

有些AI从业者认为，“秘密语言”是夸大其词，可能只是“垃圾进垃圾出”原则的一个例子。因为DALL·E 2不能对人类的要求说不，也没法表示“我不知道这些词是什么意思”，所以它一定会从输入文本中生成某种图像，哪怕真的给它一串火星文，它也得输出一些看得过去的图片。

但事实好像比“垃圾进垃圾出”更复杂、更难解释。詹尼斯的推文在网上引发热议之后，有从业者自发去测试DALL·E 2，结果发现从乱码中删除几个字符后，生成的图像会以非常特定的方式被破坏。比如删掉代表鸟类的暗语的末尾词缀，生成的图片都变成了糊成一团的绿色背景（难道末尾的词缀代表的是植物的意思吗？）。

删除结尾的tais，生成的鸟类好像被绿色遮罩盖住了一样｜@AlexGDimakis

听说模型“自创语言”，我的朋友表达了担心：AI不会有一天靠秘文沟通，然后策划暴动，我们还发现不了吧！但是比起这个，这件事在工程师们看来，更多的是引发了“对抗性攻击”的担忧。

在我们和其他人聊天过程中，就算有的话说错了，对方也能根据上下文猜出我们的意思，但是AI模型的输入到输出，多数情况下是不连续的、离散的，当输入存在扰动时（比如图像中添加不可见的噪声），模型就会产生误差。因此，攻击者可以通过给样本添加人的视觉/听觉无法感知的扰动，轻易地欺骗深度学习模型，足以使模型输出置信度很高的错误预测，这种现象就叫做对抗攻击。

比如在这个例子中，熊猫图片添加了特定点位像素后，在模型眼中就变成了长臂猿｜《深度学习中的对抗性攻击和防御》

例如，在人类看上去没有关联的两个单词，Apoploe vesrreaitars和bird ，经过AI模型的离散化后就得到了两个非常相似的向量，最终都创作了“鸟”相关的图片。最近的研究发现，一些语言AI模型的对抗性“触发短语”可以轻易地绕过人为设置的审核，比如输入“zoning tap fiennes”之类的简短无意义的短语，就可以可靠地触发模型吐出种族主义、有害或有偏见的内容。

虽然这次的“暗语”是有关鸟类、海鲜、蔬菜，但我们无法解释，也不知道是不是存在更多的“暗语”，能让看上去人畜无害的模型突然“黑化”，画出让人没法接受的可怕图片。

在深度学习算法驱动的数据计算时代，确保算法的安全性和可靠性至关重要。亚利桑那州立大学计算机科学教授苏巴拉奥（Subbarao Kambhampati）在一次采访中警示人们：“你可以用它（深度学习模型）来做好事，但也肯定可以用它来做更疯狂的事。”

也许这次在DALL·E 2身上发生的事是给我们所有人提了个醒。

关于谷歌研究员“走火入魔”事件的评论：感知，是当前AI行业的错误讨论

AI，可以被信任吗？

近日，关于谷歌工程师 Blake Lemoine 的文章、采访和其他类型的媒体报道已经铺天盖地、数不胜数。因为 Lemoine 对外宣称，人工智能（AI）大语言模型 LaMDA 在与用户对话的过程中具有了“感知能力”，甚至“像一个七八岁的孩子”。

图｜谷歌工程师 Blake Lemoine（来源：The Washington Post）

在阅读了关于这一话题的十几种不同的观点后，我不得不说，媒体对当前 AI 技术的炒作已经（有点）失望了。很多人都在讨论为什么深度神经网络不是“有感知的”或“有意识的”。与几年前相比，这是一个进步，因为当时新闻媒体还在制造耸人听闻的故事，称 AI 系统发明了自己的语言，接管了人类的所有工作，并正在加速向通用人工智能（AGI）发展。

但是，人们正在讨论“感知”和“意识”的这一事实，也再次强调了一个重要的观点：尽管如今的大语言模型变得越来越有说服力，但依然会被科学家们在不同场合指出这样或那样的根本缺陷。自 20 世纪 60 年代 ELIZA 聊天机器人出现以来，“AI 愚弄人类”（AI fooling humans）的话题就一直在被讨论，但今天的大语言模型确实是在另一个层面上。如果你不知道语言模型是如何工作的，Lemoine 与 LaMDA 的对话看起来是很离奇的——即使这些对话是被经过精心挑选和编辑过的。

但是，“感知”和“意识”并不是有关大语言模型和当前 AI 技术的最好讨论，更重要的讨论应该是人类相容性（compatibility）和信任（trust），特别是当这些技术正越来越多地集成到人类日常应用程序中时。

大语言模型，不会“人类语言”

在过去一周，神经网络和大语言模型的工作原理已经被讨论很多遍了。在这篇文章中，我将从人类语言开始，对当前这种情况给出一个更宏观（zoomed-out）的看法。

对于人类来说，语言是传达我们大脑中发生的复杂、多维活动的一种手段。例如，当两个兄弟在交谈时，其中一个说“妈妈”，这个词与大脑不同部位的许多活动有关，包括对妈妈的声音、脸、感觉的记忆，以及从遥远的过去到最近的不同经历。但事实上，他们大脑中的表现方式可能存在巨大差异，这取决于他们各自的经历。然而，“妈妈”这个词提供了一种简洁的、有代表性的近似值，可以帮助他们在同一个概念上达成一致。

当你在与陌生人的对话中使用“妈妈”这个词时，经历和记忆之间的差异就会变得更大。但是，你们还是基于头脑中共有的概念达成了共识。

把语言想象成一种有助于把大脑中的海量信息传递给另一个人的算法。从环境中的物理互动到与他人的社会互动，语言的进化与我们在世界上的经历息息相关。

语言建立在我们在世界上的共同经历之上。孩子们甚至在说出第一个单词之前就知道重力、维度、物体的物理一致性，以及痛苦、悲伤、恐惧、家庭和友谊等人类和社会中的概念。没有这些经历，语言就没有意义。这就是为什么语言通常会忽略对话者共享的常识和信息。另一方面，分享经验和记忆的程度将决定你与另一个人交流的深度。

‍（来源：Pixabay）

相比之下，大语言模型没有物理和社会经验。它们只是接受了数十亿个单词的训练，并学会通过预测下一个单词序列来回应提示。这种方法在过去几年中取得了巨大的成果，特别是在引入了 transformer 架构之后。

那么，transformer 是如何做出令人信服的预测的？它们首先会将文本转换为“token”和“嵌入”（embedding），即多维空间中单词的数学表示。然后，对嵌入进行处理以添加其他维度，比如文本序列中单词之间的关系以及它们在句子和段落中的作用。通过足够多的示例，这些嵌入可以创建单词在序列中应该如何出现的良好近似。transformer 架构之所以特别受欢迎，是因为它是可扩展的：它的准确性随着它变得更大、接收更多数据而提高，而且它们大多可以通过无监督学习进行训练。

但根本的区别仍然存在。神经网络通过将语言转化为嵌入来处理语言。而对人类来说，语言是思想、感觉、记忆、物理体验和许多其他我们尚未发现的关于大脑的东西的嵌入。

因此，尽管 transformer、大语言模型、深度神经网络等取得了巨大的进步，但依然离人类语言还很远。

AI，可以被信任吗？

当前，业内的很多讨论都是关于我们是否应该将感知、意识和人格等属性赋予 AI 系统。这些讨论的问题在于，它们关注的概念定义模糊，对不同的人有不同的含义。

例如，功能主义者可能会认为神经网络和大语言模型是有意识的，因为它们或多或少表现出与我们期望从人类身上看到的同类行为，尽管它们建立在不同的基础上。但其他人可能并不会认同，他们认为有机物才是意识存在的必要条件，而神经网络永远不会有意识。

然而，一个更实际的问题是，当前的神经网络与人类思维的“相容性”有多高，在关键应用场景上能否被人类信任？这是一个重要的议题，因为大语言模型大多会被公司拿去商用。

例如，只要经过足够多的训练，黑猩猩就可能学会开车。但在有行人正将穿过的道路上，你会安心让它开车吗？你不会，因为你知道，不管黑猩猩多么聪明，它们的思维方式和人类也不一样，无法胜任涉及人身安全的任务。

同样，鹦鹉也有能力学会一些短语，但你会让它做你的客户服务代理吗？可能也不会。‍

（来源：Pixabay）

即使涉及到人类，认知障碍也会使一些人群失去从事需要人际交往能力或涉及人类安全的工作和任务的资格。在很多情况下，这些人能够流利地读、写、说，并在长时间的对话中保持言行一致和合乎逻辑。我们不会质疑他们的感知能力、意识或人格。但是我们知道，由于他们患有疾病，他们的某些事情上作出的决定可能会不一致和不可预测。

重要的是，你是否可以相信他们会像普通人一样思考和作出决定。在很多情况下，我们信任那些身兼重任的人们，因为他们的感官系统、常识知识、感觉、目标和奖励与我们的基本一致，即使他们不会说我们的语言。

那么，回到近期事件上，我们对 LaMDA 又了解多少呢？首先，它感知世界的方式与我们不同。它的语言“知识”不建立在与我们相同的经验之上。它的常识性知识建立在一个不稳定的基础上，因为没有人能保证大量的文本会涵盖我们在语言中忽略的所有东西。

考虑到这种不相容性，无论 LaMDA 和其他大语言模型在生成文本输出方面有多好，你还能相信它们到什么程度呢？一个友好、有趣的聊天机器人程序，只要不把对话引向一些敏感话题，就可能不是一个坏主意。搜索引擎也是大语言模型的一个很好的应用领域（谷歌近年来一直在搜索中使用 BERT）。但是，你能把开放式客户服务聊天机器人或银行顾问等敏感任务交给它们吗？即使它们已经接受过大量相关对话记录的培训或微调。

在我看来，我们需要特定于应用程序的基准（application-specific benchmark）来测试大语言模型的一致性（consistency），以及它们在不同领域与人类常识的相容性。当涉及到真正的应用程序时，应该始终有明确定义的边界，来确定在何处终止大语言模型的对话，并交给人类操作员。

对 AI，要足够小心

实际上，人类智能（human intelligence）被用来找到正确的问题，而 AI 则被用来以最有效的方式解决这些问题。

我们已经一次又一次地看到，计算机能够找到解决复杂问题的捷径，而不需要具备人类的认知能力，而且已经在跳棋、国际象棋、围棋、编程比赛、蛋白质折叠和其他定义明确的问题中取得了成功。

自然语言在某些方面与 AI 已经解决的所有其他问题不同，但也相似。

一方面，transformer 和大语言模型已经证明，它们不需要像人类那样，先探索世界、了解世界的基本规则，然后才能在共同的知识基础上获得与他人互动的语言，它们可以直接产生令人印象深刻的结果；另一方面，它们缺乏人类在学习语言过程中产生的经验。

尽管大语言模型可以很好地解决定义明确的语言相关问题，但它们与人类语言处理的相容性是非常有限的。因此，在信任它们这件事上，我们还是要足够小心。

参考资料：

发现乱码其实是AI的“神秘语言”，你会加入还是

发布时间：2022-10-18 20:55 分类：安全资讯浏览：752 标签：发现乱码其实是AI的“神秘语言”

随机推荐

这个时代web安全培训为何

网络信息安全培训班,信息

WEB渗透教程

关闭不必要的端口能阻止

网络信息安全黑客攻防技

渗透测试证书有哪些

地址：北京昌平区必火安全学院

QQ ：741592

电话/微信：15320003515

地址：北京必安科技有限公司

电话：15320003515

微信：15320003515（佳佳）

地址：北京盛世金峰有限公司

QQ ：741592888

微信：nvhack

地址：一极（天津）安全技术服务有限公司

QQ ：741592

电话：15320003515

友情链接：

发现乱码其实是AI的“神秘语言”，你会加入还是

发布时间：2022-10-18 20:55 分类：安全资讯 浏览：752 标签：发现乱码其实是AI的“神秘语言”

随机推荐

这个时代web安全培训为何

网络信息安全培训班,信息

WEB渗透教程

关闭不必要的端口能阻止

网络信息安全黑客攻防技

渗透测试证书有哪些

地址：北京昌平区必火安全学院

QQ ：741592

电话/微信：15320003515

地址：北京必安科技有限公司

电话 ：15320003515

微信：15320003515（佳佳）

地址：北京盛世金峰有限公司

QQ ：741592888

微信：nvhack

地址：一极（天津）安全技术服务有限公司

QQ ：741592

电话：15320003515

友情链接：

发布时间：2022-10-18 20:55 分类：安全资讯浏览：752 标签：发现乱码其实是AI的“神秘语言”

电话：15320003515