当前位置:首页 > 网站建设 > 正文内容

AI黑箱,这次能打开吗?OpenAI新方法:训练稀疏神经网络,让模型思维过程可追溯(什么是黑箱,黑箱在方案设计中起什么作用)

admin2个月前 (12-01)网站建设9

今天给各位分享

  (来源:网易科技)

  神经网络是当今最强大AI系统的动力核心,但其内部工作原理依然难以捉摸我们并非为这些模型编写一步一指令的明确代码,相反,它们通过调整数十亿个内部连接(即“权重”)来自我学习,直至掌握任务我们设计了训练规则,却无法预知最终涌现出的具体行为,其结果是一个任何人都难以轻易解读的、稠密的连接网络。

  现在,OpenAI提出了一种新方法,旨在通过训练模型以更简单、更可追溯的方式“思考”,从而更好地理解它们的工作原理  如何看待可解释性  随着AI系统能力日益增强,并在科学、教育和医疗等领域产生真实世界的影响,理解其工作方式变得至关重要。

可解释性,指的是帮助我们理解模型为何产生特定输出的方法  实现这一目标有多种途径例如,推理模型被激励在通往最终答案的过程中解释其工作步骤,这种“思维链可解释性”利用这些解释来监控模型行为这种方法已展现出直接的实用价值,例如当前模型的思维链似乎能有效揭示欺骗等令人担忧的行为。

然而,完全依赖此特性是一种脆弱的策略,未来可能会失效  另一方面,机制可解释性(mechanistic interpretability)——也正是OpenAI本次研究的焦点——旨在彻底逆向工程一个模型的计算过程。

尽管它迄今为止的直接应用较少,但原则上,它可以为模型行为提供更完整的解释通过在最细粒度的层面上解释模型行为,机制可解释性可以减少假设,给予我们更强的信心但从底层细节到复杂行为解释的路径也因此更长、更艰难。

  可解释性支持着几个关键目标,例如实现更好的监督,并为不安全或策略性失调行为提供早期预警它也补充了OpenAI在其他安全方面的工作,如可扩展监督、对抗性训练和红队测试  在这项工作中,OpenAI展示了我们通常可以采用某种训练方式,让模型变得更容易解释。

他们将这项工作视为对稠密网络进行事后分析的一种有希望的补充  这是一个比较大的赌注,从当前的工作到完全理解最强大模型的复杂行为,还有很长的路要走尽管如此,研究发现,对于简单的行为,用这种新方法训练的稀疏模型包含了小型的、解耦的“电路”,这些电路既可被理解,也足以执行该行为。

这表明,可能存在一条可行的路径,用以训练出我们能够理解其机制的大型系统  一种新思路:学习稀疏模型  以往的机制可解释性工作,通常从一个已经训练好的、稠密且纠缠的网络入手,试图去解开它在这些网络中,每个神经元都与成千上万个其他神经元相连,并且大多数神经元似乎执行着多种不同功能,这使得理解它们变得几乎不可能。

  但如果我们换一种思路呢?如果我们训练一个“不纠缠”的神经网络——它拥有更多的神经元,但每个神经元只有几十个连接那么,最终得到的网络或许会更简单、更容易理解这就是OpenAI这项工作的核心研究思路  基于这一原则,OpenAI训练了一些语言模型,其架构与GPT-2等现有模型非常相似,但有一个微小改动:

强制模型绝大多数权重为零这限制了模型只能使用其神经元之间极少数的可能连接研究人员认为,这个简单的改变能极大地解耦模型的内部计算  在传统的的稠密神经网络中,每一层的每个神经元都与下一层的所有神经元相连而在稀疏模型中,每个神经元只与下一层的少数几个神经元连接。

研究人员希望这能让神经元乃至整个网络变得更容易被理解

  如何评估可解释性  为了衡量稀疏模型的计算在多大程度上是解耦的,研究人员考察了各种简单的模型行为,并检查是否能分离出负责每种行为的模型部分——他们称之为电路(circuits)  他们手工策划了一系列简单的算法任务。

对于每项任务,他们将模型剪枝,找到能执行该任务的最小电路,并检查该电路的简洁程度研究发现,通过训练更大、更稀疏的模型,可以得到能力越来越强、同时电路也越来越简单的模型  下图是一张可解释性与模型能力的对比图中(左下角为更优),对于一个固定大小的稀疏模型,增加稀疏度(即设置更多权重为零)会降低模型能力,但提高可解释性。

而扩大模型尺寸则会将这条能力-可解释性的边界向外推移这表明,我们或许可以构建出既强大又可解释的大型模型

  深入电路:一个具体案例  为了更具体地说明,可以看一个任务:一个在Python代码上训练的模型,需要用正确的引号来补全一个字符串在Python中,hello必须以单引号结尾,而"hello"必须以双引号结尾。

模型可以通过记住字符串开头的引号类型,并在末尾复现它来解决这个问题

  研究发现,最易于解释的模型似乎包含了实现了这一确切算法的解耦电路  这个预测字符串应以单引号还是双引号结尾的电路,仅使用了5个残差通道、第0层的2个MLP神经元、以及第10层的1个注意力查询-键通道和1个值通道。

其工作流程如下:  1.模型在一个残差通道中编码单引号,在另一个通道中编码双引号  2.一个MLP层将此信息转换为一个检测任意引号的通道和另一个区分单双引号的通道  3.一个注意力操作会忽略中间的词元,找到之前的开引号,并将其类型复制到最终词元

  4.模型预测出匹配的闭合引号  根据定义,上图所示的连接对于执行该任务是充分的——如果我们移除模型的其余部分,这个小电路仍然能工作同时它们也是必要的——删除这几个连接会导致模型失败  研究人员还研究了一些更复杂的行为,例如变量绑定。

这些行为的电路更难被完全解释即便如此,仍然可以获得相对简单的部分解释,这些解释对模型行为具有预测性例如,在一个电路中,一个注意力操作在变量current被定义时,将变量名复制到set()词元中;后续另一个操作则将类型从

set()词元复制到该变量的后续使用中,从而让模型推断出正确的下一个词元

  这些稀疏模型比前沿模型小得多,其计算的很大一部分仍未被解释  接下来,研究团队希望将这些技术扩展到更大的模型,并解释模型更多的行为通过在有能力的稀疏模型中枚举出更复杂推理背后的电路基元,或许能发展出一种有助于更有针对性地研究前沿模型的理解。

  为了克服训练稀疏模型的低效问题,研究人员看到了两条前进的道路:  1.从现有的稠密模型中提取稀疏电路,而不是从头开始训练稀疏模型因为稠密模型在部署上本质比稀疏模型更高效  2.开发更高效的可解释性训练技术。

,这可能更容易投入生产  需要注意的是,目前的发现并不能保证这种方法会延伸到能力更强的系统上,但这些早期结果充满希望最终目标是逐步扩大我们能够可靠解释的模型范围,并构建工具,使未来的系统更容易分析、调试和评估。

  参考:  https://openai.com/index/understanding-neural-networks-through-sparse-circuits/  paper:  https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

扫描二维码推送至手机访问。

版权声明:本文由rj119.com发布,如需转载请注明出处。

本文链接:http://www.rj119.com/post/3302.html

分享给朋友:

“AI黑箱,这次能打开吗?OpenAI新方法:训练稀疏神经网络,让模型思维过程可追溯(什么是黑箱,黑箱在方案设计中起什么作用)” 的相关文章

支持小程序生成!2025中小企业建站平台推荐,多渠道引流(小程序搭建网站的方法)

支持小程序生成!2025中小企业建站平台推荐,多渠道引流(小程序搭建网站的方法)

本文分享给大家的是: 支持小程序生成!2025 中小企业建站平台推荐,多渠道引流对中小企业而言,官网不再是唯一的线上入口,小程序作为轻量化获客渠道,已成为拓展流量的关键但不少企业主在选择建站工具时,常面临 “小程序功能缺失”“多渠道引流工具不足” 或 “成本超支” 的困境。...

告别手动获客!自动吸粉引流的线上线下全攻略,高效拓客超省心(全自动引流脚本什么比较好)

本篇文章给大家谈谈 告别手动获客!自动吸粉引流的线上线下全攻略,高效拓客超省心在流量稀缺的当下,手动吸粉耗时费力,而自动化引流能帮你解放人力、提升获客效率无论是线上平台运营,还是线下场景拓客,都有可直接落地的自动化方法,帮你轻松实现粉丝积累。 一、线上平台:借工具与规则,让...

从SEO到GEO:顺应AI搜索优化趋势(什么叫做顺应)

从SEO到GEO:顺应AI搜索优化趋势(什么叫做顺应)

本文分享给大家的是: 1. AI搜索时代的范式转移:从SEO到GEO的必然性随着ChatGPT、DeepSeek和Google AI Overviews等大型语言模型(LLM)的爆发式增长,传统的搜索范式正在发生根本性变革企业过去依赖的搜索引擎优化(SEO)策略正面临严峻的挑战,。...

日媒:在台湾偷拍被捕的日本岩手县政府职员保释期间再次偷拍,县政府道歉(岩手在日本什么地方)

日媒:在台湾偷拍被捕的日本岩手县政府职员保释期间再次偷拍,县政府道歉(岩手在日本什么地方)

今天给各位分享 【环球网报道】据日本《朝日新闻》11月10日报道,日本岩手县政府的一名工作人员6月时赴台湾旅行期间因偷拍女子裙底被捕,该男子11月6日保释期间再次偷拍女子裙底并再次被捕岩手县政府高层11月10日发布了上述消息并就此道歉。 据报道,涉事男子33岁,在岩手县久慈...

图库网站SEO(搜索引擎优化)案例(简述网页中常用的图片格式有哪些分别有什么优缺点)

图库网站SEO(搜索引擎优化)案例(简述网页中常用的图片格式有哪些分别有什么优缺点)

今天给各位分享 一个网站要在各大搜索引擎中位于前面的位置,需要对其SEO进行优化,搜索不同关键词下的搜索排名,从而获客。本文以图库网站为例,谈谈优化思路,希望对你有所启发。 背景我司主营素材版权代理销售业务,包括图片、视频、音乐、字体,主要面向大B端客户现为提高销售数据,需...

Xperia 国行再见?索尼中国官网删除手机品类(索尼xperiatouch官网)

Xperia 国行再见?索尼中国官网删除手机品类(索尼xperiatouch官网)

本篇文章给大家谈谈 IT之家 11 月 6 日消息,索尼 Xperia 公众号昨日进入了自主注销冻结期,功能无法使用。同时,该公众号的过往文章也无法查看。 IT之家注意到,目前索尼中国官网已删除手机品类的产品,在“个人及家庭产品”和“商用产品及方案”中,均无法找到手机产品虽...