Transformer Debugger —— Transformer 内部结构分析工具
Transformer Debugger 是 OpenAI 的 Superalignment 团队开发的一款工具,旨在支持对小语言模型的特定行为进行研究。 TDB 可以在编写代码之前进行快速探索,能够干预前向传递并查看它对特定行为的影响。它可以用来回答诸如 "为什么模型会输出 token A 而不是 token B" 或 "为什么 attention head H 会关注 token T" 之类的问题。它通过识别对行为有贡献的特定组件(neurons、attention heads、autoencoder latents),显示自动生成的关于导致这些组件激活最强烈的原因的解释,以及追踪组件之间的连接以帮助发现联系。 本次开源发布的内容包括: Neuron viewer:一个 React 应用程序,托管 TDB 以及包含有关各个模型组件(MLPneurons、attention heads and autoencoder latents for both)信息的页面。 Activation server:对主题模型进行推理,为 TDB 提供数据的后端服务器。它还从公共 Azure 存储桶...
