Meta 开源水印与污染检测工具 Text Seal
Meta AI研究团队近日开源了Text Seal工具包。该工具包专注于为大语言模型(LLM)提供生成时与事后两种文本水印方案,并可检测因基准数据被污染所产生的“水印放射性”信号。
具体而言,Text Seal是Meta Seal多模态开源水印框架的一部分,旨在提供稳健且不易察觉的水印方案。
Text Seal的功能包括:实施事后水印,即利用LLM对现有文本进行重写,同时使用生成时水印方案(如Green-list/Red-list、Gumbel-max、DipMark、SynthID、MorphMark、WaterMax)嵌入水印;进行污染检测,通过在训练过程中注入带水印的基准数据集,并检测模型输出的“水印放射性”,从而推断训练数据是否受到污染;提供训练基础设施,支持为研究目的进行带污染注入的分布式预训练和SFT。
开源地址:https://github.com/facebookresearch/textseal

