格灵深瞳发布大规模中文视觉语言预训练数据集:丹青
格灵深瞳发布大规模中文视觉语言预训练数据集“丹青”(DanQing),包含1亿组图文配对数据,基于2024–2025年网络数据构建。该数据集采用更严格的筛选机制,研究团队基于SigLIP2模型实验表明,其在零样本分类、跨模态检索及大型多模态模型评测等任务中表现优异。 据介绍,团队实现了一个基于BERTopic 的主题建模流程。他们随机抽取了1000万个图像-文本对,并使用Chinese-CLIP-L/14提取文本嵌入。为了解决高维聚类问题,团队应用UMAP进行降维,然后使用HDBSCAN识别语义簇,最小簇大小为1000,以提高稳定性并降低噪声。最后使用基于类别的TF-IDF为每个主题提取代表性关键词。 丹青数据集官网:https://deepglint.github.io/DanQing/
