Segment Anything 是 Meta AI 研究团队推出的计算机视觉基础模型,旨在实现任意图像中任意物体的高精度分割。我们的核心工作围绕 Segment Anything Model 展开,这是一个经过大规模数据训练的提示驱动分割系统,能够响应点、框或文本等输入,直接输出对应物体的掩码。项目诞生于对通用分割能力的探索,目标是让 AI 像人类视觉一样灵活识别并分割从未见过的物体,无需针对每个新任务重新训练。
我们相信,分割不应局限于特定类别或场景。因此,Segment Anything 致力于移除传统分割模型的边界:零样本、可提示、全场景覆盖。通过构建包含 1100 万张图像和 11 亿个掩码的 SA-1B 数据集,我们训练出一个参数高效的模型,能够在医疗影像、自动驾驶、遥感分析、创意设计等垂直领域快速落地。我们追求的不是单一指标上的领先,而是让分割技术真正成为通用视觉处理的基石。
Segment Anything Model 采用 Transformer 架构与轻量级掩码解码器,支持点、框、自动网格等多种提示模式。模型在训练阶段学习了丰富的物体形状与纹理关联,因此即便面对训练集中未出现的对象,也能通过提示词或交互点生成合理掩码。SA-1B 数据集由专业标注与自动校验流程构建,覆盖了从自然物体到人造物品的广泛分布,保证模型在不同光照、视角和遮挡条件下的鲁棒性。此外,我们开放了模型权重与推理代码,让研究人员和开发者能够直接集成或微调。
Segment Anything 由 Meta AI 基础视觉研究组主导,成员来自计算机视觉、自然语言处理、系统架构等多个方向。团队曾参与 DINO、MoCo、ConvNeXt 等前沿工作,具有深厚的自监督学习与大规模训练经验。两年多的研发过程中,我们解决了数据标注效率、模型收敛稳定性、推理速度优化等多重挑战。最终成果以开源形式发布,并附带详细的技术报告与示例代码,希望以此推动社区对通用分割的研究与应用。
我们相信,最好的模型诞生于开放生态。Segment Anything 的模型权重、推理代码以及 SA-1B 数据集子集均对公众开放。开发者可以在 GitHub 上获取完整仓库,在 Hugging Face 上直接体验在线 demo。我们同时发布了针对不同计算场景的轻量版本,从云端服务器到边缘设备均有对应部署方案。欢迎技术爱好者、研究人员和行业从业者基于我们的工作构建自定义分割流程、数据增强工具或下游应用。