Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻

发布于: 雪球转发:6回复:15喜欢:9

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。

论文地址:网页链接

项目地址:网页链接

Demo 地址:网页链接

除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

|图片、视频一键识别,哪里喜欢点哪里

虽然智能抠图这件事并不算是个新鲜事物,但如果你尝试过用P图软件来抠图换背景,就会发现想把照片抠得快、抠得准、抠得自然其实是一件费时又费力的事。

从技术的角度来说,数字图像的“抠图”一直就是计算机视觉领域的一项经典且复杂的任务,其中关键的难点在于识别的时间和精准度。Meta此次发布的SAM可以说给出了近乎完美的解决方案。

对于任何一张照片,Meta都可以快速识别照片中的所有物体,并智能地将其分割成不同的形状和板块。你可以点击图中的任意物品进行单独处理。

此次SAM的一大突破还在于即使是在训练过程中从未遇到过的物品和形状,人工智能也能将其准确识别并分割出来。

而除了简单的识别图片中的物品之外,此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。

比如你可以通过将鼠标悬浮在该物体之上,就能自动定位出物体的轮廓。即使是颜色非常相近或者有连人眼都很难快速分辨出的倒影的图片之中,SAM都能非常准确的找出轮廓边线。

再比如,你也可以直接通过输入文字查询,AI就可以帮你找到并标记出这个图片中的你想找的这个文字对象。

不仅仅是静态图片,对于视频中的物体,SAM也能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。这听上去是不是确实有点钢铁侠头盔的味道了?

看到这里是不是已经觉得很厉害了?别着急,Meta这次还有大招。

除了能把物品从图像中精准地分离出来,SAM还能支持对这个物品的编辑。也就是说,你可以把这个衣服从这个模特身上换下来,或许再换个颜色改个大小,放在另一模特身上。

你也可以把你从静态图片中“抠”出来的椅子,进行3D渲染和编辑,让它从一个图片立刻动起来,接着你还可以改变形状或者进行更多的创意操作。

计算机视觉领域的 GPT-3 时刻,打开更大应用想象空间

Meta发布了SAM之后,立刻吸引了大量关注,甚至在很多人工智能业内人士的眼中,SAM的出现可以说是计算机视觉领域的GPT-3时刻。

英伟达人工智能科学家 Jim Fan 表示此次SAM最大的一点突破是它已经基本能够理解“物品”的一般概念,即使对于未知对象、不熟悉的场景(例如水下和显微镜里的细胞)它都能比较准确的理解。因此他表示相信SAM的出现会是在计算机视觉领域里的GPT-3时刻。

不仅是Jim有这样的观点,一些AI研究专家甚至也表示,SAM之于计算机视觉,就像是GPT之于大语言模型。

而就在SAM昨天发布之后,很多人也在第一时间上手进行了实测。硅星人浏览了一圈,发现不仅基本满屏都是惊叹,一些网友还结合自身的工作领域打开了SAM更广的应用想象空间。

有人将包含了众多复杂元素的图片上传之后,SAM识别起来毫无压力,无论是近景还是远景,大量的复杂细微的元素都可以基本准确找出。

有自然科学研究者将SAM和卫星图像结合在了一起,表示SAM能够很好的识别和找到他标记的风貌类型。

有神经外科影像学的专家将SAM用到了一个脊髓血管病的病例文件之中,认为SAM在帮助判断和分析病情上有很大帮助。

有生物学家输入了一张显微镜下的组织图片,即使图中形状特征毫无规律,但凭借着Zero-shot技术,SAM也能够自动识别多细胞结构中的腺体、导管、动脉等。该生物学家认为SAM的产出结果已经非常接近完美,未来能够节省大量手动注释的时间。

还有有骑行爱好者将地图和SAM结合起来,认为能够帮助自己未来更快更高效地给地图做标记。

|基于1100万张照片训练,模型和数据全部开源

总体来看,跟过去的一些计算机视觉模型相比,SAM 在几个方面有着显著的提升和不同。

首先,SAM 开创性地跟Prompt结合了起来。它可以接受各种输入提示,例如点击、框选或指定想要分割的对象,这种输入并不是一次性指令,你可以不停地对图像下达不同的指令达到最终的编辑效果,这也意味着此前在自然语言处理的Prompt模式也开始被应用在了计算机视觉领域。

此外,SAM基于1100 万张图像和 11 亿个掩码的海量数据集上进行训练,这是迄今为止最大的分割数据集。该数据集涵盖了广泛的对象和类别,例如动物、植物、车辆、家具、食物等,这些图像的分辨率达到了1500×2250 pixels,平均每张图像约有100个掩码。此次SAM采用了轻量级掩码解码器,可以在每次提示仅几毫秒内在网络浏览器中运行。

SAM 在各种分割任务上具有很强的零样本性能。零样本意味着 SAM 可以在不对特定任务或领域进行任何额外训练或微调的情况下分割对象。例如,SAM 可以在没有任何先验知识或监督的情况下分割人脸、手、头发、衣服和配饰。SAM 还可以以不同的方式分割对象,例如红外图像或深度图等。

SAM的训练数据集是OpenImage V5的6倍

Meta表示,目前公司内部已经开始使用SAM相关技术,用于在Facbook、Instagram等社交平台上照片的标记、内容审核和内容推荐等。而之后,生成人工智能作为 "创意辅助工具 "也将被作为今年的重点优先事项被纳入到Meta更多的应用程序中。

此次,可能最让很多业内人士惊喜的地方在于,无论是SAM模型还是巨大的训练数据集都是开源的!也就是说,目前任何人都可以在非商用许可下载和使用SAM及数据。

Meta表示,此举是希望进一步加速整个行业对图像分割以及更通用图像与视频理解的研究。‘Meta也预计,随着SAM的演进和发展,该技术可能会成为未来AR/VR、内容创作、设计更多领域的强大的辅助工具。

Meta的模型SAM至少涉及两个方向,一是机器视觉,再一个是推动XR。

周五异动且比较正宗的标的:

$凌云光(SH688400)$ :公司的机器视觉已经在消费电子、新型显示、印刷包装和新能源等众多行业获得广泛应用。在智能算法方面,公司自2005年启动研发核心算法库VisionWARE,到2021年,该算法库迭代至5.0版本。截至目前,公司已具有基础、定位、测量、检测、识别、颜色、3D、深度学习和图形用户界面等9个技术模块、18个算法库和100余个算法工具包。公司算法功能的通用性强,经过多年持续研发并快速迭代升级,在精度、效率及稳定性三个性能指标上具备较好优势。

而且凌云光参与开发与应用北京智源的悟道大模型。

$大华股份(SZ002236)$ :公司基于深度学习对视频中人、车和物的检测和各类属性的提取,性能指标已经达到国际一流。公司的车身识别技术可以识别130种车辆品牌以及3,000多种的车型。公司2016年在人脸识别领域的LFW上取得排名第一;2017年,公司在文本检测和识别领域的ICDAR上3项排名第一,在场景流识别领域的KITTI排名第一。

大华一直是卖方重点推荐的核心品种,强趋势。

$虹软科技(SH688088)$ :致力于计算机视觉技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能手机、智能汽车、AIoT等智能设备提供一站式计算机视觉技术解决方案。

其他还有:云从科技、格林深瞳、奥普特奥比中光等。

XR卖方推荐标的:

苹果MR相关标的:

长盈精密/智立方/兆威机电/杰普特/歌尔股份/华兴源创

苹果VR/AR标的:

三利谱/紫建电子/联合光电/国光电器

引用文章:网页链接

全部讨论

2023-04-08 09:13

昨晚刚在看凌云光研报,老师勤奋。

抠图。。把图片里面的东西拿出来这种事。。我怎么感觉好几年前华为手机都能做到

2023-04-09 05:49

图片评论

2023-04-09 05:49

图片评论

2023-04-08 08:48

科创板早一步真是烈士啊 奥比 虹软 $仕佳光子(SH688313)$ 都是去年7 8月挖掘的