蚂蚁发起“隐私革命”

发布于: 雪球转发:0回复:0喜欢:4

AI加快了整个行业迈向数据密态时代。

7月5日,在2024年世界人工智能大会上,蚂蚁集团推出了蚂蚁密算公司的第一款产品——“隐语Cloud”大模型密算平台。

据蚂蚁密算CEO王磊介绍,“隐语Cloud”大模型密算平台主要提供两个能力,分别为大模型密态托管和大模型密态推理。

密态托管主要是解决大模型本身IP保护的问题,当大模型在云上部署的时候,大模型会被加工成密态的,确保模型IP不会被别人偷去。大模型密态推理主要解决的是访问信息的保护,访问信息在整个的推理过程中都是密态的。

当下,高质量数据供给和安全流通,成为大模型进入垂直产业应用的首要挑战。大模型在垂直行业应用时,许多企业通过私有化部署来应对数据安全挑战,这不仅增加企业的运维和服务成本,也影响对外服务的效率和质量。

专业数据通常分布在不同机构和企业,因其高价值和保密性而难以共享。同时,企业、大模型厂商和用户之间存在信任障碍:企业担心数据泄露,厂商担心模型资产安全,用户则担心个人隐私风险。

王磊透露,隐语Cloud平台将提供全链路数据安全服务,覆盖大模型从构建到服务的全过程。平台将为大模型的预训练、微调、评测、推理和用户交互提供密态计算,确保数据在提供方、使用方之间的安全流转。此外,平台还将提供包括密态检索、提示词和流程编排在内的全链路开发工具。

蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬认为,数据供给决定了大模型应用能力的上限,而隐私计算技术决定了数据跨域供给的上限。当大模型从通用走向专业应用,从技术想象力走向产业的生产力,必须要解决高质量数据集稀缺与专业数据阻滞的挑战,否则大模型作为“智力引擎”,只会陷入空转。

5月底,蚂蚁集团宣布了以AI和数据技术为核心的科技战略,并成立了浙江蚂蚁密算科技有限公司,将提供密算相关的产品和服务,包括一套端到端的数据安全保障、一套软硬件结合的计算加速解决方案和一个隐私计算云服务平台,推动数据安全可信的跨云跨端低成本流通。

以下是华尔街见闻与蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬和蚂蚁密算CEO王磊的对话实录(经编辑):

提问:如何看待成本、安全和性能之间的关系?

王磊:安全一定是有成本的,这本质上包含两个方面:首先,从商业视角看,隐私计算技术带来的安全收益是否足够抵消成本。例如,在数据泄露事件中,我们观察到的损失动辄数百万美元,因此,如果安全措施的成本低于潜在损失,那么这些措施就是可接受的。其次,从技术角度出发,随着技术的不断迭代,相关成本将逐步降低。此外,隐私计算产品需要根据安全需求进行分级,对于价值不是非常高的数据,不必采用高成本的安全防护措施。在对数据进行安全分级的基础上,技术措施也应相应分级。当数据的价值与其安全措施的成本相匹配时,这样的安全策略才是最经济、最合理的。

提问:如何理解在加入密态计算流程后,服务成本反而降低的情况?此外,加入密态计算似乎增加了一个步骤,这将如何影响整个数据流通的效率,是提高还是降低?

韦韬:单纯看技术链路肯定是成本更高,但从整个全链路来看,综合考虑人为因素、技术因素和合规因素等,实际上总成本是更低的。明文计算虽然在初期看似简单,但一旦发生数据泄露,将会带来巨大的损失,包括商业利益的损失和法律风险等。密态计算的研发将引发一场变革。目前,许多数据源方由于担心数据泄露,不敢轻易共享数据。密态计算技术能够使这些原本无法流通的数据得以安全流通,从而充分发挥数据的价值。

提问:随着大模型的问世,人们普遍关注算力速度和价格这两个问题。近两年,许多独立的隐私计算厂商发现生意越发难做。在我们的策略或方法中,当应用到具体的业务场景时,客户通常在哪些方面会采用密态计算?

韦韬:在过去两年中,隐私计算行业进行了大量尝试,主要处于所谓的"桶装水"阶段,实现了点对点的连接。PSI(隐私计算求交)是目前应用最广泛的技术之一,它允许两个机构在保护各自用户隐私的前提下,进行用户群体的交集计算。虽然这种技术在验证单个环节方面表现良好,但其应用范围相对有限,尚未实现数据流转的全链路保护。

在整个研发过程中,数据源方对于数据泄露的担忧仍然很大,这一问题尚未得到有效解决。当前的技术应用在深度和广度上都还不够。如果将"桶装水"阶段的技术扩展到大规模应用,成本将会非常高,而且整个流程缺乏一致性的保障,风险也未能得到有效控制。

王磊:隐私计算商业化之所以不再那么热门,主要有以下两个原因:首先,隐私计算技术目前主要适用于小规模应用,且成本高昂,难以实现规模化,这导致了成本难以降低。只有扩大规模,成本才有望降低。其次,传统的商业模式主要是销售软件,这种高成本的交付模式并不利于隐私计算技术的应用和推广。隐私计算的最终目标是促进数据的安全流通。

我们成立新公司后,也在深入思考这个问题。一方面,我们计划采用云化模式,包括即将推出的隐语Cloud等系列产品。我们认为,只有通过云服务,数据才能真正实现大规模流通,并应用于更复杂的场景,从而实现规模化并降低成本。同时,我们也将在端侧推出相关产品,实现端云协同。

另一方面,我们希望建立一种对结果负责的商业模式。这意味着在数据流通的整个过程中,我们能够确保数据安全,从全链路的角度降低成本和法律风险。我们希望在这个过程中持续获得收益,因为数据价值得到了保障,从而从数据价值中获得利润。

我们希望引入保险公司,它能够起到两个作用:一是作为独立第三方,在事前对产品安全性进行评估,提供数据安全保险;二是在发生不可预见的黑天鹅事件时,提供事后保障。通过这个方式推动整个的产业良性地运作起来。这样的机制将促进整个产业的良性运作。只有商业模式健康运转,技术创新和迭代才能持续健康发展。

提问:在过去几年中,市场上普遍认同了隐私计算技术的重要性,但在技术层面,对其是否为一项必不可少的技术存在分歧。一些专家指出,尽管隐私计算的成本较高,但可能存在性价比更高的替代技术。隐私计算要获得市场机构的广泛认可,是否真的存在迫切的需求?它还需要克服哪些障碍?

韦韬:隐私计算技术的发展轨迹与光伏产业颇为相似。光伏技术刚推出时成本高昂,不可能立即普及到所有行业。然而,随着高需求行业率先采用并推动规模化生产,成本逐渐降低。当光伏发电成本降至与煤电相当的临界点时,它便开始得到广泛应用。

隐私计算同样遵循这一模式,它将首先在高价值数据和场景中得到应用。尽管隐私计算解决的问题并非仅限于高价值数据,但当前数据泄露问题已经非常严重。许多机构的数据在暗网上被交易,造成严重后果。然而,这只是冰山一角,国内黑产的大量数据交易已经不仅限于暗网,这是一个非常危险的现象。数据泄露正在大规模发生,对社会造成巨大伤害,而传统技术路径无法有效保障数据安全。

当高价值数据和场景的行业首先建立起隐私计算体系,并实现规模化以降低成本时,它将能够服务于更多行业。我们认为,每个行业场景的临界点是隐私计算的成本降至数据流通价值的5%左右,这将实现规模化推广。

王磊:我也补充一下,首先先讲一个概念,虽然我们经常提到密态计算,但隐私计算仍然是行业内的共识。我们之所以不再频繁提及隐私计算,并不是为了炒一个新概念。在大家的印象中隐私计算更多是基于多方安全计算和联邦安全学习两方做融合,融合的过程中增加保证参与者之间互相不能够窃取到数据。其实在数据大规模流通过程中,很多应用场景并不是这个。

举个很现实的例子,现在公共数据开放面临什么风险?数据要放到外网做开放,这里面可能不涉及到数据融合,但有巨大的风险,这是他们不敢开放的原因。例如,将政务内网的数据转移到外网平台时,如何确保数据的安全性?即使运维公司是可信的,运维人员是否也同样可信?他们是否可能通过拆卸硬盘或其他方式轻易地窃取数据?此外,在数据加工和使用过程中,即使是有正常权限的人员,也可能存在数据泄露的风险。

所以有很多的真正有价值的数据是不敢开放的,一直讲开放,一直很难开放。密态计算通过密态的方式确保运维者没有办法窃取到数据,让数据真正的开放流通起来。

隐私计算之前只应用到整个数据流通当中的一小环节一小部分环节,当数据真正大面积流通,我需要做到多方数据融合。我们认为密态计算是下一代的隐私计算,希望解决数据更大规模流通中遇到的真正问题。

本文来自华尔街见闻,欢迎下载APP查看更多