发布于: 修改于:Android转发:3回复:22喜欢:10
全球首款 Transformer 专用 AI 芯片 Sohu 发布:比英伟达 H100 快 20 倍
美国新兴的芯片创业公司 Etched 发布其首款 AI 芯片——Sohu。这款芯片在运行大型模型时展现出了惊人的性能,其速度超越了行业巨头英伟达的 H100 高达 20 倍,即便是与今年 3 月才面世的顶尖芯片 B200 相比,Sohu 也展现出超过 10 倍的优越性能。Sohu 芯片的最大突破在于它直接将 Transformer 架构嵌入芯片内部。据 Etched 公司负责人 Uberti 透露,Sohu 采用了台积电的先进 4 纳米工艺制造,不仅在推理性能上远超 GPU 和其他通用人工智能芯片,更在能耗控制上达到了新的高度。
$英伟达(NVDA)$
打造Sohu芯片的Etched位于加州库比蒂诺,公司成立仅两年,目前团队只有35人,创始人是一对哈佛辍学生Gavin Uberti(前OctoML和前Xnor.ai员工)和Chris Zhu,他们与Robert Wachen和前赛普拉斯半导体公司首席技术官Mark Ross一起,一直致力于打造专用于AI大模型的芯片。
芯片项目的成本为5000万至1亿美元,需要数年时间才能投入生产。另一方面,当模型训练成本超过10亿美元、推理成本超过100亿美元时,使用专用芯片是不可避免的。在这种产业规模下,1%的改进就能撬动硬件架构的更新。作为世界上首款transformerASIC(应用型专用集成电路)芯片,一台集成了8块Sohu的服务器可以匹敌160块H100GPU。也即,Sohu的运行速度是H100的20多倍。具体来讲,通过专门化,Sohu具备了前所未有的性能。一台集成8块Sohu芯片的服务器每秒可以处理50万的Llama 7B tokens。针对Llama 3 70B的FP8精度基准测试显示:无稀疏性、8倍模型并行、2048输入或128输出长度。此外,对于Llama、Stable Diffusion 3,Sohu仅支持transformer推理。Sohu支持了当前谷歌Meta微软、OpenAI、Anthropic等各家的模型,未来还会适配模型调整。由于Sohu仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu实现了90%以上的FLOPS利用率,而使用TRT-LLM的GPU约为30%。
在Sohu芯片发布的同时,Etched也宣布已完成了1.2亿美元的A轮融资,由Primary Venture Partners和Positive Sum Ventures共同领投。Etched的总融资额已达到1.2536亿美元,本轮融资的重要投资者包括Peter Thiel、GitHub首席执行官Thomas Dohmke、Cruise联合创始人Kyle Vogt和Quora联合创始人Charlie Cheever。不过对于占据超过80%AI芯片市场份额的英伟达来说,1.2亿美元只相当于它半天的收入。我们如此兴奋的原因,选择辍学的原因,以及我们召集团队,投身芯片项目的原因在于——这是最重要的工作,整个技术的未来将取决于算力基础设施能否实现大规模。

全部讨论

咱们的寒武纪在干嘛

06-27 17:10

小时候 天天点的是煤油灯。这才短短多少年。电灯 电话 互联网 。科技日新月异。在地球的年轮上 我们摊上的这几十年 也就一瞬间的事。你看看 这演化的速度。
眼下 真真的 AI 大爆炸时代。10年 20年 30年 后 会是怎样的情形 真的没法想象。
AI科技创新 层出不穷。这真是一个梦幻时代。很幸运我们这一代 能 参与其中。

06-28 15:17

由于Sohu仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块
这不就是个垃圾吗

06-27 23:18

搜狐 is all you need

06-30 14:58

06-28 15:37

做ppt