科普帖:ASIC与USI-T协议技术详解

发布于: 雪球转发:0回复:7喜欢:8

ASIC 技术详解

一:FPGA与ASIC的比较

FPGA是一种现场可编程门阵列。它由大量的逻辑单元、输入输出模块、存储器和时钟电路组成。FPGA的逻辑单元通常为可编程的逻辑单元,其内部结构由一组可编程查找表和一组D触发器组成。可编程查找表是FPGA构造逻辑的基本单元,可以实现与、或、非、异或等多种逻辑功能。随着时代的发展,现在FPGA还加入了数字信号处理器和嵌入式核等复杂模块,使得FPGA具有了更广泛的应用领域。

ASIC是特定应用j集成电路,它由大量的逻辑单元、模拟电路、存储器和时钟及电源管理等部分组成。ASIC在设计过程中没有可编程的逻辑单元,其逻辑做法是通过经过多次交叉验证的电路设计和模拟得到的。由于ASIC通常是为了特定的应用场景进行设计的,在设计过程中需要特别注意各种因素的影响和相互协作。ASIC的逻辑单元可以通过硬件描述语言进行配置,从而实现特定的逻辑功能。

1:应用领域

FPGA应用广泛,类似于H100,可以应用在训练模型端,也可以应用在推理模型端

ASIC特定应用场景,类似于比特大陆蚂蚁矿机,经过特定的逻辑单元,特定的哈希算法,从而在BTC矿机领域成为行业的领军者

2:可编程性

FPGA具有可编程性强的特点,可以灵活适应各个应用场景

ASIC编程难度大,设计周期长,只适应特定应用场景(类似比特大陆蚂蚁矿机,只能用来挖数字货币)

3:功耗

FPGA的逻辑电路中存在可编程逻辑单元,因此电路功耗较高,对能量消耗有要求的场景有限制。

ASIC采用固定的电路结构,功耗相对较低,通过对供电电压、器件材料和设计等方面的优化,可以进一步降低功耗。

4:性能

以目前FPGA为代表的H100为例,算力FP16为例,为1979 TFLOPS,即为1.979P算力

倘若把H100 改成ASIC,特定服务推理服务器,性能可以增长十倍!即FP16达到20P算力

5:体积

FPGA:以超微服务器为例,8U版本,为一个巨大的机箱

ASIC:以比特大陆蚂蚁矿机为例,为长条形小机箱,ASIC体积更小

6:技术难度与护城河

与FPGA相比,定制 ASIC 设计可以提供更高级别的知识产权 (IP) 保护。通过直接在硬件中实施专有算法和功能,公司可以保护其知识产权免遭逆向工程和未经授权的使用。(硬件中实施算法!类似蚂蚁矿机,十年来无法复制)

7:成本

ASIC在设计端成本高昂,后续量产以后,在大批量供货阶段,ASIC芯片具有无可比拟的价格优势

二:训练服务器与推理服务器 分析

训练服务器:主要用于训练机器学习模型。这个过程中通常会涉及到大量数据的计算和存储,因此训练服务器需要有较高的计算能力和大容量的存储空间。同时,为了应对不断变化的数据集和算法需求,训练服务器应具备灵活的扩展能力。由于训练是一个计算密集型的过程,训练服务器通常配备有高性能的CPU、GPU以及其他专门设计的机器学习库,如TensorFlow、PyTorch等,以便能够有效地完成从数据提取特征、训练模型到优化模型参数的任务

推理服务器:则主要负责运行和提供已经训练完毕的机器学习模型的服务。这些模型可能是针对特定任务的,如图像分类、自然语言处理等。推理服务器需要能够高效地处理来自客户端的请求,这通常意味着它需要具备低延迟和高吞吐量的特点。考虑到推理通常是实时的,推理服务器可能需要更加节能的设计,以确保能够在有限的时间内提供准确的预测或推理服务。推理服务器可能不需要像训练服务器那样高的计算能力,但仍然需要足够的处理能力来支持复杂的模型和服务请求

1:分工

训练服务器是前端训练大模型

推理服务器是后端从大模型中抓取数据包

(这个其实是分析的很明白,很通俗易懂,先有训练服务器训练出大模型,随后客户查资料,查图片,需要瞬时在大模型中找到这些资料,随后拼凑成完整一段话,给客户解答,这就是推理服务器需要干的活)

2:存储

训练服务器需要大量DRAM NAND和HBM

推理服务器不需要存储数据,分工不同,推理服务器不需要存储数据,而是从大模型中抓取数据包

3:延迟

推理服务器比训练服务器更需要低延迟,抓取数据包的速度决定了后端AIGC用户端体验感

4:高吞吐量

推理服务器比训练服务器更需要高吞吐量,以应对多客户同时在线调取数据,以ChatGPT为例,目前有约1700亿条数据包,推理服务器需要在这1700亿条数据包内找到客户所需的答案,高吞吐量必不可少

5:用量

训练服务器:推理服务器=1:10

前端大模型构建完毕,后端的推理服务器挂靠在大模型上,需求及其庞大,各行各业都需要推理服务器从大模型中抓取数据包,需求量巨大

6:成本

由于推理服务器需求量巨大,所以成本不得不考虑,倘若让全能H100,既当爹(训练大模型),又当妈(推理抓取数据),第一企业拿不到这么多的H100,其次其价格也是企业无法承受的

7:功耗

因推理服务器用量巨大,功耗问题不得不考虑,目前超微服务器 8U版本功耗为3000W,推理服务器用量巨大,低功耗是必须的

三:推理服务器与ASIC的结合

1:性能

即通过ASIC的算法调整,用低端的GPU,经过算法的优化,即可以达到H100的80%-90%,甚至超越H100

2:能耗比

以蚂蚁矿机为例,蚂蚁BTC矿机能效比实现了90倍以上的优化,单机算力增长超过1,400倍

3:市场占有率

以比特币挖矿为例,ASIC的蚂蚁矿机在BTC矿机市场的占有率一度达到了90%以上。

4:成本

由于ASIC具有无可比拟的价格优势,因此,ASIC更适合推理服务器

5:延迟

由于推理服务器需要低延迟这个特性,而ASIC经过独特的算法优化,可以把延迟控制在0.8MS之内

6:功耗与体积

ASIC因功耗比FGPA更低,而推理端需要大量的服务器,功耗和体积更占优势的ASIC,遥遥领先FPGA

四:推理服务器行业护城河

1:算法

通过优化的ASIC,拥有独特的算法,可以在亿万条数据包中抓取数据,算法是推理服务器第一条护城河,由于ACIS是内嵌算法和功能,具有无法复制,无法逆向工程,护城河不可逾越!

2:接入CUDA

由于目前英伟达的训练服务器都是接入CUDA系统,而目前我们国内前端大模型都以英伟达H系列和A系列为主,后端推理服务器,能否接入CUDA系统至关重要,不能接入CUDA,就等同于不能接入大模型

3:高吞吐量

以华为为例,其搭载昇腾处理的 ATLAS 300i推理卡,为PCIE版本,PCIE 4.0 每秒64GB,PCIE 5.0每秒128GB,而ACIS由于可定制的优势,可以把高速传输芯片直接内嵌在主板上,每秒速度可以达到256G甚至更高,高吞吐量,就意味着低延迟和多命令同时执行,起到降本增效的效果

注意我说的推理服务器三条护城河,一条都不可或缺,首先,ASIC的算法,是这个行业的第一条护城河,大家都知道比特大陆的蚂蚁矿机,凭借着对哈希算法的解码,从2013年上市以来,全球市占率要要领先,到目前为止,无人能敌!

其次就是能否接入CUDA系统,目前主流大模型都是CUDA生态,推理服务器能否接入CUDA是至关重要的!看看国内的寒武纪,摩尔线程,遂原等等GPU厂商,由于不能接入CUDA,导致没有生态,产品不能落地,所以CUDA系统的接入是至关重要,也是极强的护城河!

USI-T技术详解

苏州内夏,核心要点在于拥有三星USI-T接口协议的授权(全球四家USI-T接口协议授权,苏州内夏为中国大陆唯一一家,其余为台湾两家,以及三星半导体),对于LDDI行业来看,V-BY-ONE接口协议从诞生开始,始终占据着主流,台湾三家企业,联咏,奇景光电,敦泰占据了V-BY-ONE大部分专利,但是随着科技和时代的进步,4K,特别是8K电视机在未来的普及,V-BY-ONE接口协议在未来,就面临一些问题,根据资料显示,V-BY-ONE接口协议最高传输速率,3.7Gbps,而三星的USI-T 2.0技术,已经达到4.0Gbps,USI-T2.02版本,更是达到4.4Gbps!随着未来8K电视的普及,以及MINI LED Micro LED的普及,数据传输协议接口,必将重新洗牌!

这就是今天要讲的ASIC和USI-T接口协议的科普帖,仅供参考,资料来源于网络,如有侵权,请联系我删除,谢谢!

$农尚环境(SZ300536)$

全部讨论

01-29 03:51

把这篇科普认认真真反复看个十遍,看懂了ASIC,就明白这个技术有多牛,ASIC就是为了推理而生,小巧玲珑的机箱,低功耗,低延迟,高吞吐,多命令同时执行,同时推理服务器行业护城河为算法和接入CUDA,缺一不可,一旦拥有护城河,就有无法复制,无法逾越的巨大优势!

01-29 12:55

今天出了一个机构问答 这应该是这几年第一次吧