高性能液冷GPU服务器芯片和一般电脑芯片的区别中有上亿个晶体管,坏了一个还能工作吗?

这个取决于坏的是哪部分电路。一般都会有冗余考虑。并且某些坏的或者功能有问题的区域可以通过物理或逻辑开关屏蔽掉。数字芯片从业人员也分前后端设计的工作。对于纠错的问题,从纯硬件的角度来说,在数字电路设计和仿真验证的时候通常有非常完备的约束机制,做好可测性设计(DFT),路径延时和竞态时序通常都会被枚举到并加以合理的收敛处理,有兴趣的朋友可以了解下“数字集成电路验证工程师”,这一工作岗位就是干这行的。另外芯片设计前端的工程师,也会做好足够的产品功能仿真,在有必要的地方加冗余容错的逻辑或电路。另一方面,如果从软件方面来谈“纠错”的问题,那手段就多了,一般涉及到编码纠错的方法,去监督和纠正通信中可能出错的数据位。比如学过数字电路基础的朋友,可以了解“格雷码”就是最简单的一种数据编码方法,如果有发生某一位数据错误就很容易看出来。至于说坏掉多少个晶体管可能造成失效,这个不好下结论,因为一个处理器中还有多个供电电源,基准电源等大量电源电路,如果坏掉其中一个或几个,有时肯定会带来致命性影响。
先简洁回答一下问题。CPU中的晶体管坏了一个大概率是可以工作的,其中一部分逻辑就是用作DFT、DFD(Design for Debug)、DFM(Design for Manufacture)、DFV (Design For Validation)的,实际在芯片正常工作的时候,这部分电路完全用不到,坏的话完全不影响,并且这部分电路还会额外增加面积和静态功耗。部分电路会有冗余设计和修复机制。CPU中并不是所有的功能都被遍历到,或者说所有的晶体管都会实现翻转。看到某答主的以下说法,我认为不够严谨。芯片厂商是曾经做过把高端的处理器屏蔽掉几个核心当中低端处理器卖,但不能说i5里有很多电路都是坏的,也不是所有的i5都是通过i7屏蔽核心来的。在7nm和5nm良率都合格的现状下,这样做显然成本是非常高的。英特尔CPU有I5和I7,实际上它们是同一种电路,I5和I7的区分是因为 I5里面有很多电路是坏的,所以把这些坏的电路进行了封闭和隔离,然后就变成I5。事实上,关于晶体管坏了的概念,也多种多样,详细可参考下面这篇文章。在计算机的一生中,CPU坏的概率极小。正常使用的情况下,就算其他主要的电脑配件都坏了,CPU都不会坏。CPU出现损坏的情况,多数都是外界原因。最主要的就是长期在超频下工作,且散热性差,引起电子热迁移导致的损坏。现在的个人电脑的更新换代基本不是由于CPU损坏才换的,主要是因为软件不断的升级、越来越大,造作系统的垃圾越来越多导致卡顿,让你无法忍受,才换电脑的。CPU在出厂之前,是经过非常严格的测试的,甚至在设计之初,就要考虑测试的问题。可以从pre-silicon、post-silicon和硅的物理性质等方面来解释这个问题。1、CPU被做成产品之前被检出缺陷这一个阶段也就是芯片tape out之后,应用到系统或者产品之前。事实上,在现在的芯片设计中,在设计之初就已经为芯片的制造,测试,以及良率做考虑了。保证这一步能检测出芯片的缺陷,主要是DFT+ATE来保证。当然也有一些公司会做DFD和DFM。DFT = Design For TestDFD = Design For DebugDFM = Design for manufactureDFT指的是在芯片的设计阶段即插入各种用于提高芯片可测试性(包括可控制性和可观测性)的硬件电路,通过这部分逻辑,生成测试向量,使测试大规模芯片变得容易的同时,尽量减少时间以节约成本。图片来源于网络DFT--可测性设计,按流程划分,依然属于设计阶段(pre-silicon),只不过是为测试服务的。而ATE(Auto Test Equipment )则是在流片之后,也就是post-silicon阶段。ATE测试就是为了检查制造缺陷过程中的缺陷。芯片测试分两个阶段,一个是CP(Chip Probing)测试,也就是晶圆(Wafer)测试。另外一个是FT(Final Test)测试,也就是把芯片封装好再进行的测试。CP测试的目的就是在封装前就把坏的芯片筛选出来,以节省封装的成本。同时可以更直接的知道Wafer 的良率。CP测试可检查fab厂制造的工艺水平。现在对于一般的wafer成熟工艺,很多公司多把CP给省了,以减少CP测试成本。具体做不做CP测试,就是封装成本和CP测试成本综合考量的结果。一片晶圆越靠近边缘,die(一个小方格,也就是一个未封装的芯片)出问题的概率越大。测出坏的芯片根据不同坏的情况不同,也会分bin,最终用作不同的用途。图片来源于网络所以在芯片被做成成品之前,每一片芯片都是经过量产测试才发货给客户的。2、做成成品出厂以后,在使用过程中坏掉了就单个晶体管来看,在正常使用过程中,真的那么容易坏掉吗?其实不然。硅由于物理性质稳定,禁带宽度高(1.12ev),而且用作芯片的硅是单晶硅,也很难发生化学反应,在非外力因素下,晶体管出问题的概率几乎为零。即使如此,芯片在出场前,还要经过一项测试,叫“老化测试”,是在高/低温的炉里经过 135/25/-45摄氏度不同温度以及时间的测试,以保证其稳定性和可靠性。根据芯片的使用寿命根据浴盆曲线(Bathtub Curve),分为三个阶段,第一阶段是初期失效: 一个高的失效率。由制造,设计等原因造成。第二阶段是本征失效: 非常低的失效率,由器件的本征失效机制产生。第三个阶段: 击穿失效,一个高的失效率。而在计算机正常使用的时候,是处在第二阶段,失效的概率非常小。图片来源于网络但是,耐不住有上百亿个晶体管啊...... 所以,还是有坏的概率的。就算是某个晶体管坏了,芯片设计中会引入容错性设计,容错性设计又可以从软件和硬件两个方面来实施。比如多核CPU可以通过软件屏蔽掉某个坏的核心,ATE测试后根据不同缺陷分bin的芯片,也会用在不同的产品上,毕竟流片是十分昂贵的。比如Intel的i3,i5,i7等。当然,也不是所有的i3都是i5、i7检测出来的坏片。再比如存储器中一般存在冗余的信号线和单元,通过检查发现有问题的单元,从而用冗余的模块替换有缺陷的模块,保证存储的正常使用。比如下面橙色的为冗余的memory,红色的是坏的memory,我们便可以通过算法把红色memory的地址映射到橙色备用的一个memory上。芯片测试是极其重要的一环,有缺陷的芯片能发现的越早越好。如果把坏的芯片发给客户,不仅损失巨大,对公司的声誉也会造成负面的影响。在芯片领域有个十倍定律,从设计-->制造-->封装测试-->系统级应用,每晚发现一个环节,芯片公司付出的成本将增加十倍!!!高质量的测试是由DFT,ATE,diagnosis,EDA等多方面协作完成的,尤其在超大规模集成电路时代,测试变得越来越难,越来越重要,其开销在整个芯片流程中也占有很大的比重。芯片作为工业皇冠上的明珠,所有电子系统的大脑,是万万不能出问题的!至于要坏多少个晶体管才能导致CPU完全无法工作,这个没有实践过,但是仅仅想要CPU可以工作,不考虑功能和速度,那么仅仅保留承担最基础任务的晶体管即可,大部分晶体坏了都没关系。

我要回帖

更多关于 gpu二极管温度是显卡吗 的文章