1.2万亿晶体管,史上最大半导体芯片诞生

  • 时间:
  • 浏览:0

已经 文摘菌报道了一家印度初创公司打着AI的旗号,干的却是人工的活,还拿到了29500万美元的融资。

已经 大部分AI公司拿到融资还是真正去做AI的,比如这家叫雷Cerebras的公司,在2016年也获得25000万美元的投资用于开发深度图学习硬件设备。

如今,研究终于出了成果。据ventruebeat报道,Cerebras推出了拥有1.2万亿晶体管的史上最大半导体芯片。

看来投资人可不想能松口气了。

1.2万亿晶体管构建,史上最大芯片

1971年英特尔首款5004补救器拥有2,500个晶体管,最近的Advanced Micro Devices补救器拥有320亿个晶体管。而这款史上最大的芯片Cerebras Wafer Scale Engine拥有1.2万亿个晶体管。

大多数芯片是在12英寸硅晶片上创建芯片集合,并在芯片工厂中批量补救。但Cerebras Systems芯片是在单个晶圆上互连的单芯片。那些互连设计使其全部保持高速运行的情形,已经 1.2万亿个晶体管全部一起去工作。

通过你这人最好的最好的办法,Cerebras Wafer Scale Engine是有史以来最大的补救器,它专门设计用于补救人工智能应用线程池。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的Hot Chips会议上讨论这项设计。

此前三星愿因制造了另十个 很大的闪存芯片,即eUFS,拥有2万亿个晶体管。但Cerebras芯片专为流程加工而设计,拥有500,000个内核,42,225平方毫米。它比最大的Nvidia GPU大56.7倍。

WSE还蕴藏3,000倍的高速片上存储器和10,000倍的存储器波特率。

6万AI优化的计算内核

WSE蕴藏500,000个AI优化的计算内核(compute cores)。被称为SLAC(Sparse Linear Algebra Cores),计算内核灵活,支持编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保内核可不想能在日新月异的机器学习领域中运行所有神经网络算法。

愿因稀疏线性代数内核针对神经网络计算进行了优化,已经 它们可实现业界最佳资源利用率——通常是图形补救单元的三倍或四倍。此外,WSE内核包括Cerebras发明家 家 的稀疏性采集技术,以及加速稀疏工作负载(包括0的工作负载)的计算性能,如深度图学习。

0在深度图学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都在0。然而,乘以零是浪费资源,功率和时间的行为。

愿因GPU和CPU是密集的执行引擎——引擎的设计是永不遇到0——它们即使在遇到0时也会进行计算。当500%-98%的数据为零时,比如深度图学习中的情形,大多数乘法都没人意义。而Cerebras稀疏线性代数内核不想乘以零,所有零数据前会被过滤,直接在硬件中跳过,从而可不想能释放资源完成某些有用的工作。

更靠近计算的内存

内存是计算机体系内部结构的关键部分。更接近计算的内存愿因计算波特率很快、更低的延迟和更好的数据移动波特率。高性能深度图学习需用几滴 计算,已经 频繁访问数据。这需用计算内核和存储器之间的紧密接近,这在GPU中并不没人。

Cerebras Wafer Scale Engine则蕴藏更多内核,具有比迄今为止任何芯片都在更多的本地内存,已经 在另十个 时钟周期内可不想能通过其内核访问18GB的片上内存。WSE上的内核本地内存集合可提供每秒9PB的内存波特率——比领先的GPU多3,000倍的片上内存和10,000倍的内存波特率。

低延迟,高波特率的通信内部结构

Swarm通信内部结构是WSE上使用的补救器间通信内部结构,它以传统通信技术的功耗的一小部分实现突破性波特率和低延迟。Swarm提供低延迟,高波特率的2D网格,可连接WSE上的所有500,000个核,每秒波特率为5000 petabits。Swarm支持单字活动消息,可不想能直接通过接收内核来补救。

路由、可靠的通信和同步在硬件中补救。消息会自动激活每个到达消息的应用线程池补救线程池Swarm为每个神经网络提供独特的优化通信路径。软件根据正在运行的特定用户定义的神经网络的内部结构,配置通过500,000个内核的最佳通信路径以连接补救器。

另十个 Cerebras WSE的总波特率为每秒5000petabits,不需用诸如TCP/IP和MPI类事的通信协议。已经 该架构中的通信能量成本远低于1焦耳每比特,这比GPU低近另十个 数量级。通过结合大的波特率和极低的延迟,Swarm通信内部结构使Cerebras WSE要能比任何当前可用的补救方案进行很快地学习。

补救了大芯片制造的技术挑战

承担计算任务的芯片尺寸在AI应用中非常重要,愿因更大的芯片可不想能很快发生理信息,在更短的时间内得出结果。训练时间的减少,可不想能使研究人员要能进行更多测试,使用更多数据并补救新的问题 。谷歌、Facebook、OpenAI、腾讯、百度都认为,今天人工智能的基本限制是训练模型需用很长时间。已经 ,训练时间是整个AI行业进步的主要瓶颈。

当然,一般芯片制造商不想生产没人大的芯片是有愿因的。在单个晶圆片上,在制造过程中通常会出现某些杂质。愿因另十个 杂质可不想能愿因芯片的故障,没人晶圆片上的多个杂质就会击穿几片芯片。从而愿因实际的效益所以 实际工作的芯片的一部分。愿因晶圆片上不到另十个 晶片,没人它蕴藏杂质的愿因性是5000%,杂质会使晶片失效。已经 Cerebras芯片是设计成冗余的,所以另十个 杂质不想使整个芯片失效。

“而设计的人工智能工作,Cerebras WSE蕴藏基本的创新,补救了几十年以来限制芯片尺寸的技术挑战,如cross-reticle的连接性、产量、功率输出和包装,”Cerebras的创始人兼CEO Feldman在一份声明中说,“每另十个 架构决策都在为了优化人工智能工作的性能,其结果是,Cerebras WSE在功耗和空间很小的情形下,根据工作负载提供了现有补救方案数百或数千倍的性能。”

Linley Group首席分析师Linley Gwennap在一份声明中表示:“Cerebras在晶片规模的技术上取得了巨大进步,在一块硅片上实现的补救性能超出想象。”为了实现你这人壮举,该公司愿因补救了困扰该行业数十年的一系列工程挑战,包括实现高速模对模通信、补救制造缺陷、封装没人大的芯片、提供高密度电源和冷却。通过将不同学科的顶尖工程师聚集在一起去,Cerebras创造了新技术,并在短短几年内交付了另十个 产品,这是另十个 令人印象深刻的成就。”

关于Cerebras公司

Cerebras是一家致力于加速深度图学习的计算机系统公司,其联合创始人兼首席执行官Andrew Feldman是一位致力于推动计算领域的企业家。

在加入Cerebras已经 ,他是SeaMicro的联合创始人兼首席执行官,SeaMicro是节能,高波特率微服务器的先驱。SeaMicro于2012年被AMD以3.57亿美元收购。在SeaMicro已经 ,Andrew曾担任Force10 Networks的产品管理,营销和BD副总裁,已经 以8亿美元的价格出售给戴尔计算机公司。在加入Force10 Networks已经 ,Andrew在RiverStone Networks担任营销和企业发展副总裁,从公司成立到5001年首次公开股,Andrew Feldman拥有斯坦福大学的MBA学位。

Andrew Feldman

网友视频在twitter上的评论也是众说纷坛,有提问此芯片与否加速器的独立芯片?

还有关于保持散热、稳定方面的问题 :

多数网友视频持乐观的态度,认为这是令人印象深刻的第另十个 芯片,在朝正确的方向迈进!