首页
第341章 天权4号首轮工程
返回
关灯 护眼:关 字号:小

第341章 天权4号首轮工程改良

章节报错(免登陆)
下载APP,无广告、完整阅读

一秒记住【爱阅】
aiyue365.org,更新快,无弹窗!

    芯谷研究院的晶片验证大厅,面积超过一千平方米,地面铺着防静电地板,天花板上的高效过滤器发出均匀的低频嗡鸣。大厅中央排列着十八个测试舱,每个测试舱都是一台独立的环境模拟设备,可以精确控制温度丶湿度丶电压丶震动频率。两百一十六颗天权4号工程样片已经在这些测试舱里连续运转了二十三天,每天二十四小时,每周七天,不间断。
    记住首发网站域名??????????.??????
    章宸站在测试数据监控台前,面前的六块大屏幕同时显示着不同维度的测试数据。温度曲线丶电压波动丶时钟抖动丶错误率丶功耗分布丶热成像,每一组数据都在实时跳动。他已经在这里站了四个小时,从凌晨五点到现在,只喝了两杯黑咖啡。
    天权4号的首轮工程改良评审,原定于两周前进行。但因为NPU调度器的回退RTL和流片延迟五周,整个时间轴往后推了。那五周里,章宸的团队没有一天休息。NPU调度器的问题最终定位到一个边界条件处理错误——当NPU的四个核心同时访问共享缓存时,仲裁逻辑在某个极其罕见的时序组合下会产生优先级反转,导致其中一个核心被无限期阻塞。
    这个bug隐藏在RTL代码的深处,是三个年轻的工程师写的。代码审查通过了,仿真通过了,FPGA原型验证通过了。但在真实晶片上,在特定的温度丶电压丶工艺角组合下,它被触发了。概率很低,千分之一不到,但低概率不等于不存在。在天权4号的设计哲学里,任何不确定的行为都是不可接受的。
    章宸在问题定位后的第二天,召集了整个晶片团队,在会议室里站成一圈。他没有骂任何人,只说了一句话:「这个bug能活到现在,不是写代码的人的问题,是我们的验证方法有问题。我们的验证覆盖了『可能出错的地方』,但没有覆盖『不可能出错的地方』。从今天开始,验证团队要换一种思路——假设每一行代码都是错的,然后去证明它是对的。证明不了,就重写。」
    NPU调度器的RTL重写用了两周,验证用了一周,重新流片用了两周。五周,一天不多,一天不少。新批次的工程样片回来后的第一件事,不是上测试台,而是直接放进十八个测试舱里,跑最极端的工况组合。到今天,连续运转二十三天,零功能故障。
    但章宸要的不是「零故障」,他要的是「可预测丶可验证丶可重复」的零故障。测试数据必须证明,在所有的工艺角丶温度丶电压组合下,晶片的行为都是确定的丶可预期的丶符合规范的。
    监控台的右侧,李明哲的团队负责的可靠性长周期测试也在同步进行。两百一十六颗晶片被分成了九个批次,每个批次对应不同的测试条件组合。温度从零下四十度到零上一百二十五度,电压从标称值的百分之九十到百分之一百一十,湿度从百分之十到百分之九十。每个测试舱都在按照预设的曲线自动循环,温度每六小时升降一次,电压每十二小时跳变一次,模拟真实设备在使用寿命内可能经历的所有环境变化。
    小芯的AI分析模块实时处理着十八个测试舱传来的数据流。每颗晶片有超过两百个测试点,每个测试点每秒钟产生一千个数据样本。总数据量每秒钟超过四千万个数据点,普通的数据分析系统根本处理不了。但小芯的神经网络加速器专门为这类任务优化过,可以在数据流中实时识别异常模式,比传统分析方法快一千倍。
    章宸的终端震动了,是小芯推送的一条分析报告。
    「天权4号可靠性测试第二十三天数据分析:两百一十六颗工程样片,累计运行四百九十二万小时等效时间,零功能故障。晶圆边缘晶片与中心晶片的微小差异持续存在,但差异幅度稳定,未随时间扩大。差异对晶片功能无影响,对长期可靠性的影响概率低于百万分之一。」
    章宸看完报告,把终端递给旁边的李明哲。
    「晶圆边缘和中心的差异,你打算怎么处理?」李明哲接过终端,扫了一眼报告。
    「天权4号不处理。差异太小了,对功能和可靠性没有实际影响。但天权5号的架构优化里,要把这个差异考虑进去。封装团队已经在和郑教授的联合实验室做多尺度仿真了,目标是找到差异的物理根源,然后在天权5的设计里从根源上消除。」
    「也就是说,天权4号的改良,不涉及晶圆差异的问题?」
    「不涉及。天权4号的首轮工程改良,聚焦三个问题——NPU调度器的RTL重写验证丶功耗动态调整算法的优化丶以及晶片间一致性的增强。」
    章宸转身走向验证大厅的另一侧,那里有一排工作站,工程师们正在做功耗测试。他指着一台示波器上的波形。
    「NPU调度器的问题解决后,我们顺便优化了动态电压频率调整的算法。之前的算法是全局的——所有核心同升同降。现在改成了每核心独立的DVFS,每个核心可以根据自己的负载独立调整电压和频率。这个优化把天权4号在典型应用场景下的功耗降低了百分之十二,峰值性能提升了百分之八。」
    李明哲看着示波器上的波形,每个核心的电压曲线都不一样,有的在高频运行,有的在低频待机,有的在中间状态快速切换。整个波形看起来像一座繁忙城市的天际线,高低错落,但整体平稳。
    「晶片间一致性增强呢?」李明哲问。
    章宸带他走到另一台测试设备前,屏幕上显示着十颗晶片的测试数据对比。
    「之前我们发现,不同晶片之间有一些微小的性能差异——同样的测试向量,有的晶片跑得快一点,有的慢一点,差距在百分之一到百分之三之间。这个差异对终端用户来说感觉不到,但对伺服器和数据中心的应用来说,百分之一的差异就意味着机群需要做额外的负载均衡和性能补偿。」
    「我们的解决方案是——在生产测试阶段,对每颗晶片做性能分级。分成金丶银丶铜三个等级,每个等级内的晶片性能差异控制在百分之零点五以内。客户可以根据自己的应用需求选择合适等级的晶片。对性能一致性要求高的伺服器客户,可以只买金级晶片,价格贵百分之十五。对性能一致性要求不高的消费电子客户,可以买银级或铜级,性价比更高。」
    李明哲点了点头。「这不只是技术方案,也是商业模式。」
    「对。陈醒说这叫『精细化定价』——不是一刀切地卖晶片,而是根据晶片的真实性能做分级,让客户为恰好需要的性能付费,不为用不到的性能买单。」
    上午九点,首轮工程改良评审会正式开始。
    会议室在验证大厅的二楼,一面墙是玻璃,可以俯瞰整个验证大厅。章宸坐在长桌的一端,两侧是晶片团队的骨干工程师,以及从合城赶来的老韩和苏黛。陈醒通过视频参加会议,屏幕投影在墙上的大屏幕上。
    章宸打开终端,把评审材料投在大屏幕上。
    「天权4号首轮工程改良,三个目标。第一,NPU调度器RTL重写后的功能验证。第二,动态电压频率调整算法的功耗优化验证。第三,晶片间一致性增强方案的有效性验证。」
    他翻到第一页,是一张NPU调度器的状态机图。
    「NPU调度器的RTL重写,我们把仲裁逻辑从优先级固定改成了轮询加权重的混合模式。每个核心的请求都有一个权重计数器,被服务过的核心权重降低,长时间未被服务的核心权重升高。这种模式从根本上消除了优先级反转的可能性,同时保证了高优先级任务的实时性。」
    「验证团队做了三百万个随机测试向量,覆盖了所有可能的时序组合。另外还做了针对性的一百个边界条件测试,专门模拟最极端的竞争场景。全部通过。功耗和面积的影响——功耗增加了百分之零点三,面积增加了百分之零点五,在可接受范围内。」
    台下有人提问:「轮询加权重的混合模式,延迟的确定性怎么样?最坏情况下的响应时间是多少?」
    章宸调出了一张延迟分布图。
    「旧调度器的最坏情况响应时间是十二个时钟周期,平均三个周期。新调度器的最坏情况响应时间是八个周期,平均四个周期。最坏情况变好了,平均情况变差了一点。但对NPU的实际工作负载来说,四个周期和三个周期的差别可以忽略。更重要的是——新调度器的响应时间是可预测的,有确定的上界。旧调度器理论上存在无限期阻塞的可能,虽然概率极低。」
    提问的工程师点了点头,坐下了。
    评审的第二部分,是功耗优化。
    负责功耗优化的工程师叫小谭,三十出头,是章宸从一家晶片设计公司挖来的。他走到屏幕前,调出了功耗测试的对比数据。
    「旧版DVFS算法,全局同升同降,典型应用场景的平均功耗是三点二瓦。新版每核心独立DVFS,平均功耗降到二点八瓦,降低了百分之十二点五。峰值性能从每秒四万亿次运算提升到四点三二万亿次,提升了百分之八。」
    「降功耗的核心是两点——第一,细粒度的负载检测。旧版算法每毫秒检测一次负载,新版每零点一毫秒检测一次,响应更快。第二,预测性的频率调整。小芯的AI模块可以根据应用的行为模式预测未来的负载变化,提前调整频率,避免频繁的电压跳变。频繁跳变的功耗损耗很大,预测性调整可以避免百分之六十的无用跳变。」
    陈醒在视频里问了一个问题:「每核心独立DVFS,对电源管理晶片的要求是不是更高了?」
    小谭调出了电源管理晶片的规格对比。
    「是的。旧版只需要一路可调电源,新版需要四路——每个核心一路。电源管理晶片的复杂度增加了,成本增加了大约八块钱。但整机的功耗降低了百分之十二点五,对手机来说,这意味着电池续航可以延长一个小时。八块钱的成本换一个小时的续航,值。」
    陈醒没有继续追问。
    评审的第三部分,是晶片间一致性增强。
    章宸亲自讲这一部分。
    「晶片间一致性增强,我们做了三件事。第一,在生产测试阶段增加性能分级测试。每颗晶片都会跑一千个测试向量,覆盖所有功能模块和性能敏感路径。测试结果输入小芯的分类模型,自动输出金丶银丶铜三个等级。」
    「第二,优化了晶片内部的时钟分布网络。之前的时钟树设计,不同区域的时钟有微小的偏移,导致晶片间的差异。我们重新设计了时钟树的拓扑结构,把偏移从正负百分之三降到了正负百分之一。」
    「第三,校准了电压基准源。每颗晶片的电压基准源都有微小的工艺偏差,之前的校准只做了一次,出厂后就不管了。现在我们在晶片内部集成了一个校准电路,可以在晶片的整个生命周期内持续监测和校准电压基准,确保电压精度始终在正负百分之一以内。」
    苏黛问了一个问题:「性能分级测试,会不会影响产能?每颗晶片跑一千个测试向量,测试时间会增加多少?」
    章宸调出了测试时间的对比数据。
    「旧版测试每颗晶片跑三百个向量,测试时间零点八秒。新版跑一千个向量,测试时间二点六秒。增加了二点八倍。测试机台的成本会增加,但我们测算过,增加的测试成本平摊到每颗晶片上大约是五块钱。金级晶片多卖的价格可以覆盖这部分成本,银级和铜级的价格不变,利润会薄一点,但销量可以补回来。」
    苏黛在笔记本上记下了这个数字。
    评审会开了三个小时,所有议题都过了一遍。最后,章宸做了总结。
    「天权4号首轮工程改良,三个目标全部达成。NPU调度器的新RTL通过了三百万个随机测试向量和一百个边界条件测试,零功能故障。每核心独立DVFS把典型功耗降低了百分之十二点五,峰值性能提升了百分之八。晶片间一致性增强方案把金级晶片的性能差异控制在百分之零点五以内。」
    「下一步,天权4号进入小批量试产阶段。计划生产五千颗工程样片,分别供给天衡4的终端验证丶天权5的架构优化参考丶以及联合实验室的封装仿真研究。试产周期六周,六周后如果没有发现新的问题,天权4号进入量产准备。」
    陈醒在视频里沉默了几秒,然后说了一句话。
    「天权4号的延迟五周,代价不小。但代价换来了一个更可靠的晶片。晶片是承诺,这句话不只是口号。天权4号的首轮工程改良做完了,但天权4号的故事还没有结束。小批量试产阶段,继续深挖问题。不要因为评审过了就放松。晶片的问题,往往不是在评审会上发现的,是在产线上丶在用户的设备里丶在极端的使用场景下发现的。」
    章宸点了点头。
    评审会结束后,章宸和李明哲回到验证大厅。
    监控台上的屏幕还在跳动,十八个测试舱里的晶片还在运转。两百一十六颗晶片,二十三天,四百九十二万小时等效时间,零功能故障。数据很漂亮,但章宸知道,漂亮的数据不等于完美。晶圆边缘和中心的微小差异还在,虽然概率很低,但概率不是零。天权5的架构优化里,这个差异必须被彻底解决。
    他走到测试舱前,透过观察窗看着里面的晶片。晶片被焊在测试板上,测试板插在背板上,背板上连接着密密麻麻的线缆,通向监控台。晶片的表面有一层淡淡的氧化痕迹,那是长时间高温运行留下的印记。
    李明哲走到他旁边。
    「章总,天权4号的小批量试产,你打算在哪条产线跑?」
    「合城。天衡4的产线已经在合城搭建了百分之七十,正好用天权4号的试产来验证产线的readiness。老韩那边已经在准备了,下周设备到位,再下周开始跑。」
    「天衡4的产品路线呢?什么时候敲定?」
    「下周。陈醒让林薇牵头,召集产品丶市场丶供应链丶制造四个部门一起定。天权4号的试产数据出来之后,天衡4的规格丶定价丶量产计划就可以最终确定了。」
    李明哲点了点头。
    章宸转身离开验证大厅,走向电梯。
    走廊里很安静,只有中央空调的嗡鸣。他经过一间间实验室,有的亮着灯,有的已经关了。透过一扇半开的门,他看到郑教授的两个博士生还在工作站前调试仿真模型,屏幕上显示着晶圆封装的应力分布云图,红色和蓝色的区域交织在一起,像一幅抽象画。
    电梯门开了,他走进去,按了一楼。
    门关上的那一刻,他听到验证大厅里传来的微弱嗡鸣——那是十八个测试舱还在运转,是两百一十六颗晶片还在证明自己的可靠性。
    电梯到了一楼,门开了。
    章宸走出去,穿过大厅,推开门。
    芯谷的广场上,夕阳正在西沉。橙红色的光洒在追光厂房的外墙上,把「追光」两个字照得很亮。远处,研究院的补天区还亮着灯,旧楼三层的窗户里有人在走动。
    他的终端震动了,是小芯推送的一条新消息。
    「天权4号可靠性测试第二十三天数据分析更新:测试舱七号晶片的温度曲线在第一百七十二次循环时出现零点三度的异常波动,已自动触发诊断程序。诊断结果——测试舱温控系统的热电偶老化,非晶片问题。已通知维护团队更换热电偶。」
    章宸看完消息,没有回覆。
    小芯的判断是对的。测试舱的设备老化,不是晶片的问题。但小芯能在海量数据中识别出零点三度的异常波动,并且准确定位到测试舱的温控系统而不是晶片,这个能力本身就是一个巨大的进步。两年前,这样的异常分析需要工程师花三天时间人工排查。现在,小芯用零点三秒就完成了。
    他站在广场上,看着夕阳一点一点沉入地平线。
    明天,天衡4的产品路线最终敲定。
    下周,天权4号进入小批量试产。
    下个月,天权5的架构优化方案评审。
    每一条线都在往前推,每一步都不能停。
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭