在晶圆厂里,有一种问题最让工程师无奈。
它不是每天都发生,也不是完全不能生产。
它偶尔出现一次,影响一下良率,或者让某个参数突然漂一下。大家紧张几天,查数据、开会议、做实验、写报告,最后问题又消失了。
过一段时间,它又来了。
更痛苦的是,这个问题可能不是今天才有。
从研发阶段就有,量产初期就有,换了一批又一批工程师,开了一轮又一轮会议,做了一版又一版改善,它还是在那里。
不能说完全没改善,但也不能说百分之百解决。
最后它变成了一种很尴尬的存在:
能凑合做,能通过控制手段把风险压下去,但就是找不到一个干净利落的根因。
这就是晶圆厂里很多工艺问题最真实的样子。
外行可能会觉得奇怪:半导体制造这么精密,为什么一个问题会查不清楚?工程师不是应该找到root cause,然后彻底close吗?
但真正做过量产的人都知道,很多问题不是不想查,而是它本来就不是一个简单问题。
一、很多工艺问题,从一开始就是“带病量产”
理想情况下,一个工艺从研发转量产,应该是窗口清晰、机制明确、风险可控、问题闭环。
但现实往往没有这么完美。
研发阶段的目标,是先把工艺跑通,把产品做出来,把关键指标做到客户要求以内。很多时候,时间紧、项目急、客户等、产线也等。
有些问题在研发阶段就已经存在,只是发生频率不高,影响范围不大,或者通过某些条件限制可以压住。
研发工程师当然也知道它不完美。
但如果整体良率能接受,客户节点要赶,项目要推进,产线要导入,这些问题就可能被带进量产。
它们不会立刻把项目打死,但会在后面长期折磨量产团队。
所以很多工艺问题不是量产后突然冒出来的,而是从研发时就埋下了种子。
只是研发阶段叫“待优化”,量产阶段就变成了“异常”。
二、工艺问题最难的地方,是它往往不是单一原因
很多人以为找根因,就是找到一个坏掉的零件、一个错误的参数、一次错误的操作。
如果真是这样,工程师反而轻松。
阀坏了,换阀;
泵不稳,修泵;
recipe错了,改recipe;
药液浓度错了,重新配;
温度超spec,查温控;
sensor漂了,校准或者更换。
这种问题虽然麻烦,但至少方向明确。
真正难的是,很多工艺问题不是一个原因造成的,而是很多小因素叠加出来的。
设备状态有一点点变化;
材料批次有一点点波动;
前道膜层有一点点差异;
产品图形密度有一点点敏感;
环境温湿度有一点点影响;
量测本身有一点点误差;
工艺窗口本来就有一点点窄。
每一个因素单独看,都没有明显超标。
但几个因素碰到一起,问题就出现了。
这就像一扇门平时能关上,但只要地面有一点点歪、门框有一点点变形、天气有一点点潮,它就会偶尔卡住。
你说根因是什么?
说门坏了,不准确;
说地面歪了,也不完整;
说天气潮了,好像也不是每次都触发。
晶圆厂里的很多问题就是这样。
它不是单点失效,而是系统边界被碰到了。
这类问题最难找根因,因为它的“根因”不是一个点,而是一片区域。
三、偶发问题最折磨人,因为它不给你稳定线索
工程师查问题,最怕“偶发”。
因为偶发问题最大的问题,是复现不了。
今天异常了,明天正常;
这批lot有问题,下一批又没事;
A机台出现一次,B机台没出现;
白班正常,夜班异常;
你不盯它,它报警;你盯着它,它安静。
这种问题最让工程师崩溃。
因为只要不能稳定复现,就很难验证假设。
你怀疑是设备状态,但停机检查又没发现明显异常;
你怀疑是材料批次,但换了一批材料后也不是马上消失;
你怀疑是前道带入,但前道数据看起来也在spec里;
你怀疑是操作差异,但又找不到明确的人为偏差;
你怀疑是工艺窗口窄,但改参数又可能影响其他指标。
最后所有可能性都存在,但没有一个证据足够硬。
会议上大家会问:根因到底是什么?
工程师只能说:目前更倾向于某几个方向,但还需要继续monitor。
这句话听起来像敷衍。
但很多时候,这就是现实。
不是工程师不想给结论,而是数据不允许他把话说死。
四、量产线不是实验室,不能为了找根因无限试错
还有一个很现实的问题:量产线不是给你随便做实验的。
在研发线上,你可以做DOE,可以大范围改参数,可以停下来反复验证。
但在量产线上,产能要跑,客户要货,生产计划要执行,设备不能随便占用,产品不能随便冒险。
很多工艺问题虽然存在,但只要发生率不高,影响可控,工厂往往更倾向于先把风险压住,而不是无限制追求理论上的彻底根因。
五、历史问题最难,因为前面的人已经试过很多路
还有一种问题特别让人无力:历史遗留问题。
这个问题可能从产品导入时就存在。
第一批工程师查过;
第二批工程师优化过;
第三批工程师接手后又做过改善;
设备换过,recipe改过,材料换过,clean方式调过,量测方法也确认过。
但它还在。
新来的工程师一开始很有激情,觉得前人没解决,是因为没有找到正确方向。
然后他开始查数据、翻报告、做实验、开会、拉历史记录。
查到最后发现,自己想到的很多方案,前人早就试过了。
而且试完以后,问题确实改善过,但没有彻底消失。
这时候工程师会慢慢明白:
有些问题不是没人努力,而是它处在工艺、设备、材料、产品结构共同作用的灰区里。
不是没有根因,而是根因太分散;
不是没有改善,而是改善很难做到百分之百;
不是没人负责,而是它跨越了太多边界。
这种问题最后往往会变成工厂里的“老毛病”。
大家都知道它存在,也知道怎么尽量避免它,但很难一句话说清楚为什么它偶尔还会回来。
来源于Tom聊芯片智造,作者To'm