Perfil de 非鱼谁可共鸣FotosBlogListasMás ![]() | Ayuda |
|
26 abril 经验主义伪科学之批判经验主义伪科学之批判 最近,老婆从哪里高了一本“母乳喂养方面的书”,判若神明,日夜研读,我也随手翻了翻。对于他的很多观点,我也看了看,对于其立论之根本,我不是特别赞同。 例如,她把小孩子2个月就长牙了,归结为母乳喂养的结果,我认为纯属放屁。 相反,我对于日本人松田道雄写的《育儿百科》就比较信服,为什么信服他呢?因为松田道雄本身就是做这个方面的研究工作,人家对于每一个现象立论的时候,都有明确的统计,而且样本数量和分布都合理。这样立论就是比较让人信服了,如果你就以自己的喂养来说明应该如何如何,我觉得缺乏一个严谨和科学的态度,容易误导大众的。 这方面的书籍,前几年特别多,例如,有人家小孩子是神童,10岁上了大学,然后把自己的培养孩子经验写出来,还成立了昂贵的培训班。我觉得这种做法,真的很无聊,而且容易误人子弟。这样的方法,在小孩子身上不要去尝试的。如果你是研究人员,而且在世界5大洲10万个孩子身上做过调查和统计,证明你的方法可信,那么再写成书也未免不可以。 当然,我们应该给别人发言的权利,但是你发言的时候,能不能类似“股市有风险入市需谨慎”的告诫别人“纯属个人经验,观点仅供参考呢?” 中国大学教育失败的一点就是,我们没有建立系统的科学方法和伪科学论证方法,当然,这可能由于我们选择“马克思主义” 有关,因为按照科学判伪方法,一下子就判断出来“马克思主义”是伪科学。幸亏,我在读研究生的时候,我们院里没有讲辩证唯物主义,而是自编了一套教材,讲非马克思主义的东西。 25 abril “目的论”分析方法---解决“为什么会总能找到理由,观点为什么会存在分歧?”(草稿)对于关于近期,由于藏独问题而引起抵制家乐福的问题,国内分成了两大阵营,一边力挺,一边反对,各位有个人的理由,其实这是一个分析我们论证辩证情况的最好例子。这个例子对于我们指定决策方面很有很大好处。 分析支持抵制家乐福的理由。 1) 家乐福大股东支持藏独。 2) 法国舆论等支持藏独和反对奥运。
不支持: 1) 家乐福已经本地化,产品也是本地化,抵制家乐福的后果其实导致中国人自己的损失。 2) 经济已经一体化,我们不可能闭关自守了。 3) 国内问题已经很尖锐了,我们应该解决国内的问题,再去解决家乐福等法国和藏独问题。
其实,讨论问题,首先我们要讨论的就是我们到底要达到的目的是什么?然后,在看我们的手段是否能够达成我们的目的。接着,我们再讨论我们各种不同手段和方法是否能够达到我们所能预设的目的。就像两人讨论问题,一个说的目的地是上海,一个说的是北京,这样一个说做火车,一个说做飞机,两个人针对是否省油的问题再哪里讨论就没有多少意义了。是否省油或者费油应该在我们统一目标的框架下再进行讨论。
同样如果讨论本次家乐福的时间,我们首先要摆脱感情方面的因素,仔细分析我们的目的是什么?如果,两个人讨论的目的就是不同,那么互相争辩就没有意义了。首先,我们必须基于相同的目的基础上,进行该问题的讨论。这次家乐福的事件,就是因为圣火传递过程,受到藏独分子阻挠,同时也表明希望国家对于藏独分子的错误认识和对我中国以及政府的误解,那么,我们的目的就是让这些希望国家重新认识藏独事件,纠正对于奥运和对我国的错误认识。 在这个目的的基础上,我们再讨论是否要抵制家乐福的问题,我们分析的方法就是我们所采取的手段是否能够达到我们的目的。其次,我们再讨论我们采用这种手段的代价是否太高,有没有更好的选择或者手段。其实很多手段可能根本就是达不到我们的目标。例如,我们说去美国,你却选择骑自行车,因为无法越过海洋,这样的手段是无论如何都无法达到目标。这样,我们初步确定去美国选择做轮船和做飞机两种方案,然后再考虑这两种方法的代价,以及副作用等。例如,我们是运一批鲜货到美国,选择飞机方案,可能就是花费太高了,选择轮船呢,时间太长了。当然具体问题具体问题,我们要看那一个代价是我们最在乎的,然后,在根据我们在乎的东西,分析对于我们最优化的手段是那个? 抵制家乐福,或者不抵制家乐福,我们就可以分析。这不是两个手段,这里面是三个手段,第一个手段,是国内抵制家乐福,第二,国内对于家乐福不要抵制,也不要采取其他手段,第三种,不要抵制家乐福,而是采取另外一种手段,是什么手段呢?确实这里面需要提出来,如果不提出来,那么我们就没有办法比较的。 先分析一下这三个手段是否能够达到我们设定的让“这些希望国家重新认识藏独事件,纠正对于奥运和对我国的错误认识”。第一个手段采用这种手段,对法国标志性企业进行抵制,目的不是要搞垮家乐福,而是要由此引起国外的舆论的关注,表明我们的立场,同样,国外留学生在西方国家的游行示威也是。第二手段,不作为当然是不行的,就像人家骂了你一顿,你默默无声,不采取任何行动,这样是麻烦的。第三个手段,必须有另外的手段表明你能够达到目的,这里头,我们可能是假设相信政府会采用一些外交手段的。 分析了是否能达到目的之后,我们再来分析,这些手段的花费,以及这些花费是不是我们Care的东西。
唉唉唉!我们公司去年因为出错货,被海尔惩罚买了回来。当时花了5600块买回来的,这个价格是惩罚性的。现在这个机器的价格如下:N211 BOM的价钱,350美金,Celeron 430 50美金,512M 15美金,硬盘 80G大概50美金,一空465美金,也就是我自己装的话也就花3225元人民币。 我有一个朋友要买机器,同时对我还是比较信任的,我打算出4000块,公司已经是很赚了,居然老板不买。我觉得你真心为公司想着做事情,老板真的不知道怎么看你。 现在研发库里那么多东西,我都懒得去处理了,但是这样又觉得不符合自己的职业道德,在其位而不把工作做好。 24 abril 关于公司的现状关于公司的现状 公司的现状其实非常可怕,普通员工可能没有感觉。 那些地方可怕呢? 1) 外部环境恶化,现在很多家都要杀入笔记本研发和制造这个行业了,Topstar像这样样子,一年满足于自己的100%成长,将来肯定会死掉的。目前,BYD已经明确要进入笔记本这个行业了。我们自己发展慢,这是最大的危险,可能到了后年就知道,我们的清楚白费了。 2) 公司的管理问题,大家都知道我们公司管理有问题,那么我们问题到底出在哪里?现在有一种流行的观点,就是我们公司流程有问题,其实出去到研祥等公司的人都会发现,其实我们公司的流程比他们好的不是一点。那么我们公司管理到底是那些问题?我觉得我们公司第一,我们公司没有明确的经营理念,这是一个致命点。然后,公司的架构和决策体系也是一个问题,我们公司想搭建的架构,根本就是错误的,例如公司根本就不给下层主动权,想建立一个扁平的结构,每个员工每个工程师都是管理层的伸出去没有自己思想的爪牙,只要执行就行了,这是错误的,这样,我们即无法激发员工的责任心,又无法给员工带来成就感。 同样,公司的报销问题,这么简单的问题就解决不了,我觉得这是一个典型问题。为什么这个问题解决不了呢,第一,管理层的意识有问题,根本不为别人着想,认为别人为公司做什么都是应该的,其实,这是相互的,你为员工多想了,员工自然也会为你多想。第二,体制上的问题,我们没有一个很好的报销体制,管理层时间优先,就算他真的想签报销单了,可惜他有没有时间了。 其实,我们管理层真的知道每个人应该干什么,不应该干什么吗?“君子有所为,有所不为” 3) 供应链的问题,这是一个大问题,和资金链结合起来。我觉得非常的危险。第一,公司的产品太单一,每当一个产品出现,老的产品就出局了,这样,我们根本就没有折腾的余地。第二,公司的供应商太差了,我们很多客户都是一些小的厂商,根本就没有品质理念,就像这次东微风的风扇,擅自换胶水,这样会把我们搞死的。第三,采购对于一些新的物料和新的厂商导入,根本就没有策略,这样对于我们命悬一线的产品而言,会把我们搞死的。第四,资金链的问题,现在的基本上的模式就是等客户付款,然后给供应商付款,如果,我们某个时期出货出问题的话,可能我们公司就死了,现金流居然来一点的Buffer都没有。 4) 产品思路的问题,严重的陷入价格战中,产品缺乏创意和差异性,更缺乏高端产品。我决策这个问题是老板直接的影响,老板对于公司的很多虚的东西认可太少了。例如品牌等等。 5) 公司现在办公环境、工厂条件太差,给别人和员工的印象极端不好。 22 abril 如何解Bug系列第四招,葵花宝典:排除法如何解Bug系列第四招,葵花宝典:排除法 现代计算机系统非常复杂,虽然我们已经比较好的模块化,但是有时候出了问题之后,我们还是不知道如何去入手。这样,我们使用排除法是一个很好解决问题的方法。这种方法在项目前期调试的时候,使用更多。 我们一般会采用那些排除手段呢?首先,我们应该做功能级的排除。例如系统在Windows Boot过程死掉了,我们应该怎么做?我们可以把一些相关的功能拿掉看看,例如,通过关闭Clock的方法,把一些Onboard的功能拿掉,如果还是死机,那么,我们可以把ACPI以及一些SMI方法拿掉看看。这样逐步去掉一些功能,我们可以定位问题引起的范围。 如何解Bug系列:第三招,黯然销魂掌:极端条件法如何解Bug系列:第三招,黯然销魂掌:极端条件法 极端条件的方法,其实是科学实验中间最常用的方法。极端条件,就是我们方法某一个因素之后,增大某一个方面的影响,看是否现象会随之改变。特别近代的物理实验,多数采用这种方法,例如,现在建立了强磁实验室,建立了超低温实验室等等,这些实现就是实现某种极端条件,然后在这种极端条件的状态下研究物质的物理特性是否变化。极端条件是一种相对的排除法。 在我们Debug过程中间,我们也经常使用极端条件,例如,系统死机,我们会在高温低温情况下分析是否由于Thermal问题导致,我们还会加高电压和降低电压看是否是电源导致,我们还会模拟高湿的环境,看看是否湿度很产生影响等等,方法不一而足。
关于这次Card Reader判断IC坏掉问题分析:(2)于是工厂段就升级这个问题,板卡线负责人把该问题升级为万分火急的问题,强烈要求禁用,见杨俊2008-4-16发的Mail。 DEAR:新华 附件为今天工厂测试在测试S42P主板时出现10%不良比率的3合1卡控制芯片本体不良的HOLD单,请公司质量尽快给出处理 意见. 生产紧急,请速配合.另SQE已要求禁用此颗芯片. 以上,请知悉.谢谢!!! 杨俊还补充了新打板的情况: DEAR ALL: 1.昨天白天U21位置D/C为08082的S42P总共下了500PCS只开机死机就有49PCS 2.晚上从SMT转出D/C为07083的200PCS板卡已测试完开机死机只有1PCS,但是三合一卡座不良就有9PCS,PE初步分析 有可能是U21位置小卡芯片不稳定导致的。 以上为最新情况请各位知悉。
于是公司和工厂紧急开会,最后决议如下(我因为有其他事情没有参加)2008-4-16 11:49 经公司、工厂连线会议,会议记录如下:
此料暂时禁用,打板暂停; 08082及07483二个D/C的产品分别做测试: 2.1公司RD魏纪超与测试部一起,制定测试计划,明确相关责任人及测试时间; 2.2工厂检测二种不同芯片,对有异常的芯片进行测试,看其结果是否与现发生的现象一致; 2.3昨天工厂发现的9片不良品,经重测3片,有2片是OK,另1片SD卡找不到,MS卡可以找到。工厂继续将剩余6片分析测试完成;
待魏纪超的测试计划出来后,工厂需明确测试数量及完成时间; 工厂负责追查相关领料记录,确认异常是否有D/C的规律性;如工厂无法追查到此信息,后续需建立此项追查记录。
至此,我不能在容忍这个局势发展下去了,居然大家一边倒,说IC坏掉。我介入Debug。 我首先问魏纪超要这个IC的工板,然后把工厂坏的板子上的IC换到工板上,一起都OK,至此证明IC没有坏掉,BIOS设计上也没有问题。我们下面就是使用对比的方法,找出设计上不同就可以了。 因为这次换了一颗新的晶振,首先我们怀疑晶振,但是,换了一个以前的晶振,还是不行的。 所以,和晶振无关。然后,熊把坏了的板子上的Socket去掉,也OK了,没有不死机的现象,说明某个PIN脚有问题,一个的去掉PIN脚,发现Detect Pin有问题,由于要开《系统工程师职责定义会议》,我们发这个问题放给桂子分析,开完会,桂子分析结果出来,见桂子发的Mail: 停22的问题是由于SD卡的detect pin与共lay 智勇达卡座的GND pad短路引起的,IC没有问题。 PCB上面,智勇达卡座与台端的卡座共lay,下图中的两个用红色标示的pad为智勇达卡座所使用的GND pad。而PCB上面该GND PAD对应到台端卡座上面就是漏出来的是与SD的detect pin以SD_WP#信号连在一起的金属。上面pad对应的为与SD的detect pin相连的金属(定义为金属1),下面的PAD对应为与SD_WP#信号连接的金属(定义为金属2),该金属漏出来多少有公差,有的漏出来,有的没有漏出来,漏出来的就与PCB上的GND pad连到一起。 1、当金属1与GND接触时,导致SD的detect pin拉到GND上,系统认为有卡插进来,但是却一直没有办法找到设备,所以导致停在22。 2、当金属2与GND接触时,导致SD的SD_WP#信号拉到GND上,系统认为SD卡写保护,那就无法copy文件到sd上,当然如果没有插入SD,而该信号被拉到GND,不知道会有什么问题。工厂的读卡不稳定不知道跟该问题有没有关系。请工厂把读卡不稳定的板子送到公司分析。
短期对策: 1、对打好的PCBA,发现问题就需要换卡座,更换新卡座需要在该两个pad上面贴上高温胶纸,以防换上的卡座还有问题。 2、新打板,需要在PCB上用高温胶纸把这两个pad贴起来,同时在钢网上堵住这两个孔。
长期对策:请Sqe push供应商把该pin剪短,保证不会漏出。
以上,有任何问题,请及时联系!
桂志明/硬件
至此,该问题算彻底解决。后面的问题,就是工厂导入解决方案的问题。 其实,这次事情,是我们研发一次典型问题,我们很多工程师犯了很多错误,我们需要认真分析。 关于这次Card Reader判断IC坏掉问题分析:(1)关于这次Card Reader判断IC坏掉问题分析: 这次Card Reader的问题,可谓一波几折,开始的时候,在s42p做DVT和PVT的时候,工厂板卡测试线发现有不良的情况,也就是无法读卡器无法识别卡,项目进行分析,发现Layout有问题,导致会有焊接不良的情况发生。可以到了小批量的,虽然Layout改善了,还有发现部分不良的情况,后面就排CE等去工厂分析,发现智勇达的Socket设计有问题,使得其Detect Pin脚会接触不好,所以,我们紧急进货First Source,也就是台端的读卡器Socket。 可是,到了2008年4月14日,该问题有发生了,就是打板子出现大批的不良。 见板卡和维修经理的反馈信息:2008-4-14 昨天系统投产的S42总计功能不良有307台(除开在线外观不良维修数量之外),其中3合1功能测试不过的达到了惊人的72台,请工程部尽快介入分析。自从投产S42以来,系统投产后仅电子不良的就占了整个投产数5%左右,试想在工厂内就有如此多不良,可想而知到客户手中会有多少不良?会造成多少DOA及RMA品? 到了4月15日,板卡线继续报这个问题,2008-4-15 今日在板卡线测试S42P 240片,至今为止发现有15片开机死机的主板。 分析过程:首先仔细观察主板,无连锡短路的情况,外观良好。 只插AC的情况下待机电流是0.03A,比正常主板的待机电流0.02A要大一点点,测试+5AL的阻抗,黑笔接地的情况下要比正常板的阻抗小大约28欧姆左右。 上电开机后停留在LOGO的画面,代码跑“22”,电流急剧上升到2.5A左右,比正常的主板要大0.3A。显示出主板上有短路的情况。 再咨询公司硬件RD桂子,得知”22”代码为寻找USB设备方面有问题。 联想到读卡器芯片是挂南桥的USB总线,于是首先拆除读卡器芯片U21,发现待机电流正常,阻抗也正常,正常开机一切OK。 结论:由于U21读卡器芯片的本体短路不良造成的开机死机。 另外:不良品已经提交给SQE杨海苗。 公司这边通过和工厂沟通就贸然判断IC芯片坏掉,魏纪超2008-4-15的Mail可以证实
我们在几乎所有的项目上面导入了贵司ENE UB6232QF,也几乎在所有使用UB6232QF的项目上面都出现了CardReader工作不正常的问题,具体的不良现象清参看以下Email,有关此问题,我们需要以下Support: 1. 贵司的该产品在别的客户或你们自己那里有没有碰到此问题? 2. 是否存在批次问题?即某个/某些批次有问题?有问题的批次号是哪些? 3. 附件是我们的原理图,请Double Check,确认是否有问题?
目前的问难题很严重,这次S42P 300pcs就有30pcs左右的IC不良,按工厂的标准仅仅是这一个问题的不良率就会导致产品不能进入量产,请你们提供强力的支持。
谢谢。
工厂PE经理也贸然分析,推波助澜:见梁兆波的2008-4-15日Mail: Dear 吴科、李刚,朱杰: 目前这个读卡器芯片,确实存在一定的问题。 有之前的出现不稳定的现象(不能正常读卡),到现在出现直接导致开机死机(5val电压短路,导致开机侦测usb设备失败,引起当机) 说明这个芯片放在我们的产品上面存在问题。 1、板卡本月统计 12pcs不良/4000生产5000pcs.(不能正常读卡,或侦测不到卡) 2、今天有15pcs不良/240 (5val电压短路,导致开机侦测usb设备失败,引起当机) debug card 跑22代码。(这类部分不良品 date code 07082) 3、系统线也出现不良如附件描述 比率今天统计出来。 对不稳定的主板,debug card 跑22代码。 (初步确认部分不良品 date code 07483) 现在据fae端,客户的机台上也出现一台 类似现象,22代码。(date code 待确认) 说明我们这芯片确实存在问题。 请公司尽快加人分析。 同时,建议先禁用此料
但是,我一直不认为这个问题是IC造成,理由如下: 1) IC厂商都是大厂,而且我们买的IC是正式渠道,这点,我们对IC厂商还是有信心的 2) 以前的不良率没有这么高 那么肯定是我们系统中间那里出了问题。我让张华把有问题的机器全部调回公司分析。晚上到了5PCS。
解Bug系列:第二招,乾坤大挪移:对比法和替换法第二招,乾坤大挪移:对比法和替换法 很多时候,我们需要使用对比法的,因为笔记本电脑的整机开发,我们只是一个系统集成的厂商,很多部件开发不是我们所完成的,还有Chipset、CPU和OS这些关键部件也不是我们开发的,所以,有的时候,我们就需要对比一下,确定该问题是不是问题,当然,对比的方法,远远不止用来确定是不是问题,我们可以通过对比发现好的系统和有问题系统差别在哪里,这样,就可以进一步找到问题解决方法。所以说我们对比的目的有如下几个: 1) 对比发现该问题是我们设计特例,还是普遍问题 2) 对比发现问题所在,定位问题范围 3) 对比发现差异,找出解决方法 我们一般会有那些情况的对比: 1) 与别家机器对比 2) 与其它机型对比 3) 产品不同批次对比 4) 与工板对比 21 abril 如何解Bug系列:解Bug的一般过程我们再讨论解Bug的一般过程。首先,我们接到别人报的Bug,需要去现场看一下,然而,我们很多人,一听到别人报他的问题,就好像被人踩了尾巴似的。这样态度是不对,我们对于别人报的Bug,要保持谨慎和小心的态度,首先看了问题,认真分析了,再去下一些结论。看了现象,我们会做一个简单的分析,有些简单的问题,其实工程师根据自己的经验,马上就可以找到问题所在的。看到现象之后,工程师应该自己去动手做做,在自己动手做的时候,发现规律,例如,测试报告,机器放置在哪里会死机,这个时候工程师可以过去分析,是在什么情况下死机的,是做了S3之后?还是刷新电池信息?还是按了某个特定的键?这样,我们随着规律的发现,基本上可以定位问题所属范围,是电源问题,还是显卡问题,还是BIOS问题等等,当然,可以定位的更详细。问题定位了之后,我们就可以更进一步的分析Bug产生机制了,例如死机,是电源纹波导致?还是软件算法导致死循环?还是软件跑飞了?还是内容丢失等等。这样,RootCause找到以后,我们就可以给Solution了,下Solution的时候,我们要特别小心,因为一不小心,我们可能解决了这个问题,有引入新的问题了,所谓按下葫芦起了瓢。下Solution需要坚持局部性原则,因为现在使用的计算机系统,包括EC的系统,非常的复杂,我们很多时候,不能够把全部全局问题想的非常周到,而且很多领域还在我们知识视野之外,所以,这个时候,如果随便动全局的东西,可能带来大的混乱。 如何解Bug系列:什么样的Bug必须解我们首先应该讨论什么样的Bug必须解。其实,我们应该以客户为中心考虑问题,我觉得对于客户会带来伤害或者巨大损失的Bug,肯定是要解掉的,还有导致客户系统无法使用的问题,也是需要考虑,例如,无法开机等,这些问题会导致客户退货的,这些问题也是必须放到第一位解决。还有一类问题,例如,系统在某种特殊条件下死机黑屏等问题,我们尽量解决,但是有时候迫于市场的压力,我们暂时可以放掉这些问题,先出货,例如,3D Mark小概率死机,S3/S4小概率死机,PCI E卡概率不能使用等问题。还有一类问题,是影响客户使用体验的,例如,开机的时候,喇叭响一声,屏幕闪两次等这类小问题,我觉得需要综合考虑,首先这样的问题,最好不要影响出货,当然,我们的目标还是尽量解决这些Bug了。 如何解Bug系列:为什么解Bug的能力很重要?我们做产品开发,总是会遇到这样或者那样的Bug,最理想的设计就是,我们设计出来的产品,像神五神六嫦娥那样,确保一次OK。可以,我们是在做产品,我们不能够举一国之力来仅仅做一款笔记本电脑,而且,我们的时间代价等等,确定我们必须使用最少的成本和最快的时间做出一款笔记本电脑,这样,我们根据实践选择了设计+测试+Debug+验收,然后上市的这样模式。 所以,在研发中间回出现测试、工厂产线或者客户端报出的这样或者那样的Bug,特别是一些影响严重的Bug,如果不紧急处理,那么将会导致项目Delay,出货延期等严重后果,所以,如何解Bug确实很重要。 17 abril 关于公司策略问题,要有大局观策略的制定者,必须能够跳出问题去看问题,这是非常关键,如果策略制定者,还是以某一个部门的利益出发,这样指定策略将是非常可怕的,其后果也是非常严重的。 例如,上周四,关于公司的3D Mark出了问题,找到问题,已经是晚上8点了,为了满足客户的供货,那么周五的早上,系统组装线、SMT和板卡返工线必须开动,否则,就无法满足客户要求,所以,该问题的Solution,必须连夜加班验证,当时,在工厂有两个人反对这个计划,一个是余峰,一个魏纪超,他们因为前面已经加了一个夜班,今天再加班确实受不了。虽然他们两个人可以不加班,但是他们不能因此而反对我要求安排加班的计划。如果这样,他们就纯粹的以个人的便利而影响我的整体决策了。 还有一个同样的例子,就是公司的CostDown,这样确实会给很多部门带来不便。但是CostDown对与公司来讲,是公司的大策略,我们各个部门必须按照这个目标而一致努力。同样,工程师在工作中间也会因为遇到这样或者那样的问题,但是这些困难我们应该认为是常态,不应该因为这些困难而抵制公司的Cost Down策略。 还有一个严重的问题,就是老板如果实际担任很多部门角色的话,如果老板不能跳出他所担任执行角色部门任务,那么这个影响也是可怕的。我将以后重点分析这个问题。
关于抵制家乐福,我的看法最近很多网站网友都宣传抵制家乐福,我不是十分赞成这种做法。 这次,法国确实做的不对,但是,仅仅靠抵制家乐福这样低水平的反对,太没有技术含量了,我觉得政府和网民应该创新一些新的招数,给法国政府看看。 其次,世界已经是平的了,全球经济已经一体化了,家乐福除了从中国赚钱以外,确实还是给很多社区带来很多方便。而且,商业行为就是商业行为,我们这样抵制,优良的外资将来不是十分敢到中国来。 再次,家乐福确实为中国的商业模式和服务质量做出过巨大贡献。在没有开放之前,看看我们所谓的百货公司服务水平,就是开放以后,看看我们国内的超市的服务水平就可以看出来了,如果没有家乐福作为一个榜样和竞争对手,中国国内这帮无良商人不知道会搞得多糟。 所以,我觉得我们应该发明和创新一些方法去对付法国政府,当然,这是需要政治水平。 15 abril 如何重建对我们产品体系的信心?本次s42p 3D Mark导致的危机处理,过程中间确实反应我们系统上大问题,特别是信心上面,我们对于自己的研发和自己的产线缺乏信心,例如,我们3D Mark出了问题,我们首先怀疑查找PVT和量产之不同,能够怀疑的地方全部怀疑了一边。设计方案级别的怀疑还好办,但是,对于产线制程方面的怀疑就比较麻烦了,特别是这个时候怀疑我们的ESD处理和SMT工艺问题,验证和论证都是比较困难的。 所以,不论是针对设计方案级,还是制程一级的问题,我们是否要总结一些原则,确保我们到底可以相信那些,不可以相信那些,出了问题,我们首先应该去哪里找问题,其次再往哪里找问题? 12 abril 沟通的必要性沟通的必要性 前天,和黄镇、魏纪超、连子建去工厂解决s42p的3D mark黑屏问题,我开得车,早上8点出发,走在福龙路上,我正犹豫是转北环走彩田路过梅林关?还是过隧道走南平快速过梅林关呢?因为走北环转彩田路,一般都会堵车,而过隧道呢?有时候也会堵车,就像大前天,我过隧道走南平的时候,隧道里面发生三起车祸,害得我很久才通过。 我正犹豫的时候,随口说了一句“昨天走隧道,遇到三起车祸,这次我们还要不要走隧道呢?”上次走隧道,黄镇不在车上,因此黄镇就说:“呵呵,发生事故的比率很小的,因为发生事故就不走隧道不值得吧”,魏纪超马上就说我应该是说,发生车祸就容易堵车,我是害怕堵车,而考虑选择道路。呵呵。 这样的一个简单问题,表明我们说的一句话,对于不同经历,不同背景的人而言,其理解也是不同,例如,魏纪超前次和我经历过堵车,所以,他就知道我想表达的意思。同样,黄镇开车可能不是很不熟练,他就怀疑我害怕车祸。 所以,我们管理也好,工作也好,讲课也要,一定要注意交流,交流非常关键,有时候,我们要表达的意思,到了听者的耳朵中间可能是另一个意思。当我们向别人传达某个信息的时候,我们一定要确认别人是不是理解你的意思,如果理解错误,我们应该立即纠正,传达正确的意思。否则,我们之间可能会有越来越多的误解。 关于近期公司若干疑难问题解决思路和方法:极端条件法从去年开始,公司出现过若干问题,具体总结有如下几个 1,A21因为Mini PCI E槽有问题,出现G780网卡概率性不能使用 2,R18C在生产过程中,出现因为吹空调问题概率性无法开机 3,s42p在生产过程中发现3D Mark 2006概率性死机的问题 4,n211机器在生产过程中发现部分机器屏幕闪屏特别厉害的问题 5,n213机器在生产过程中发现部分机器因为插拔VGA Cable线死机的问题 这几个问题都属于比较综合的问题,也属于疑难杂症,这个几个问题都是我主导解决的,其方法基本一致的,在此,做一次比较详细的分析,归纳和总结。
第一个严重问题,是在去年,也就是2007年发生,当时a21设计基本进入尾声,准备出货的时候,这个Bug还没有解决,无法出货,怎么办?当时候刘耀全、罗中平和熊笑颜都在工厂解决这个问题,因为我以前是做软件的,对于硬件和电源部分没有多少信心,所以,一开始我没有过多的介入这个Bug的解决中,后来,韩东锋也介入到这个问题解决中了,因为生产的压力太大了,然后问题还是没有解决,我提了好几个思路,都被熊和韩东锋否定了,所以,我只有赤膊上阵了。我首先的做法就是对于工厂挑出来的有问题的机台进行折腾,折腾有很多中方法,例如查看系统配置不同对于这个Bug现象有没有影响等等,最后我发现电压的高低对于这个现象有比较明显的影响,也就是在高电压的条件下不容易出问题,而在低电压的条件下容易出问题,于是,我就把从DC Source入口查起,把3.3V和5V,1.8V,1.2V等几路电压分别使用外接DC Source控制,分别调试低电压和高电压的不同,最终发现一路电压会产生严重的影响,最后,按照这个思路分析下去,查出是系统的Layout设计问题,电源部分会干扰PCI E信号走线。
第二个严重问题,是R18在生产过程中发现,很多台都无法开机,无法开机的时候,PE和硬件工程师都通过量信号发现,是Clock的晶振停阵,后来进一步分析,发现如果把一批板子放到空调下面,吹上3个小时之后,出现概率就非常的大,这个问题工厂PE和HW工程师折腾很久没有解决,公司无法判断是板子设计本身问题,还是制程工艺问题导致这个问题,而且这个问题,在最终端客户手里面会如何表现等等,所以,工厂紧急决定停线。这个问题只所以表现的很复杂,和各个方面的错误信息也有很大关系,例如工厂反馈R18P上面没有这个问题,而r18c上面存在这个问题,所以,我们思路就被定格在r18p和r18c在晶振处理上的不同了。我到了工厂以后,首先我确定这个问题可能是由于芯片受潮导致,因为,对着空调吹冷气,芯片上面很容易凝结水汽。所以,我就尝试使用嘴来吹芯片,因为口里吹出来的空气,水分含量较大,而且容易在芯片表面凝结,结果,马上就出现晶振停振的现象,我们就可以非常容易做试验了。然后,我使用把芯片周围点胶的方法来密封芯片,结果OK,但是点胶的方法无法导入生产,而且不可靠,所以,我们就采用贴泡棉的方法,结果证明可行。
第三个问题,我已经有详细的专项分析,基本上解决思路,先找出复现问题的方法,我们发现,如果只运行Batch Size Tests,马上就会复现现象,然后,重点研究容易出问题的机台,例如,有的机台连一个Cycle都run不过,我们在研究发现高电压的时候容易出现,低电压的时候不容易出现,进一步对比GPU电源处理,发现了问题所在,两个MOS物料不同。这样一步一步就分析出问题根本所在。
第四个问题,这是一个和天线设计有关的问题,我们把现象严重的机台拿过来分析,发现是天线导线干涉到GPU了,进一步,我们首先加强对电线的屏蔽,然后,改变电线的理想,例如增加天线的理线屏蔽,在过PCB板子的时候要注意和PCB成垂直状态。
第五个问题,是一个小概率均匀分布的例子,当时,我们首先在产线上发现某些机器接了VGA显示器的时候,会出现死机的现象,进一步发现,单单使用VGA Cable线也会出现死机的情况,而我们在实验室内很难复制这个现象,而且,和人有关,有的人做的出来,而有些人做不出来。因为这是一个均匀概率分布的问题,我们无法找出那台现象严重,所以,我们下的各种Solution必须拿到产线上验证才可以。这样,经过尝试,最终王华成贴的一种导电胶布的方案可行。问题就解决了。
这几个问题都有一个共同特别就是小概率问题,而且,大部分不是均匀分布,所以,对于这些问题,我们首先是使用极端条件的方法,找出特别容易复现的机台和特别容易复现的方法,然后根据这些极端条件产生原因,分析Root Cause,然后下Solution,Solution在极端条件下去验证也就方便的多。这种极端条件的方法,也适合科学研究的。例如,我们去研究超低温现象等等,可以发现问题的规律。
11 abril 关于本次3D Mark问题紧急解决过程分析以及检讨关于本次3D Mark问题紧急解决过程分析以及检讨 这次3D Mark调试,信息多而杂,面对出货的压力、市场客户的压力,老板的压力、工厂对于频繁的压力,集中到了研发这边,最终用了四天时间完全解决,现在问题已经基本确定,可以回头总结解决思路了。 清明之后,我从上海出差回到公司,周一上班上午,我就得到工厂因为三个问题死机而停线的信息。这三个问题是 1) 保护死机,无法开机 2) 3D Mark黑屏灰屏死机等 3) 产线测试过程ShutDown 周一我得到这个问题,我感觉问题非常严重,需要马上去工厂处理。当时,桂志明请病假,刘力航在北京同方支持,项目没有硬件工程师,只有其主管魏纪超过去支持,另外,加上公司特别有经验的工程师张能军和BIOS工程师何良刚,上午9:30赶往工厂。到了工厂,首先看第一个问题,按照保护路径,我们很快分析到是由于硬件保护电路保护引起,我们发现这个保护电路就在CPU附近,因此,我们认为,如果产线操作员不小心摸到这个电路,可能由于静电打死机台,通过我们模拟,使用手去触摸,确实可以复制死机保护现象,因为我们在上午就找到了问题的RootCause。 关于问题3,以前就提出过可能由于产线电压不稳导致,当时工厂也已经确认,并且进行了改善,这样的方案已经确实可行,已经认为解决。 说实话,一开始,我对3D Mark的问题,并没有给予太多的重视,因为,我觉得加的那个解决FF问题的方案不应该导致3D Mark问题,并且,3D Mark问题已经经过PVT测试,而且同方也已经多次上线测试未发现该问题,所以,我认为本次问题可能是我们测试方法或者系统有问题导致。所以,当时,我们给的解决方法就是把Vista的一些Bug打上去再测试,当时,我认为可能就是这些补丁导致,于是,我们就让余峰做母盘,最后,测试的结果很差,出现很多台死掉。我马上意识到这个问题的严重性,加紧分析。 首先,我们让工厂掉PVT的机台出来做,做参考使用,但是由于工厂作业流程比较复杂,一直没有架起来Run,我们当时分析,可能是和PVT差别导致,我们把Keypart尝试换一边,首先装光驱,换内存等,结果还是Fail。最后换CPU,把530的换成2370,两个小时没有出问题,当时,我就以为是OK了,因为530的CPU,20台机器基本上每次10分钟就会有一台fail。当时,我们就从工厂返回了。 第二天,测试结果出来了,PVT的机器使用530的CPU没有一台fail,而我们这次量产的机台,使用2370的CPU,过了两个小时,就陆续出现Fail。这个问题非常严重,说明我们的机器有严重的问题,周二,我又带熊笑颜,何良刚,张能军和余峰去工厂,当时压力特别的大,我们分析很多方面的问题,主要从物料工艺设计方案等,张能军把量产的机台返工成PVT的方案测试还是fail的,另外熊提出工厂重新大一批看看,是否有问题,当时同方运营部门多次给我们打电话,催我们解决问题,另外工厂产线又不敢停,因此,就这样一直忙着应付客户,又一直忙着解决问题。 第三天,由于我要在公司解决问题,就没有去工厂,是熊带队去工厂,老板很生气而且很着急,一个上午找了我N次,晚上熊他们在工厂加夜班,问题还是没有进展。余峰也验证出,死机主要是由于运行Batch Size Tests导致的。 周四上午,我非常着急,8点钟,我就去工厂了,当时带魏纪超、连子建等。基本上上午10到工厂,等着新打的PCB结果,新打的PCB昨天晚上12点开始做测试,2点钟的时候没有fail,到了早晨六点,基本上fail 3台,基本说明fail,但是熊不甘心。我认为530的CPU会比较明显出问题,因此紧急要求产线上530的CPU。11点开始RUN,到了下午2点,fail 3台,说明新大的板子也是有问题了。 在这个时候,我们必须转化思路,余峰这时候,把上面特别容易出现问题的机台机器那下来,说我们必须分析一下这两台机器为什么频繁的出问题。我觉得非常有道理,于是集中精力分析这两台,我觉得可能在电池模式可能会和Adapter有差别,于是我换了一根电池试验,结果Run了几个10个Cycle左右的Batch Size Tests,如果用Adapter的话,那么只能Run 3个Cycle。多次试验,都是这样,于是我怀疑,可能在不同电压条件下表现不一样,于是我换DC Source来做,基本上,如果在12.6V的电压可以Run 10多个Cycle的机台,到22V的电压条件下,基本来一个Cycle都不行了,这说明一定是电源部分出了问题。于是,参考我们的PVT和这次量产的领料表,我们发现GPU的1.8V电源部分,有两个电感使用不一样,于是我们换电感,换了之后,在22V条件下死机的机台,怎么Run 3D Mark Batch Size Tests都不会死机了。初步的结论就是使用不同的电感,导致GPU的电源纹波有问题。于是紧急查工厂的First Source电感库存情况,结果为零。我们只有采用其他方法来改善纹波,连子建给出的方案就是加电容,然后,我们就Rework机器,采用只Run Batch Size测试,没有Rework之前,基本上30台机器,10分钟之内死了20台,而Rework之后,2个小时内没有一台有问题的。表明我们的方案是可行的,并且找到了3D黑屏的原因。 于是,晚上我们紧急安排这个方案的Control Run测试,工厂ORT的人所有人都加班测试,公司研发段黄镇和连子建跟踪解决,防止异常发生,到了周五早上,一切OK。 这就是这个问题解决的一个大体过程。
这个问题解决中间的教训和经验: 1, 对于死机的问题要特别重视,相信工厂测试等不会乱报问题的,周一上午,我当时认为一定是一些补丁没有打,所以有这样的问题。 2, 对于制程问题,不要轻易怀疑,以后对于制程问题表象如何,我们还需要认真总结。 3, 很多问题不要简单归结为单体问题,很多单体问题可能就是问题的极端情况,例如这次就是。 4, 极端条件法,这次证明还是有效。 5, 物料承认问题是一个大问题,特别是Second Source处理,这些问题需要CE重新梳理工作了,不是一下子可以完成的。
|
|
|