NVidia Bug reparieren

Aus ThinkPad-Wiki
(Weitergeleitet von NVidia-Bug)
Wechseln zu: Navigation, Suche
Nach erfolgreich durchgeführtem Reflow
Abstandshalter zum Backblech
nVidia Quadro NVS140m in R61 7742

WARNUNG: Dieses How-To ist auf eigene Gefahr durchzuführen! Für Schäden wird keine Haftung übernommen!

Wichtig: Es handelt sich hierbei nicht um eine "richtige" Reparatur. Man kann das Gerät damit nur übergangsweise wieder zum Leben erwecken. Siehe auch die weiteren Hinweise unten sowie die Erklärung für den Grund der Ausfälle

Hintergrund

Die nVidia Quadro NVS140m wurde in zahlreichen Notebook-Modellen verschiedener Firmen ab 2007 verbaut. Diese Chips wiesen auffällig schnell in großer Zahl Defekte auf, woraufhin auf große Kundenbeschwerden reagiert wurde. Auch bis in die heutige Zeit haben Notebooks aus der "gefährlichen Zeit" überlebt. Diese sind leider nur auf unbestimmte Zeit funktionstüchtig. Diese Modelle fallen noch heute dem dadurch bekannt gewordenen "nVidia Bug" zum Opfer.

Für Lenovo Modelle mit dieser Grafikkarte kann man sich an folgenden Daten orientieren:

  • Chips mit Datecode bis einschließlich Januar 2008 sind "sehr ausfallgefährdet". Keine Chance auf "einwandfreien" Chip.
  • Chips mit Datecode ab Februar 2008 bis einschließlich Juli 2008 sind "mäßig ausfallgefährdet". Ungefähr "Fifty/Fifty-Chance" auf "einwandfreien" Chip.
  • Chips mit Datecode ab August 2008 bis Produktionsende gelten als "einwandfrei"


Außerdem wurde in einem Class-action-Verfahren von Dell, HP und Sony in den USA gegen nVidia geklagt und gewonnen. Betroffene dieser Marken erfreuten sich in einigen Ländern an einer Garantieverlängerung. Lenovo beteiligte sich daran nicht. Heutzutage ist es schwer ein ThinkPad oder ein ThinkPad Mainboard mit einem "einwandfreien" nVidia Quadro NVS140m Chip zu ergattern, da davon folglich nur eine begrenzte Stückzahl produziert wurde.

Ausschlaggebend sind immer die eben angemerkten Datecodes, die auf dem Chip aufgedruckt sind. Der Datums-Bodenaufdruck des ThinkPads kann um vereinzelt mehrere Monate nach oben variieren.

Die in diesem Beispiel aufgedruckte Zeichenfolge "0826A2" dient zum Ablesen des Datecodes. Er wird nach Entfernen des Lüfters einsehbar:

  • "08" = Herstellungsjahr 2008
  • "26" = 26. Kalenderwoche

Ein Paradebeispiel, wenn man sich den Bodenaufdruck des R61 7742 anschaut, aus dem der Chip fotografiert wurde. Herstellungsdatum 08/09 [Jahr/Monat]. Mit Kalenderwoche 26/2008 liegt der Chip zwischen dem 23. Juni und 29. Juni 2008 und ist als "mäßig ausfallgefährdet" anzusehen. Er funktioniert noch am heutigen Datum (17/05) ohne Mangel.

Grund der Ausfälle

Der Grund für die Ausfälle liegt an mehreren Fehlern, die Nvidia in der Entwicklung begangen hat. Dabei wurden u.a. falsche Materialien ausgewählt, die untereinander so nicht kompatibel sind und den Temperaturen sowie den Temperaturschwankungen nicht standhalten. Das ganze wurde dann auch nicht richtig getestet, so dass diese großen Designfehler in der Entwicklung erst durch die Ausfälle beim Kunden auffielen.

Eine stark vereinfachte Erklärung: Die eigentlichen Halbleiter-ICs werden mit kleinen Lotkügelchen versehen, mit dem sie auf dem Substrat (einer kleinen Platine) aufgelötet werden ("bonden"). Die Verbindung mit diesen sogenannten "Bumps" ist sehr steif. Da durch die Steifigkeit und die Kürze dieser Verbindungen sehr hohe Kräfte auftreten können, wenn sich Temperaturänderungen ergeben, muss zwingend noch ein zusätzlicher Klebstoff verwendet werden, der alle Zwischenräume auffüllt und einen möglichst ähnlichen Wärmeausdehnungskoeffizienten hat. Dann kann dieser minimal elastische Klebstoff (genannt "Underfill") die Kräfte abfangen und damit die Last von den Bumps nehmen. Auf dem Substrat werden dann eventuell weitere nötige Bauteile mit aufgelötet und die Kontakte an die richtigen Stellen nach unten geführt. Dort wird dann in der Regel mit kleinen Lotkügelchen aus "normalem" Lötzinn gearbeitet, man hat also eine Matrix aus vielen kleinen Kontakten ("Ball Grid Array") und diese ganze "Platine" wird dann an die Hersteller der Mainboards (in diesem Fall Lenovo) ausgeliefert. Dort wird diese ganze "Platine" dann in einer Art "Backofen" auf das eigentliche Mainboard aufgelötet ("Reflow"-Löten).

Nvidia hat sich nun für das Auflöten auf das Substrat mit Lötzinn mit sehr hohem Bleianteil ("high-lead bumps") entschieden. Das verwendete Lot braucht deutlich höhere Schmelztemperaturen (ca. 310°C), höher als normales Lötzinn (je nach Sorte ca. 100°C weniger). Damit können aber etwas höhere Ströme durch die Bumps geleitet werden als beim sogenannten eutektischen Bonden, dafür sind diese high-lead Bumps aber sehr spröde und sehr viel anfälliger auf Bruch. Das Underfill muss also um so besser die Kräfte abfangen. Das Underfill wurde aber falsch gewählt und fängt schon bei ca. 60°C an weich zu werden, ab ca. 80°C ist es nur noch eine Art Gelee und unterstützt die Bumps mechanisch quasi überhaupt nicht mehr. Underfills, die erst bei deutlich höheren Temperaturen weich werden, waren zu der Zeit noch nicht sehr verbreitet (wären aber verfügbar gewesen), Nvidia entschied sich also für etablierte Underfills, vergaß dabei aber, dass dieses Underfill in ihrem Fall eben gar nicht haltbar genug ist, da die entstehenden Temperaturen zu hoch werden und die unbedingt nötige mechanische Stabilisierung dann nicht mehr gegeben ist. Dadurch sind die Belastungen auf den Bumps zu groß und sie brechen an der Verbindung zum Substrat früher oder später ab. Wie ein Stück Draht, welches man immer wieder hin und her biegt, ist das ein langsam ablaufender Prozess, bis die Verbindung mechanisch versagt. Auf Englisch wird das Problem der brechenden Bumps durch mangelhaftes Underfill bei Nvidia daher auch als "Bumpgate" bezeichnet. Da so ein gebrochener Bump sich wie ein Wackelkontakt verhält, kann es sein, dass sich das Problem erst früher oder später zeigt und eventuell auch nicht immer auftritt.

Nvidia hätte also eutektische Bonds benutzen müssen, da diese mehr aushalten und/oder ein Underfill benutzen müssen, welches den Temperaturen stand hält. Auf jeden Fall hätten sie ihre Konstruktion aber vernünftig testen müssen, dann wären die Fehler nicht erst beim Kunden aufgefallen und der Schaden für alle beteiligten geringer gewesen. Chips der späteren Reihe (gerne als "bug-frei" bezeichnet) haben ein neues Underfill bekommen, welches den höheren Temperaturen standhalten kann. Da Underfills dieser Art aber deutlich steifer sind, kann der Chip wie ein Glas zerspringen, wenn nicht eine flexible Zwischenschicht eingebaut wird. Dafür wird normalerweise Polyamid benutzt, ein leicht gummiartiger Kunststoff. Nvidia hat bei den "bug-freien" Modellen diese Schicht aber nicht hinzugefügt! Diese Modelle haben also keine brechenden "Bumps" mehr, dafür kann der Chip aber innerlich "zerspringen" oder die einzelnen Schichten, aus denen der Chip besteht, können sich voneinander lösen. Beides hätte genau so einen Totalausfall zur Folge, in der Praxis scheint dieses Problem aber viel seltener aufzutreten als die brechenden Bumps bei den alten Modellen.

Quellen und weitere (Hintergrund-)Infos:

Wann ist diese Reparatur empfehlenswert?

Sofern ein T61(p) oder R61 mit nVidia Grafikkarte (Quadro NVS140m und FX570m) kein oder nur verzerrtes Bild auf internem und externem Bildschirm ausgibt, lohnt es sich, diese Prozedur durchzuführen. Sie funktioniert jedoch nicht immer, manchmal kann es sein, dass andere Bauteile des Mainboards beim Backen beschädigt werden.

Benötigtes Material

  • Ein T61(p) oder R61 mit defekter nVidia Grafikkarte
  • Wärmeleitpaste
  • Ein Umluft-Backofen
  • Ein stabiles Backblech
  • Aluminiumfolie
  • Passende Schraubenzieher
  • Ein paar Stunden Zeit

Das Auseinanderbauen

Das Mainboard aus dem Basecover entfernen, Structureframe abschrauben und alle Folien sowie den Arbeitsspeicher und weitere Module (WLAN-Karte usw.) entfernen. Den Prozessor aus dem Sockel nehmen und jegliche Wärmeleitpaste und Dreck vom Mainboard entfernen.

Das Backen

Nun muss man für das Mainboard passende Abstandshalter machen, damit es das Backblech nicht berührt. Dazu nimmt man ein Stück Alufolie und zwirbelt sie so, dass eine Art "Hütchen" entsteht das man durch das Schraubloch des Mainboards zieht. Das macht man so oft, bis das Mainboard stabil auf dem Backblech steht und mindestens einen Zentimenter Abestand vom Backblech hat. Soabald das getan ist, den Backofen auf 200 Grad Celsius Umluft vorheizen und das Backblech in den Ofen schieben.

Sobald der Ofen vorgeheizt ist, vorsichtig (!) das Mainboard auf das Blech legen und 10-12 Minuten lang backen. Nach Ablauf der Zeit den Ofen sofort ausschalten und die Tür öffnen. Nach einer halben Stunde im Ofen abkühlen, wieder rausnehmen und es wieder mit Structureframe in die Unterschale einbauen. Nun ist es Zeit für einen Funktionstest (RAM, Lüfter und Prozessor nicht vergessen). Sofern erfolgreich, frische Wärmeleitpaste auf CPU und Grafikkarte auftragen und gegebenenfalls den Lüfter entstauben. Jetzt kann das ThinkPad wieder zusammengebaut werden.

Fazit

Nach der Reparatur funktionierte mein T61p wieder perfekt, schon seit einigen Stunden hoher thermischer Belastung keine Grafikfehler aufgetreten.

Weitere Hinweise

Die Reparatur wird nicht von langer Dauer sein. Er zögert den endgültigen Tod des Grafikchips nur hinaus, meistens um einige Wochen bis wenige Monate. Auf jeden Fall empfehlenswert, wenn man keine Garantie mehr hat und noch eine Datensicherung o. Ä. durchführen möchte. Sobald das ThinkPad wieder keines oder nur ein verzerrtes Bild anzeigt die Prozedur wiederholen. Der eigentliche "Wackelkontakt" im Bump wird damit nicht behoben. Dafür wären mindestens höhere Temperaturen an den Bumps am Grafikchip nötig, wodurch andere Komponenten aber vorher schon durch die Hitze zerstört würden.

Da beteiligte ThinkPad-Modelle heute keine Garantie mehr haben, kann als Ausweichmöglichkeit ein passendes Mainboard mit Intel-Grafik selbst verbaut werden, was auf Kosten der Grafikleistung geht, allerdings gilt diese Grafiklösung allgemein als sehr langlebig. Um das System dann bei Videodecoding zu entlasten kann optional ein Hardware-decoder in Form einer mini-PCIe Karte z.B. in einen zweiten Slot verbaut werden.

Es gibt auch Anbieter, die den fehlerhaften Chip (inkl. Substrat) durch einen aus der späteren, fehlerfreien Generation ersetzen können. Die Preise dafür liegen zwischen ca. 50 und 100€, auch abhängig davon, ob man das ausgebaute Mainboard zur Reparatur gibt, oder der Anbieter den Aus- und Einbau mit übernimmt. Dies ist - neben dem Austausch gegen ein Mainboard mit "bug-freier" Nvidia- oder Intel-Grafik - die einzige echte und dauerhafte Reparatur. In der Praxis hatte es sich aber gezeigt, dass viele nVidia-Chips, die im Rahmen des Chip-Austausches verwendet wurden, Fälschungen waren. Die Quote der Reklamationen lag dermaßen hoch (über 75%), dass zahlreicher Dienstleister daran wirtschaftlich zugrunde gingen.

Weblinks