Abstract:
Die Gewährleistung der Zuverlässigkeit von CMOS-Schaltungen ist derzeit eines der größten Herausforderungen beim Chip- und Schaltungsentwurf. Mit dem Ende der Dennard-Skalierung erhöht jede neue Generation der Halbleitertechnologie die elektrischen Felder innerhalb der Transistoren. Dieses stärkere elektrische Feld stimuliert die Degradationsphänomene (Alterung der Transistoren, Selbsterhitzung, Rauschen, usw.), was zu einer immer stärkeren Degradation (Verschlechterung) der Transistoren führt. Daher erleiden die Transistoren in jeder neuen Technologiegeneration immer stärkere Verschlechterungen ihrer elektrischen Parameter. ... mehrUm die Funktionalität und Zuverlässigkeit der Schaltung zu wahren, wird es daher unerlässlich, die Auswirkungen der geschwächten Transistoren auf die Schaltung präzise zu bestimmen.
Die beiden wichtigsten Auswirkungen der Verschlechterungen sind ein verlangsamtes Schalten, sowie eine erhöhte Leistungsaufnahme der Schaltung. Bleiben diese Auswirkungen unberücksichtigt, kann die verlangsamte Schaltgeschwindigkeit zu Timing-Verletzungen führen (d.h. die Schaltung kann die Berechnung nicht rechtzeitig vor Beginn der nächsten Operation abschließen) und die Funktionalität der Schaltung beeinträchtigen (fehlerhafte Ausgabe, verfälschte Daten, usw.). Um diesen Verschlechterungen der Transistorparameter im Laufe der Zeit Rechnung zu tragen, werden Sicherheitstoleranzen eingeführt. So wird beispielsweise die Taktperiode der Schaltung künstlich verlängert, um ein langsameres Schaltverhalten zu tolerieren und somit Fehler zu vermeiden. Dies geht jedoch auf Kosten der Performanz, da eine längere Taktperiode eine niedrigere Taktfrequenz bedeutet. Die Ermittlung der richtigen Sicherheitstoleranz ist entscheidend. Wird die Sicherheitstoleranz zu klein bestimmt, führt dies in der Schaltung zu Fehlern, eine zu große Toleranz führt zu unnötigen Performanzseinbußen.
Derzeit verlässt sich die Industrie bei der Zuverlässigkeitsbestimmung auf den schlimmstmöglichen Fall (maximal gealterter Schaltkreis, maximale Betriebstemperatur bei minimaler Spannung, ungünstigste Fertigung, etc.). Diese Annahme des schlimmsten Falls garantiert, dass der Chip (oder integrierte Schaltung) unter allen auftretenden Betriebsbedingungen funktionsfähig bleibt. Darüber hinaus ermöglicht die Betrachtung des schlimmsten Falles viele Vereinfachungen. Zum Beispiel muss die eigentliche Betriebstemperatur nicht bestimmt werden, sondern es kann einfach die schlimmstmögliche (sehr hohe) Betriebstemperatur angenommen werden.
Leider lässt sich diese etablierte Praxis der Berücksichtigung des schlimmsten Falls (experimentell oder simulationsbasiert) nicht mehr aufrechterhalten. Diese Berücksichtigung bedingt solch harsche Betriebsbedingungen (maximale Temperatur, etc.) und Anforderungen (z.B. 25 Jahre Betrieb), dass die Transistoren unter den immer stärkeren elektrischen Felder enorme Verschlechterungen erleiden. Denn durch die Kombination an hoher Temperatur, Spannung und den steigenden elektrischen Feldern bei jeder Generation, nehmen die Degradationphänomene stetig zu. Das bedeutet, dass die unter dem schlimmsten Fall bestimmte Sicherheitstoleranz enorm pessimistisch ist und somit deutlich zu hoch ausfällt. Dieses Maß an Pessimismus führt zu erheblichen Performanzseinbußen, die unnötig und demnach vermeidbar sind. Während beispielsweise militärische Schaltungen 25 Jahre lang unter harschen Bedingungen arbeiten müssen, wird Unterhaltungselektronik bei niedrigeren Temperaturen betrieben und muss ihre Funktionalität nur für die Dauer der zweijährigen Garantie aufrechterhalten. Für letzteres können die Sicherheitstoleranzen also deutlich kleiner ausfallen, um die Performanz deutlich zu erhöhen, die zuvor im Namen der Zuverlässigkeit aufgegeben wurde.
Diese Arbeit zielt darauf ab, maßgeschneiderte Sicherheitstoleranzen für die einzelnen Anwendungsszenarien einer Schaltung bereitzustellen. Für fordernde Umgebungen wie Weltraumanwendungen (wo eine Reparatur unmöglich ist) ist weiterhin der schlimmstmögliche Fall relevant. In den meisten Anwendungen, herrschen weniger harsche Betriebssbedingungen (z.B. sorgen Kühlsysteme für niedrigere Temperaturen). Hier können Sicherheitstoleranzen maßgeschneidert und anwendungsspezifisch bestimmt werden, sodass Verschlechterungen exakt toleriert werden können und somit die Zuverlässigkeit zu minimalen Kosten (Performanz, etc.) gewahrt wird.
Leider sind die derzeitigen Standardentwurfswerkzeuge für diese anwendungsspezifische Bestimmung der Sicherheitstoleranz nicht gut gerüstet. Diese Arbeit zielt darauf ab, Standardentwurfswerkzeuge in die Lage zu versetzen, diesen Bedarf an Zuverlässigkeitsbestimmungen für beliebige Schaltungen unter beliebigen Betriebsbedingungen zu erfüllen. Zu diesem Zweck stellen wir unsere Forschungsbeiträge als vier Schritte auf dem Weg zu anwendungsspezifischen Sicherheitstoleranzen vor:
Schritt 1 verbessert die Modellierung der Degradationsphänomene (Transistor-Alterung, -Selbsterhitzung, -Rauschen, etc.). Das Ziel von Schritt 1 ist es, ein umfassendes, einheitliches Modell für die Degradationsphänomene zu erstellen. Durch die Verwendung von materialwissenschaftlichen Defektmodellierungen werden die zugrundeliegenden physikalischen Prozesse der Degradationsphänomena modelliert, um ihre Wechselwirkungen zu berücksichtigen (z.B. Phänomen A kann Phänomen B beschleunigen) und ein einheitliches Modell für die simultane Modellierung verschiedener Phänomene zu erzeugen. Weiterhin werden die jüngst entdeckten Phänomene ebenfalls modelliert und berücksichtigt. In Summe, erlaubt dies eine genaue Degradationsmodellierung von Transistoren unter gleichzeitiger Berücksichtigung aller essenziellen Phänomene.
Schritt 2 beschleunigt diese Degradationsmodelle von mehreren Minuten pro Transistor (Modelle der Physiker zielen auf Genauigkeit statt Performanz) auf wenige Millisekunden pro Transistor. Die Forschungsbeiträge dieser Dissertation beschleunigen die Modelle um ein Vielfaches, indem sie zuerst die Berechnungen so weit wie möglich vereinfachen (z.B. sind nur die Spitzenwerte der Degradation erforderlich und nicht alle Werte über einem zeitlichen Verlauf) und anschließend die Parallelität heutiger Computerhardware nutzen. Beide Ansätze erhöhen die Auswertungsgeschwindigkeit, ohne die Genauigkeit der Berechnung zu beeinflussen.
In Schritt 3 werden diese beschleunigte Degradationsmodelle in die Standardwerkzeuge integriert. Die Standardwerkzeuge berücksichtigen derzeit nur die bestmöglichen, typischen und schlechtestmöglichen Standardzellen (digital) oder Transistoren (analog). Diese drei Typen von Zellen/Transistoren werden von der Foundry (Halbleiterhersteller) aufwendig experimentell bestimmt. Da nur diese drei Typen bestimmt werden, nehmen die Werkzeuge keine Zuverlässigkeitsbestimmung für eine spezifische Anwendung (Temperatur, Spannung, Aktivität) vor. Simulationen mit Degradationsmodellen ermöglichen eine Bestimmung für spezifische Anwendungen, jedoch muss diese Fähigkeit erst integriert werden. Diese Integration ist eines der Beiträge dieser Dissertation.
Schritt 4 beschleunigt die Standardwerkzeuge. Digitale Schaltungsentwürfe, die nicht auf Standardzellen basieren, sowie komplexe analoge Schaltungen können derzeit nicht mit analogen Schaltungssimulatoren ausgewertet werden. Ihre Performanz reicht für solch umfangreiche Simulationen nicht aus. Diese Dissertation stellt Techniken vor, um diese Werkzeuge zu beschleunigen und somit diese umfangreichen Schaltungen simulieren zu können.
Diese Forschungsbeiträge, die sich jeweils über mehrere Veröffentlichungen erstrecken, ermöglichen es Standardwerkzeugen, die Sicherheitstoleranz für kundenspezifische Anwendungsszenarien zu bestimmen. Für eine gegebene Schaltungslebensdauer, Temperatur, Spannung und Aktivität (Schaltverhalten durch Software-Applikationen) können die Auswirkungen der Transistordegradation ausgewertet werden und somit die erforderliche (weder unter- noch überschätzte) Sicherheitstoleranz bestimmt werden. Diese anwendungsspezifische Sicherheitstoleranz, garantiert die Zuverlässigkeit und Funktionalität der Schaltung für genau diese Anwendung bei minimalen Performanzeinbußen.
Abstract (englisch):
Ensuring reliability in CMOS circuits is currently one of the key challenges in chip design. With the discontinuation of Dennard scaling, each new generation of semiconductor technology increases the electric fields of transistors. This stronger electric field stimulates the degradation phenomena (circuit aging, self-heating, etc.) by accelerating their physical processes. This, in turn, causes ever-increasing degradations to the transistors. Therefore, in each new technology generation the transistors feature higher shifts (degradations) to their nominal electrical parameters. ... mehrThus, the impact of this increasing transistor degradation on the circuit must be determined.
The two key impacts are elongated propagation delays (i.e., the circuit operates slower) and increased power consumption. If unaccounted for, the elongated delay can lead to timing violations (i.e., the circuit cannot finish the calculation in time before the start of the next operation) and hamper the functionality of the circuit (erroneous output, corrupted data, etc.). To account for these shifts in transistor parameters over time, guardbands are introduced. For example, increasing the clock period of the circuit ensures elongated delays can be tolerated. Finding the correct guardband is crucial. Underestimating the guardband results in errors (such as timing violations), while overestimating it results in unnecessary performance losses.
Currently, industry relies on worst-case conditions when estimating reliability, i.e. industry employs pessimistic overestimations of the guardband (and thus induced degradations) to guarantee the functionality of their products. It is imperative for them, to ensure that under any condition -- including unfavorable high temperatures and elevated voltages -- their product (e.g., chip or circuit) maintains reliability and functionality. Additionally, considering the worst-case allows for many simplifications. For example, instead of carefully understanding and modeling each phenomenon, industry can just take an unlucky sample (bad sample with lots of manufacturing variability) and experimentally determine its delay/power under the toughest conditions (extreme temperature and voltage) to ensure that any degradation experienced by the end-user must be less than this worst-case experiment.
Unfortunately, this practice of worst-case estimations (experimental or simulation-based) can no longer be sustained. With continuous miniaturization due to geometry scaling, the rising electric fields stimulates degradation phenomena and manufacturing becomes harder (see introduction of EUV-lithography). Therefore, the worst case is a tremendous amount of detrimental manufacturing variability in addition to considerable degradations due to stimulated degradation phenomena. This level of pessimism leads to substantial performance decreases, which are not necessary for each customer. For example, while military or space circuits might operate for 25 years under harsh conditions, consumer electronics (e.g., smartphones, video-streaming devices) operate at lower temperatures and only have to maintain their functionality across their 2 year warranty period.
This work aims to provide custom reliability estimations for the individual use-case scenarios of the circuit. For challenging environments like the space applications (where repair is impossible), worst-case estimations remain relevant. However, typical applications do not operate under such harsh conditions for such a long time. Consumer electronics include cooling systems (e.g., the fan of a notebook/server) or other systems (e.g., thermal throttling, power scaling) to guarantee less harsh environmental conditions (e.g., lower peak temperature). In such cases, custom reliability estimations can regain performance lost to otherwise overly pessimistic guardbands.
Unfortunately, current standard design tools are not well-equipped to deal with these custom reliability estimations. The current procedures rely on the information from the foundry (the semiconductor manufacturer) about their worst-case transistors and standard cells (logic gates, arithmetic units, etc.). The tools then integrate the worst case into the design steps (e.g., synthesis, static timing analysis). There is merely rudimentary support in individual tools, but contrary to worst-case estimations (via process corners), there is no interconnected reliability tool flow.
This work aims to enable standard design tools to deal with this demand for reliability estimations of any circuit under any condition. Instead of developing our own solution, this work enhances standard design tools to leverage their maturity. We extend their functionality to enable the tools to consider custom reliability estimations. For this purpose, we present four steps as contributions towards custom reliability estimations:
Step 1 enhances the degradation modeling. The goal of step 1 is to provide a single unified model for the degradation effects (combining the work of the material scientists) and consider their interactions (phenomena A might accelerate phenomena B). Combined with newly discovered key phenomena, this enables accurate degradation modeling of transistors according to multiple phenomena simultaneously.
Step 2 accelerates these degradation models, as the original implementation of physicists require minutes to model a single transistor. This work accelerates these models \textit{without any loss in accuracy} by levering the parallelism found in the computation hardware of today and by simplifying calculation where possible (e.g., guardbands require only peak degradation levels and not degradation over time).
Step 3 then incorporates these degradation models into the standard tools. Standard tools are currently only aware of the best, typical and worst possible standard cells (digital) or transistors (analogue) with all three process corner provided by foundries. These tools do not estimate for a given condition (temperature, voltage, activity) and hence integration work is necessary.
Step 4 accelerates the standard tools to provide insights in the current large-scale circuits. Non-standard cell digital designs and large analogue designs are currently not supported by existing tools, as the existing analogue reliability estimation tools are not compatible with large-scale analogue simulators (e.g., FastSPICE). This work provides high-performance implementations of these analogue circuit simulators.
These contributions (each spanning multiple publications) enable standard tools to estimate reliability for custom use-case scenarios. For a given circuit lifetime, temperature (peak temperature or temperature over time), voltage (peak voltage or voltage over time) and activity (workload, applications) this enhanced standard tool flow can estimate the impact of these degradations and thus provide the required (neither under- nor overestimated) guardband.