[l] Nach den Erkenntnissen über den Schleifenoverhead habe ich mal einen Generator für Comba-Multiplikation gebaut ohne Schleifen und komme damit für zwei 1024-Bit Zahlen auf dem Athlon auf 777 Zyklen (alt: 1406) und auf dem Core 2 auf 2196 (alt: 3552). Das sind soweit ich weiß neue Rekorde; der bisher schnellste Code, den ich kenne, liegt bei 953 respektive 2676 Zyklen. Bisher nur für 64-bit Modus (da gibt es mehr Register). Für 32-bit muss ich mir noch mal was überlegen, damit ich da mit den Registern auskomme.