英特尔酷睿微体系结构_基于新型英特尔架构的台式机、笔记本电脑和主流服务器多核处理器的基础

英特尔酷睿微体系结构

基于新型英特尔架构的台式机、笔记本电脑和主流服务器多核处理器的基础

英特尔酷睿微体系结构是基于新型英特尔架构的台式机、笔记本电脑和主流服务器多核处理器的基础。英特尔酷睿微体系架构拥有一流的性能和多种创新特性，且针对多核进行了特别优化，树立了高能效表现的新标准。工作效率显著增强，凭借卓越的性能和能效，英特尔酷睿微体系架构为许多新的解决方案和外形设计奠定了良好的基础。

简要介绍

家用电脑将具备强大的性能、超低的噪音、时尚的外形和高能效表现，以及更完善的用户易用型娱乐系统。

对于 IT 人员，它可以减少设备的占地面积、降低服务器数据中心的功率和散热负担、提高客户机和服务器平台的响应能力、工作效率和能效。

对于笔记本电脑用户，英特尔酷睿微体系架构拥有更强大的计算性能、更持久的电池使用时间和更加小巧的外形，以及强大的移动计算体验。

英特尔酷睿微体系结构，是一款领先节能的新型微架构，设计的出发点是提供卓然出众的性能和能效，提高每瓦特性能，也就是所谓的能效比。英特尔酷睿微体系结构面向服务器、台式机和笔记本电脑等多种处理器进行了多核优化，其创新特性可带来更出色的性能、更强大的多任务处理性能和更高的能效水平，各种平台均可从中获得巨大优势:服务器可以更快速，更低的功耗为企业节省大笔开支，创新技术保证安全稳定的运行。

英特尔宽区动态执行动态执行包含多项技术（数据流分析、预测执行、乱序执行与超标量），这些技术最先出现在英特尔奔腾Pro处理器、英特尔奔腾II处理器和英特尔奔腾III处理器的P6微架构中。在英特尔NetBurst微体系结构中，英特尔推出了高级动态执行引擎 —一个非常深、用以保持处理器执行单元不断执行指令的乱序预测执行引擎。该微体系结构还采用了增强的分支预测算法来减少分支出错的次数。

对于英特尔酷睿微体系结构，英特尔通过英特尔宽区动态执行大幅增强了这一能力。它可以让每个时钟周期执行更多的指令，以缩短执行时间并改进能效。每个执行内核将变得更加宽阔，这样它们就可以同时获取、分配、执行和返回达4条完整的指令。（英特尔的移动和英特尔NetBurst微体系结构每次可处理3条指令）。进一步提高效率的特性包括可以进一步提高执行灵活性的更精确的分支预测、更深的指令缓冲区，以及可以缩短执行时间的其它特性。

其中一项可以缩短执行时间的特性就是微融合。在前几代处理器中，每条进入的指令均会被单独地解码和执行。微融合可以在解码期间将常用的指令对（如条件分支（conditional jump）后的比较）融合为单个内部指令（微操作）。这样2条程序指令就可以作为1个微操作执行，以减少处理器必须执行的整体工作量。这增加了给定时间内可以运行的全部指令数量，或者减少了运行一定指令数量的时间。通过在更短的时间内完成更多的任务，微融合提高了整体性能和能效。

英特尔酷睿微体系结构还包含增强的运算逻辑单元（ALU），以进一步支持微融合。

它能够在单个周期内执行组合的指令对，从而使性能得到提升。

英特尔酷睿微体系结构还改进了微操作融合 — 这是一种最先应用于英特尔奔腾M处理器的高能效技术。在现代主流处理器中，×86程序指令（微操作）在送往处理器管道接受处理之前，会被细分为多个组成部分，即微操作。微操作融合将“融合”源自相同宏操作中的微操作，以减少需要执行的微操作数量。微操作数量的减少可使时序安排工作更加高效，从而实现更低的功率和更高的性能。研究显示，微操做融合可使乱序逻辑处理的微操作数量减少10%以上。在英特尔酷睿微体系结构中，可以内部融合至处理器的微操作数量将进一步增多。

发展历史

2006 年，英特尔首次在采用65纳米硅制程技术的英特尔酷睿2微体系结构处理器中引入了英特尔酷睿微体系结构。作为第一代多核优化型微体系结构，它扩展了英特尔奔腾M处理器的移动式微体系结构中首次提出的能效理念，并利用诸多全新的领先微体系结构创新特性对其进行了增强，由此实现了业界领先的性能、更高的能效表现和更快的多任务处理响应能力。

2007 年下半年，英特尔开始投产代号为“Penryn”的下一代英特尔酷睿2 处理器家族产品。Penryn 处理器家族基于英特尔业界领先的45纳米高K 金属栅极硅制程技术和最新的英特尔酷睿微体系结构增强特性构建而成。英特尔酷睿微体系结构在英特尔早前大获成功的革命性微体系结构（当前英特尔至强处理器家族和英特尔酷睿2处理器家族所用）基础之上，又进行了重大改进，这标志着英特尔在每年推出一种新制程技术及增强型微体系结构或全新微体系结构的道路上又迈出了重大一步。

45纳米Penryn家族中的双核处理器拥有 4 亿多个晶体管，四核处理器拥有8亿多个晶体管。借助全新微体系结构特性，该处理器家族产品还可在频率不变的情况下实现更高的性能，同时增大50%的二级高速缓存，以及扩展的电源管理能力可让能效表现再上新台阶。Penryn 家族还采用了近50条全新的英特尔SSE4指令，可进一步加快媒体应用和高性能计算应用的运行速度。Penryn 家族包括全新双核台式机处理器、四核台式机处理器、四核服务器处理器和双核移动式处理器。

创新要点

台式机可以在占用更小空间的同时，为家庭用户带来更多全新的娱乐体验，为企业员工带来更高的工作效率。笔记本电脑用户可以获得更高的移动性能和更耐久的电池使用时间。以下英特尔酷睿微体系结构的几大创新点：

宽位动态执行

英特尔宽位动态执行（Intel Wide Dynamic Execution）

衡量一款处理器的性能水平，已经不能再单纯的以频率的高低考量，而是更强调“每瓦特性能”，也就是所谓的能效比。“性能=频率×每个时钟周期的指令数”是英特尔提出的对性能的创新理解，英特尔宽位动态执行通过提升每个时钟周期完成的指令数，从而显著改进执行能力。

英特尔酷睿微架构拥有4组解码器，相比上代Pentium Pro （P6）/Pentium II/ Pentium III / Pentium M架构拥有3组可多处理一组指令，简单讲，每个内核会变得更加“宽阔”，这样每个内核就可以同时处理更多的指令。英特尔酷睿微体系结构在提升每个时钟周期的指令数方面做了很多努力，例如新加入宏融合（Macro-Fusion）技术，它可以让处理器在解码的同时，将同类的指令融合为单一的指令，这样可以减少处理的指令总数，让处理器在更短的时间内处理更多的指令。为此英特尔酷睿微体系结构也改良了ALU（算术逻辑单元）以支持宏融合技术。

Core拥有3个64-bit整数执行单元（Integer Execution Units），每个单元可以独立处理一条64-bit整数数据，这样Core就有了一套64-bit的CIU复杂整数单元（Complex Integer Unit），这和P6构架相同。然后Core另外有2个SIU简单整数处理单元（Simple Integer Units）来快速运算较简单的任务，其中一个SIU和分支执行单元BEU来共同完成部分的宏指令融合micro-ops fusion。对于INTEL的X86 CPU来说，这是首次可以在一周期内完成一阶64-bit的整数运算，这使Core已经走到了IBM PowerPC 970的前面-PowerPC 970需要有2个周期的延迟。另外，因为3个IEU整数执行核心使用了各自独立的PORT数据出口，所以整个Core处理器可以在一周期内同时执行3组64-bit的整数运算。

有着如此强大的整数处理单元，Core在性能上会比已有Pentium 4快的多，它在移动平台、服务器、3D图形上4倍于Pentium 4的性能表现会使全世界对INTEL CPU眼目一新。Core构架拥有2个浮点执行单元（Floating-Point Execution Units）同时处理向量和标量的浮点数据，位于PORT 1的FPEU-1浮点执行单元负责加减等简单的处理，而PORT 2的FPEU-2浮点执行单元则负责乘除等运算，这样在Core中就把FADD/VFADD和FMUL/VFMUL划分为两组，使其具备了在一周期中完成两条浮点指令的能力。

智能功率能力

英特尔智能功率能力（Intel Intelligent Power Capability）

英特尔智能功率能力，可以进一步降低功耗，优化电源使用，从而为服务器、台式机和笔记本电脑提供个更高的每瓦特性能。新一代处理器在制程技术方面做出优化，采用了先进的65nm应变硅技术、加入低K栅介质及增加金属层，相比上代90nm制程减少漏电达1000倍。值得注意的是，英特尔加入了超精细的逻辑控制机能独立开关各运算单元，具体来讲，酷睿微体系结构采用先进的功率门控技术。以往功率门控技术实现起来十分困难，因为元件开关过程需要消耗一定的能源，而且由休眠到恢复工作也会出现延迟，但英特尔酷睿微体系结构已经解决这些问题。通过该特性，可以智能地打开当前需要运行的子系统，而其他部分则处于休眠状态，这样可能大幅降低处理器的功耗及发热。

除了在占用更少ROB和RS的情况下，宏指令融合（Macro-Fusion）还节约了内核前端的带宽，Core的解码单元能比过去快的多得清空IQ指令列队（Instruction Queue），而内核执行带宽也同样宽阔了很多，因为单个的ALU能同时执行2个X86指令，这些综合性能的提高使Core的实际处理效率比P6构架要提高多倍，远高于其可见的硬件单元增加幅度。

高级智能高速缓存

英特尔智能高速缓存技术（Intel Advanced Smart Cache）

以往的多核心处理器，其每个核心的二级缓存是各自独立的，这就造成了二级缓存不能够被充分利用，并且两个核心之间的数据交换路线也更为冗长，必须要通过共享的前端串行总线和北桥来进行数据交换，影响了处理器工作效率。英特尔酷睿微结构体系结构采用了共享二级缓存的做法，有效加强了多核心架构的效率。这样的好处是，两个核心可以共享二级缓存，大幅提高了二级高速缓存的命中率，从而可以较少通过前端串行总线和北桥进行外围交换。

英特尔高级智能高速缓存还有其他方面的优势，每个核心都可以动态支配全部二级高速缓存。当某一个内核当前对缓存的利用较低时，另一个内核就可以动态增加占用二级缓存的比例。甚至当其中的一个内核关闭时，仍可以保持全部缓存在工作状态，另外也可以根据需求关闭部分缓存来降低功耗。这样可以降低二级缓存的命中失误，减少数据延迟，改进处理器效率，增加绝对性能和每瓦特性能。

Core的向量执行单元：当INTEL最初兼容128-bit向量执行时，情况可能和编程人员及用户所预想不太一样，采用在P6和Banias构架上的SSE、SSE2和SSE3有2个重大的弱点，在ISA指令集架构方面，SSE最主要的缺点就是不支持3指令运算（Three-Operand），而支持Three-Operand的AltiVec则成为了当时更好的ISA。这样折衷的处理方案使P6构架在处理128-bit数据时增加了一倍以上的延迟，而当时PowerPC G4的AltiVec只需要1个周期就能完成。同样不幸的是，Netburst的Pentium 4和Pentium M构架也都有这个弱点。

全新的Core终于拥有了一个周期完成128-bit向量运算的能力，INTEL终于把浮点和整数运算的内部带宽扩大到了128-bit，这不仅改进了延迟一周期的缺点，只有过去半数的微指令处理量也同样提高了解码、派址和带宽利用等多方面的速度。这样全新构架的CPU会可以把128-bit的大量multiply/add/load/store/compare/jump等6套指令集成在一个周期中全部完成，其运用性能的飞跃幅度可想而知。

P6构架的内部浮点处理和MMX都只有64-bit的带宽，所以进入SSE执行核心的只能是64-bit数据。为了让64-bit的SSE来处理128-bit指令，P6构架必须把128-bit的数据切割为2个64-bit的连续部分来处理。INTEL还不能透露Core具体的流水线详情，不过，Core采用14条流水线-这和 PowerPC 970是一样的，而之前的Pentium 4 Prescott拥有30条，P6构架为12条。短的流水线意味着Core在频率上的提升只能是缓慢的，而不能够像Pentium 4那样急速上升。也可以这样猜想，其实Core的流水线设计和P6构架中的流水线是一模一样的，额外多出来的2条流水线完全是为了预留下CPU频率提升的空间而已。2条新的流水线各自成为Core流水线的入口和出口，成为了宏指令融合（Macro-Fusion）、微指令融合（Micro-Ops Fusion）等整合技术的输送站。Core的ROB重排序缓冲区（Reorder Buffer）和RS预留缓存（Reservation Station）要比过去的Pentium M大了接近一倍，而事实上还必须考虑到新的宏指令融合（Macro-Fusion）、微指令融合（Micro-ops Fusion）等高效率的融合技术，这样以来，Core的内部转接速度至少要比Pentium M提高了3倍以上。它内置2组SD简单编译器（Simple/fast Decoders）和1组CD复杂编译器（Complex/slow Decoder），2组SD简单编译器负责将简单X86指令转换至Uops微指令（Micro-ops）然后传送到MB微指令缓冲区（Micro-op Buffer）。复杂编译器可以编译4个Uops微指令，而一些类似字符串处理的旧式复杂任务还要通过专门的ME微码引擎（Microcode Engine）来转换为更加复杂的微指令，这些微指令再同时输入到MB微指令缓冲区等待下一步重排序。

智能内存访问

英特尔智能内存访问（Intel Smart Memory Access）

英特尔智能内存访问是另一个能够提高系统性能的特性，通过缩短内存延迟来优化内存数据访问。英特尔智能内存访问能够预测系统的需要，从而提前载入或预取数据，反映到用户的直接使用体验上，就是大幅提高了执行程序的效率。

以前要从内存中读取数据，就需要等待处理器完成前面的所以指令后才可以进行，这样的效率显然是低下的。而英特尔酷睿微体系结构中加入一项名为内存消歧的能力，它可以对内存读取顺序做出分析，智能地预测和装载下一条指令所需要的数据，这样能够减少处理器的等待时间，减少闲置，同时降低内存读取的延迟，而且它可以侦测出冲突并重新读取正确的资料及重新执行指令，保证运算结果不会出错误，大大提高了执行效率。

MIF微指令融合早先在Pentium M构架上就已经采用过，它和MF宏指令融合有着相似的功效，但是原理完全不一样。SD简单编译器（Simple/fast Decoder）把接收的单条X86指令转译为两条微指令，连接的两条微指令通过ROB发送到RS后，RS把两条微指令分开来传输到不同的PORT中，平行的双通道同时传输，也可以是单通道的连续传输，这则取决于具体的处理情况。相对旧的MIF微指令融合技术，新的MIF支持了PORT的连续传输。Core的三重分支预测单元实际上与Pentium M的预测单元是一样的，在Core的分支预测核心中存在一个双模态预测器和一个球型预测器，这些预测器记录下过去的执行历史并随时通知内核前端的ROB和RS，ROB和RS从BTB分支目标缓冲器（Branch Target Buffer）中快速取回所需要的数据地址，常规预测如通知一个分支在循环中仅在奇次迭代发生, 而不在偶次迭代中发生等，这些在动态执行(P6系列)处理器上的静态预测技术还有有着长远的发展空间。分支历史表（Branch History Tables）不能够记录下足够详细的循环回路历史来准确预测下次的运算，所以每次循环回路的运行都浪费了大量的亢余时间。循环回路预测（Loop Detector）则可以记录下每个循环回路结束前的所有的详细分支地址，当下一次同样的循环回路程序需要运算时，内核前端的ROB和RS就可以以100%的准确度来快速完成任务，Core构架拥有一个专门的运算法则来进行这种循环回路预测。

Core前端处理环节新的突出能力是宏指令融合（Macro-Fusion），可以把多个X86指令融合在一起发送到到一个编译器转换为一个Uops微指令。多种指令可以被融合，其中特别将compare和test指令融合到了分支指令（Branch Instructions）中。4个编译器都具有融合能力，但整个单元每周期只能完成一次宏指令融合。间接分支预测（Indirect Branch Predictor）在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。在ROB和RS需要间接分支的时候它就可以提供帮助，ROB和RS就可以快速提取到适用的结果，这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。

高级数字媒体增强

英特尔高级数字媒体增强（Intel Advanced Digital Media Boost）（英特尔清晰视频技术）

上面提到了“性能=频率×每个时钟周期的指令数”这个新概念，而英特尔高级数字媒体增强也同样是为了提高每个时钟周期的指令数而诞生，它可以提高SIMD流指令扩展指令（SSE/SSE2/SSE3）的执行效率。之前的处理器需要两个时钟周期来处理一条完整指令，而Intel酷睿微体系结构则拥有128位的SIMD执行能力，一个时钟周期就可以完成一条指令，效率提升明显。

SSE指令集已经十分普遍地用于主流的软件中，包括绘图、影像、音频、加密、数学运算等用途，单周期128位SIMD处理器能力令处理器拥有高能效表现。

基于以上这些先进的创新特性，英特尔酷睿微体系结构提供了比前代架构更卓越的性能和更高的能效，为服务器、台式机和移动平台带来了振奋人心的全新高能效表现。

产品介绍

英特尔酷睿2双核处理器家族包括五款专门针对企业、家庭和高端个人用户定制的台式机处理器，以及五款专门为满足移动生活需要而定制的移动处理器。基于英特尔酷睿2双核处理器的工作站还可为设计、数字内容创建以及技术计算等提供业界领先的性能。

英特尔体系CPU系列产品：

Pentium Extreme系列

可能有人会认为这是奔腾系列产品

但是它跟奔腾有本质区别不是沿用NETBURST架构而采用的是CONROE新架构

PE 2140 1.6Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W实际功耗

PE 2160 1.8Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W实际功耗

PE 2180 2.0Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W实际功耗

PE 2200 2.2Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W实际功耗

Core 2 Duo Extreme系列

E4300 E4400 E4500 22W实际功耗 65nm

E6300 E6400 E6500 E6600 E6700 E6800 1033-1600FSB 最大6MB CACHE 65nm 22-65W实际功耗

E8XXX系列，45纳米更低功耗，更高主频

笔记本CORE T系列

T2XXX（65nm）（其中T2370、T2330、T2310、T2130、T2080、T2060、T2410、T2390是移动版的奔腾双核）

T5XXX（65nm）

T7XXX（65nm）

T8XXX（45nm）T9XXX(45nm)

笔记本酷睿2双核 P系列

P7500（MacbookAir）

P8XXX

笔记本酷睿双核 U系列

U2XXX

U7XXX

笔记本酷睿双核L系列

L2XXX

L7XXX

酷睿2双核中，CPU类型还分E系，Q系，T系，X系，P系，L系，U系，S系

E系就是普通的台机的双核CPU，功率65W左右

Q系就是四核CPU，功率会在100W-150W

T系是普通的笔记本CPU，功率在35W或者31W

X系是酷睿2双核至尊版，笔记本的X系CPU的功率是45W，台机的X系的CPU功率是100W左右

P系是迅驰5的低电压CPU，功率25W

L系是迅驰4的低电压CPU，功率17W

U系是迅驰4的超低电压CPU，功率5.5W

S系是小封装系列，SL的功率是12W，SP的笔记本还没有上市，功率未知

有些CPU的前面是QX的，有的QX系列CPU全部都是台式机的，功率在125W左右，预计会有一款QX9300的笔记本CPU，功率是45W