浮点计算机
CPU内部添加的“浮点运算功能”的超强计算机
浮点计算机是指CPU内部添加的“浮点运算功能”的超强计算机。
名词简介
浮点计算机,简单来说,就是指CPU内部添加的“浮点运算功能”的超强计算机。
当我们用不同的电脑计算圆周率时,会发现一台电脑的计算较另一台来讲结果更加精确。或者我们在进行枪战游戏的时候,当一粒子弹击中墙壁时,墙上剥落下一块墙皮,同样的场面在一台电脑上的表现可能会非常的呆板、做作;而在另外一台电脑上就会非常生动形象,甚至与我们在现实中看到的所差无几。
以上我们看到的一切,都源于CPU内部添加的“浮点运算功能”。浮点运算能力是关系到CPU的多媒体,3D图形处理的一个重要指标。P4中只有2个浮点执行单元,而其中一个单元要同时处理FADD FMUL MMX SSE 和SSE2,所以P4处理器的浮点单元设计应该是整个处理器设计中最薄弱的部分。AMD则为Athlon设计了3个并行的浮点、多媒体执行单元。其中一个是浮点的存储,一个是浮点加,一个是浮点乘,其中浮点加和浮点乘是分开的,所以Athlon中就有两个并行的浮点通道,三个执行单元,而且相互之间完全不受干扰,这是所谓的超标量的浮点结构,可以说Athlon的浮点运算无疑是目前最强的。
浮点运算
浮点运算简介
对于习惯于C的灵活多变的数据类型和方便的计算那些人而言,了解底层的浮点运算似乎没有什么意义,现在Visual盛行的时代还有多少人关心那些所谓的底层呢?
对了AfOs来说,浮点运算是编程中很重要的一部分,因为我们可能会面临一些稍微复杂的运算,如果你和我一样是Die-hard的asm拥护者,不想轻易用C来解决问题,你肯定能想像在asm下用整数运算求sin(2.3)的痛苦,实际上,微机早就为我们准备了解决之道:那就是浮点运算.但现在关于浮点运算的资料较少,相信很多人和我一样还不掌握这种强有力的技术,那好,我们一起来学习学习。
(一)浮点数
在这之前,先来看几个术语:
FPU->Floating Point Unit,浮点运算部件
BCD->Binary Coded Decimal 压缩的二十进制数,是用4个位来表示数字0~9,一个byte表示两个十进制数,比如01111001表示89
浮点运算使用三种不同的数据:
1)整数(Integer),又分为字,短整数(Short Integer)和长整数(Long Integer)
2)实数(Real)分单精度(Single Real)和双精度(Double Real)
3)压缩的二十进制数(BCD)
下面是其位数(bits)和能表示的大致范围和
Type Length Range
-----------------------------------------------
Word Integer 16 bit -32768 to 32768
Short Integer 32 bit -2.14e9 to 2.14e9
Long Integer 64 bit -9.22e18 to 9.22e18
Single Real 32 bit 1.18e-38 to 3.40e38
Double Real 64 bit 2.23e-308 to 1.79e308
extended Real 80 bit 3.37e-1932 to 1.18e4932
Packed BCD 80 bit -1e18 to 1e18
双精度数和扩展精度数表示范围对一般应用来说已经足够大了!
1)整数,以补码形式存储,正数的补码是其本身,负数补码是其绝对值的各位变反后加1,下面是实际存储的例子:
0024 var1 dw 24
FFFE var2 dw -2
000004D2 var3 dd 1234
FFFFFF85 var4 dd -123
0000000000002694var5 dq 9876
FFFFFFFFFFFFFEBFvar6 dq -321
2)BCD数
在FPU中用80位表示正好是浮点堆寄存器的宽度,在其格式如下存储:
Bit
79___72_71________________________________________0
符号 ---18个二十进制数--------
看下面的例子:
00000000000000012345 var1 dt 12345
80000000000000000100 var2 dt -100
3)浮点数,这个复杂点,有三种格式
单精度:_31_30________23_22___________0
符号 指数 有效数
双精度:_63_62__________52_51__________________0
符号 指数 有效数
扩展精度数:
_79_78____________64_63___________________0
符号 指数 有效数
例子:
C377999A var1 dd -247.6
40000000 var2 dd 2.0
486F4200 var3 real4 2.45e+5
4059100000000000 var4 dq 100.25
3F543BF727136A40 var5 real8 0.00123
C377999A var1 dd -247.6
40000000 var2 dd 2.0
486F4200 var3 real4 2.45e+5
4059100000000000 var4 dq 100.25
3F543BF727136A40 var5 real8 0.001235
400487F34D6A161E4F76 var6 real10 33.9876
DD和real4都可以在asm中来定义单精度浮点数,4 bytes
DQ和real8都可以在asm中来定义双精度浮点数,8 bytes
DT和real10都可以在asm中来定义扩展精度浮点数,10 bytes
(二)浮点部件
FPU从功能上分为两个部分:控制单元和运算单元,控制单元主要面向CPU,而算数单元负责具体算数运算.
FPU即浮点部件包括8个通用寄存器,5个错误指针寄存器和三个控制寄存器.
1)8个通用寄存器每个80 bit,形成一个寄存器堆栈,所有的计算结果都保存在寄存器堆栈中,其中数据全部是80位的扩展精度格式,即使是BCD,整数,单精度和双精度等在装入寄存器的时候都要被FPU自动转化为80位的扩展精度格式,注意栈顶通常表示为ST(0),然后是ST(1)...ST(i),ST(i)是相对于栈顶而言的.
和堆栈很相似,只不过宽度为80bit,映像如下:
_______________________
| ST(0) |
|_______________________|
| ST(1) |
|_______________________|
| ...... |
| ...... |
| ST(i) |
|_______________________|
2)控制寄存器,FPU有三个控制寄存器:状态寄存器,控制寄存器和标记寄存器
状态寄存器->SW
_M_____D________10___9____8___7_________5_________________________0__
| B | C3| TOP| C2 | C1 | C0 | ES | | PE | UE | OE | ZE | DE | IE |
|____|____|____|____|____|____|____|____|____|____|____|____|____|____|
B: 浮点部件正忙
C0-C3 指示浮点运算的结果,不同指令有不同含义
TOP 指示栈顶,通常是0
ES 以下任何位置位 (pe, ue, oe, ze, de, or ie) 则置位
PE 精度故障
UE 数字太小无法表示溢出
OE 现有精度无法表示,数字太大溢出
ZE 除0错
DE 指示至少有一个操作数未规格化
IE 无效错误,指示堆栈上溢或下溢,无效操作数等
控制寄存器:
_15____________10___9____8___7_________5______________________0__
| |IC | RC | PC | | PM | UM | OM | ZM | DM | IM |
|____|____|____|___|__|_|__|__|____|____|____|____|____|____|____|
IC 无穷大控制,对486,已经无效
RC 舍入控制
00 = 朝最接近或者偶数舍入
01 = 朝负无穷大方向舍入
10 = 朝正无穷大方向舍入
11 = 超0方向截断
PC 精度控制
00 = 单精度
01 = 保留
10 = 双精度
11 = 扩展精度
PM~IM 屏蔽状态寄存器低5位指示的错误.为1则屏蔽.
标记寄存器:
每2 bit表示一个对应堆栈寄存器的状态,具体含义如下:
15________________________________________3_____0
|Tag7 |...................................|tag1|
|_____|___________________________________|____|
含义:
00 = 有效
01 = 零
10 = 无效或无穷大
11 = 为空
(三)浮点指令系统及MASM下浮点程序设计
事实上最重要和比较难于找到资料在(一)和(二)部分中已经介绍,下面是为了完整性的考虑,如果你是第一次接触浮点指令,看看下面的摘要也无妨.另外本文未涉及到的一个方面是关于浮点处理异常的情况,因为涉及到保护模式和中断、任务切换以及SEH等较多内容,我相信介绍之后只会令人更加迷惑,况且我现在似乎也无法把这几个问题完全说清除,一般我们几乎不需要知道这些.让我们先来看主要内容.
关于浮点程序设计是一个大的话题,我只是提纲挈领地简述Masm32V7(/V6)中的设计方法,因为486以上的CPU内建了浮点部件所以可以在程序里直接使用浮点指令.下面是一个小例子:
__MASMSTD equ 1
.386p
.model flat, stdcall
option casemap :none ; case sensitive
;;--------------
.DATA
num1 dq 12345
num2 dq 98765
res dd 0
.DATA?
buf db 200 dup(?)
;;-----------------------------------------
.CODE
__Start:
finit ;初始化浮点部件
fild num1 ;装入num1
fild num2 ;装入num2
fmul ;执行乘法
fist res ;存储
invoke StdOut,addr buf ;显示,注意是控制台显示,编译用/SUBSYSTEM:CONSOLE
invoke StdIn,addr buf,20
invoke ExitProcess,0
END __Start
具体你要怎样运用指令,那就得看你自己所要进行的操作和要执行的算法了.注意在fpu内部寄存器总是以扩展精度数来表示数值的,因此进行整数运算最后要用fist来存储,这样才能得到正确的结果,这些转换是由fpu自动完成的.
浮点指令系统分为五类:数据传送类、算术运算类、超越函数类、比较类、环境及系统控制类.
我并不想列出所有函数的参数以及用法,因为这会是劳动力的浪费.我打字用拼音的!:D)具体参考资料见文章最后,别的我就帮不上你了.
1)数据传送类,主要包括
这类指令主要是从内存装入浮点寄存器堆数据,一般目的地址总是栈顶ST(0),用调试器你可以清除的看到这一点.注意带P结尾的操作,是在前面操作完成之后出栈,也就是原来ST(1)的内容现在成了ST(0)的内容,注意到这一点,你可以方便地设计出灵活多变的程序.
装入:
FLD Push real onto stack
FILD Convert two's complement integer to real and push
FBLD Convert BCD to real and push to stack
存储:
FST Store floating-point number from stack
FSTP Convert top of stack to integer
FIST
FISTP Convert top of stack to integer
FBSTP Store BCD to integer and pop stack
交换:
FXCH Exchange top two stack elements
常数装载:
FLD1 装入常数1.0
FLDZ 装入常数0.0
FLDPI 装入常数pi (=3.1415926....精度足够,放心使用)
FLDL2E 装入常数log(2)e
FLDL2T 装入常数log(2)10
FLDLG2 装入常数log(10)2
FLDLN2 装入常数Log(e)2
我逼并不想列出所有的浮点指令的详细格式,因为没有必要!很多资料都有这些指令格式的介绍,浮点指令均以F开头,LD表示Load,ILD表示整数的Load,BLD是二十进制数的Load,这样记起来就很容易了,很多指令功能都可以根据指令一眼看出来.
2)算术运算类
加法:
FADD/FADDP Add/add and pop
FIADD Integer add
减法:
FSUB/FSUBP Subtract/subtract and pop
FSUBR/FSUBRP Subtract/subtract and pop with reversed operands
FISUB Integer subtract
FISUBR Integer subtract/subtract with reversed operands
乘法:
FMUL/FMULP Multiply/multiply and pop
FIMUL Integer multiply
除法:
FDIV/FDIVP Divide/divide and pop
FIDIV Integer divide
FDIVR/FDIVRP Divide/divide and pop with reversed operands
FIDIVR integer divide with reversed operands
其他:
FABS Calculate absolute value
FCHS Change sign
FRNDINT Round to integer
FSQRT Calculate square root
FSCALE Scale top of stack by power of 2
FXTRACT Separate exponent and mantissa
FPREM Calculate partial remainder
FPREM1 Calculate partial remainder in IEEE format
如果指令后面未带操作数,其默认的操作数为ST(0)和ST(1),关于带R后缀的指令是正常操作数的顺序变反,比如fsub执行的是x-y,fsubr执行的就是y-x.
3)超越函数类
三角函数
FSIN Calculate sine
FCOS Calculate cosine
FSINCOS Calculate quick sine and cosine
FPTAN Calculate partial tangent
FPATAN Calculate partial arctangent
Log类
FYL2X Calculate y times log base 2 of x
FYL2XP1 Calculate y times log base 2 of (x+1)
F2XM1 Calculate (2^x)-1
4)比较类
FCOM Compare
FCOMP Compare and pop
FICOM Integer compare
FTST Integer compare and pop
FUCOM Unordered compare
FUCOMP Unordered compare and pop
FXAM Set condition code bits for value at top of stack
FSTSW Store status word
会根据结果设置,C0~C3,在上面并未就C0~C3进行具体介绍,C1是用来判断上溢或者下溢的,C0相当于EFLAGS里面的CF,作用也基本一致,C2相当于PF,C3相当于ZF,你可能会看到如下指令
FSTSW ax
SAHF
JZ label
为什么如此呢,因为用如上指令将状态字存入EFLAGS,C0正好置于CF位,C3正好置于ZF位.
5)环境及系统控制类
FLDCW Load control word
FSTCW Store control word
FSTSW Store status word
FLDENV Load environment block
FSTENV Store environment block
FSAVE Save coprocessor state
FRSTOR Restore coprocessor state
FINIT Initialize coprocessor
FCLEX Clear exception flags
FINCSTP Increment stack pointer
FDECSTP Decrement stack pointer
FFREE Mark element as free
FNOP No operation
FWAIT Wait until floating-point instruction complete
资讯链接
中国2010年实现petaflop浮点计算机
2008年9月,据一名中国的高级工程师所说,国内已经开始在龙芯(Godson)微处理器上逐步加大投资,并且希望使用该芯片在2010年建立自己的第一台千万亿次浮点级别超级计算机。
20年前,中国曾经决定不在微处理器方面进行投资。而仅仅在2001年,政府就改变了原来的观点并且在这一领域做出了艰苦的努力。随着而来的结果就是,中国的技术在世界领先的芯片制造商Intel、AMD以及IBM面前比较落后并苦苦追赶。
但是,中国目前已经开始针对龙芯做一个的长期的打算,并且自从2006年就开始逐步增加对龙芯的投入,中国科学院计算技术研究所的首席信息官许志伟谈到。
在加利福尼亚州Palo Alto召开的Hot Chips大会上,许工程师做了演讲并且称,中国目前仍然落后于国际上芯片方面的竞争对手,但是国内在做最大努力进行追赶。
中国目前已经生产了4代龙芯处理器,最新的就是Godson 2f。去年,国家已经和ST微处理器制造商达成协议,生产并销售该处理器芯片。而且,该芯片目前已经被40家公司所使用,主要放在机顶盒、笔记本以及其它产品上,许工程师谈到。芯片的商业名称叫做Loongson。
下个月,中国将完成新类型芯片的设计,也就是Godson 2g,它集成了更多功能在芯片上。明年,国内希望将图形功能集成到同一个硅芯片上,作为主处理器,就像当前AMD和Intel所做的那样。
同时,中国还在努力的制造Godson 3处理器芯片,它主要定位在服务器端,并且将是第一个使用多核设计的Godson芯片。该芯片的版本将在2009年发布,会拥有4个通用处理器核和4个专用处理器核,后者用于处理一些类似科学计算的工作。通用目的的处理器核将在1GHz的主频上运行,并且和Godson 2比较类似,许工程师谈到。
中国希望Godson 3可以让它在2010年创建国内的第一个高性能计算机,性能可以达到每秒千万亿次浮点运算,许工程师谈到。这样,它就会和IBM的基于Cell处理器的系统相匹配,后者是今年世界最快的超级计算机Top500中的第一位。
在被问及是否该目标现实的这一问题时,许工程师谈到:“这是可能的,但是,工作将非常艰苦。”除了开发该系统,中国还需要寻找市场来销售芯片,他表示。美国对于将中国制造业用于本国政府表示很冷淡,主要是考虑到安全方面的问题。
龙芯在PC级别的使用之所以受到了限制,主要是因为它是基于MIPS的核,和Intel以及AMD设计的x86架构完全不同。为了运行Windows,它必须使用转换软件来获得x86方面的兼容性,但是,龙芯就会丢失掉本身MIPS架构的一些方面的优势。
Godson 3增加了新的指令集,它使得x86到MIPS的转化效率提高了10倍,许工程师谈到。我们的最终目标就是接近80%的本身MIPS的性能,他谈到。“当前我们可以达到40%,因此,还有很长的路要走。”
In-Stat的高级分析师Tom Halfhill在谈到2010年千万亿次计算机的可能性时,表示认可。“为什么中国要设置一个他们认为不可能达到的目标呢?如果是那样的话,只会让他们到时候尴尬”,他谈到。
Halfhill还给出了两年前北京在龙芯处理器方面努力的一个概况。中国当时正在设计运行在龙芯PC上的应用软件,他谈到,包括基于OpenOffice的软件。
人口众多的中国在微处理器市场利于起着越来越重要的作用,即使它目前只是在国内销售芯片,他谈到。
“中国目前想做的就是使用它自己的技术,这样它的制造业就不用受制于其它国家的版权费用和其它费用的要求”,他谈到。
参考资料
最新修订时间:2022-07-21 21:58
目录
概述
名词简介
参考资料