图书介绍

计算机体系结构 量化研究方法 第5版【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

计算机体系结构 量化研究方法 第5版
  • (美)JohnL.HennessyDavidA.Patterson;贾洪峰译 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115297655
  • 出版时间:2013
  • 标注页数:596页
  • 文件大小:102MB
  • 文件页数:621页
  • 主题词:计算机体系结构

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

计算机体系结构 量化研究方法 第5版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 量化设计与分析基础1

1.1 引言2

1.2 计算机的分类4

1.2.1 个人移动设备5

1.2.2 桌面计算5

1.2.3 服务器6

1.2.4 集群/仓库级计算机6

1.2.5 嵌入式计算机7

1.2.6 并行度与并行体系结构的分类7

1.3 计算机体系结构的定义8

1.3.1 指令集体系结构:计算机体系结构的近距离审视9

1.3.2 真正的计算机体系结构:设计满足目标和功能需求的组成和硬件12

1.4 技术趋势13

1.4.1 性能趋势:带宽胜过延迟15

1.4.2 晶体管性能与连线的发展17

1.5 集成电路中的功率和能耗趋势17

1.5.1 功率和能耗:系统观点17

1.5.2 微处理器内部的能耗和功率18

1.6 成本趋势21

1.6.1 时间、产量和大众化的影响21

1.6.2 集成电路的成本22

1.6.3 成本与价格26

1.6.4 制造成本与运行成本26

1.7 可信任度26

1.8 性能的测量、报告和汇总28

1.8.1 基准测试29

1.8.2 报告性能测试结果32

1.8.3 性能结果汇总33

1.9 计算机设计的量化原理34

1.9.1 充分利用并行35

1.9.2 局域性原理35

1.9.3 重点关注常见情形35

1.9.4 Amdahl定律36

1.9.5 处理器性能公式38

1.10 融会贯通:性能、价格和功耗40

1.11 谬论与易犯错误42

1.12 结语46

1.13 历史回顾与参考文献47

第2章 存储器层次结构设计53

2.1 引言54

2.2 缓存性能的10种高级优化方法59

2.2.1 第一种优化:小而简单的第一级缓存,用以缩短命中时间、降低功率59

2.2.2 第二种优化:采用路预测以缩短命中时间61

2.2.3 第三种优化:实现缓存访问的流水化,以提高缓存带宽61

2.2.4 第四种优化:采用无阻塞缓存,以提高缓存带宽62

2.2.5 第五种优化:采用多种缓存以提高缓存带宽64

2.2.6 第六种优化:关键字优先和提前重启动以降低缺失代价64

2.2.7 第七种优化:合并写缓冲区以降低缺失代价65

2.2.8 第八种优化:采用编译器优化以降低缺失率66

2.2.9 第九种优化:对指令和数据进行硬件预取,以降低缺失代价或缺失率68

2.2.10 第十种优化:用编译器控制预取,以降低缺失代价或缺失率69

2.2.11 缓存优化小结72

2.3 存储器技术与优化72

2.3.1 SRAM技术73

2.3.2 DRAM技术73

2.3.3 提高DRAM芯片内部的存储器性能75

2.3.4 降低SDRAM中的功耗77

2.3.5 闪存77

2.3.6 提高存储器系统的可靠性78

2.4 保护:虚拟存储器和虚拟机79

2.4.1 通过虚拟存储器提供保护79

2.4.2 通过虚拟机提供保护81

2.4.3 对虚拟机监视器的要求82

2.4.4 虚拟机(缺少)的指令集体系结构支持82

2.4.5 虚拟机对虚拟存储器和I/O的影响83

2.4.6 VMM实例:Xen虚拟机84

2.5 交叉问题:存储器层次结构的设计84

2.5.1 保护和指令集体系结构84

2.5.2 缓存数据的一致性85

2.6 融会贯通:ARMCCortex-A8和Intel Core i7中的存储器层次结构85

2.6.1 ARM Cortex-A886

2.6.2 Intel Core i789

2.7 谬论与易犯错误95

2.8 结语:展望98

2.9 历史回顾与参考文献99

第3章 指令级并行及其开发109

3.1 指令级并行:概念与挑战110

3.1.1 什么是指令级并行111

3.1.2 数据相关与冒险111

3.1.3 控制相关114

3.2 揭示ILP的基本编译器技术116

3.2.1 基本流水线调度和循环展开116

3.2.2 循环展开与调度小结119

3.3 用高级分支预测降低分支成本120

3.3.1 竞赛预测器:局部预测器与全局预测器的自适应联合122

3.3.2 Intel Core i7分支预测器123

3.4 用动态调度克服数据冒险124

3.4.1 动态调度:思想124

3.4.2 使用Tomasulo算法进行动态调度126

3.5 动态调度:示例和算法130

3.5.1 Tomasulo算法:细节132

3.5.2 Tomasulo算法:基于循环的示例133

3.6 基于硬件的推测135

3.7 以多发射和静态调度来开发ILP143

3.8 以动态调度、多发射和推测来开发ILP146

3.9 用于指令传送和推测的高级技术150

3.9.1 提高指令提取带宽150

3.9.2 推测:实现问题与扩展155

3.10 ILP局限性的研究158

3.10.1 硬件模型158

3.10.2 可实现处理器上ILP的局限性160

3.10.3 超越本研究的局限163

3.11 交叉问题:ILP方法与存储器系统164

3.11.1 硬件推测与软件推测164

3.11.2 推测执行与存储器系统165

3.12 多线程:开发线程级并行提高单处理器吞吐量165

3.12.1 细粒度多线程在Sun T1上的效果168

3.12.2 同时多线程在超标量处理器上的效果170

3.13 融会贯通:Intel Core i7和ARM Cortex-A8173

3.13.1 ARM Cortex-A8173

3.13.2 Intel Core i7176

3.14 谬论与易犯错误179

3.15 结语:前路何方182

3.16 历史回顾与参考文献183

第4章 向量、SIMD和GPU体系结构中的数据级并行193

4.1 引言194

4.2 向量体系结构195

4.2.1 VMIPS196

4.2.2 向量处理器如何工作:一个示例198

4.2.3 向量执行时间199

4.2.4 多条车道:每个时钟周期超过一个元素201

4.2.5 向量长度寄存器:处理不等于64的循环203

4.2.6 向量遮罩寄存器:处理向量循环中的IF语句204

4.2.7 内存组:为向量载入/存储单元提供带宽205

4.2.8 步幅:处理向量体系结构中的多维数组206

4.2.9 集中一分散:在向量体系结构中处理稀疏矩阵207

4.2.10 向量体系结构编程208

4.3 SIMD指令集多媒体扩展209

4.3.1 多媒体SIMD体系结构编程212

4.3.2 Roofline可视性能模型212

4.4 图形处理器214

4.4.1 GPU编程214

4.4.2 NVIDIA GPU计算结构216

4.4.3 NVIDA GPU指令集体系结构222

4.4.4 GPU中的条件分支224

4.4.5 NVIDIA GPU存储器结构226

4.4.6 Fermi GPU体系结构中的创新228

4.4.7 向量体系结构与GPU的相似与不同230

4.4.8 多媒体SIMD计算机与GPU之间的相似与不同233

4.4.9 小结233

4.5 检测与增强循环强并行235

4.5.1 查找相关238

4.5.2 消除相关计算240

4.6 交叉问题240

4.6.1 能耗与DLP:慢而宽与快而窄240

4.6.2 分组存储器和图形存储器241

4.6.3 步幅访问和TLB缺失241

4.7 融会贯通:移动与服务器GPU、Tesla与Core i7241

4.8 谬论与易犯错误247

4.9 结语248

4.10 历史回顾与参考文献250

第5章 线程级并行256

5.1 引言257

5.1.1 多处理器体系结构:问题与方法258

5.1.2 并行处理的挑战260

5.2 集中式共享存储器体系结构262

5.2.1 什么是多处理器缓存一致性263

5.2.2 一致性的基本实现方案264

5.2.3 监听一致性协议265

5.2.4 基本实现技术265

5.2.5 示例协议267

5.2.6 基本一致性协议的扩展270

5.2.7 对称共享存储器多处理器与监听协议的局限性271

5.2.8 实施监听缓存一致性272

5.3 对称共享存储器多处理器的性能273

5.3.1 商业工作负载274

5.3.2 商业工作负载的性能测量275

5.3.3 多重编程和操作系统工作负载279

5.3.4 多重编程和操作系统工作负载的性能280

5.4 分布式共享存储器和目录式一致性282

5.4.1 目录式缓存一致性协议:基础知识283

5.4.2 目录式协议举例285

5.5 同步:基础知识288

5.5.1 基本硬件原语288

5.5.2 使用一致性实现锁289

5.6 存储器连贯性模型:简介291

5.6.1 程序员的观点292

5.6.2 宽松连贯性模型:基础知识293

5.6.3 关于连贯性模型的最后说明293

5.7 交叉问题294

5.7.1 编译器优化与连贯性模型294

5.7.2 利用推测来隐藏严格连贯性模型中的延迟294

5.7.3 包含性及其实现295

5.7.4 利用多重处理和多线程的性能增益295

5.8 融会贯通:多核处理器及其性能297

5.9 谬论与易犯错误301

5.10 结语304

5.11 历史回顾与参考文献306

第6章 以仓库级计算机开发请求级、数据级并行319

6.1 引言320

6.2 仓库级计算机的编程模型与工作负载323

6.3 仓库级计算机的计算机体系结构327

6.3.1 存储328

6.3.2 阵列交换机328

6.3.3 WSC存储器层次结构329

6.4 仓库级计算机的物理基础设施与成本331

6.4.1 测量WSC的效率334

6.4.2 WSC的成本335

6.5 云计算:公用计算的回报338

6.6 交叉问题342

6.6.1 成为瓶颈的WSC网络342

6.6.2 在服务器内部高效利用能量343

6.7 融会贯通:Google仓库级计算机344

6.7.1 集装箱344

6.7.2 Google WSC中的冷却与供电346

6.7.3 Google WSC中的服务器348

6.7.4 Google WSC中的联网348

6.7.5 Google WSC的监控与修复349

6.7.6 小结349

6.8 谬论与易犯错误350

6.9 结语353

6.10 历史回顾与参考文献354

附录A 指令集基本原理365

A.1 引言366

A.2 指令集体系结构的分类366

A.3 存储器寻址369

A.4 操作数的类型与大小374

A.5 指令集中的操作375

A.6 控制流指令376

A.7 指令集编码380

A.8 交叉问题:编译器的角色382

A.9 融会贯通:MIPS体系结构388

A.10 谬论和易犯错误396

A.11 结语399

A.12 历史回顾与参考文献400

附录B 存储器层次结构回顾405

B.1 引言406

B.2 缓存性能416

B.3 6种基本的缓存优化421

B.4 虚拟存储器435

B.5 虚拟存储器的保护与示例441

B.6 谬论与易犯错误447

B.7 结语448

B.8 历史回顾与参考文献449

附录C 流水线:基础与中级概念454

C.1 引言455

C.2 流水化的主要阻碍——流水线冒险461

C.3 如何实现流水化476

C.4 妨碍流水线实现的难题485

C.5 扩展MIPS流水线,以处理多周期操作490

C.6 融会贯通:MIPS R4000流水线498

C.7 交叉问题504

C.8 谬论与易犯错误511

C.9 结语512

C.10 历史回顾与参考文献512

参考文献518

索引543

热门推荐