海量运维、运营规划之道(全彩)

更多详情


内容简介: 《海量运维、运营规划之道》作者具有腾讯、百度等中国一线互联网公司多年从业经历,书中依托工作实践,以互联网海量产品质量、效率、成本为核心,从规划、速度、监控、告警、安全、管理、流程、预案、考核、设备、带宽等方面,结合大量案例与读者分享了作者对互联网海量运维、运营规划的体会。
《海量运维、运营规划之道》全面介绍大型互联网公司运维工作所涉及的各个方面,是每个互联网运维工程师、架构师、管理人员不可或缺的宝贵参考书。

目录: 《海量运维、运营规划之道》
第1部分 质量
第1章 规划 /2
1.1 架构规划 /2
1.1.1 新趋势、新机遇、新挑战 /2
1.1.2 产品、架构、成本的生命周期 /3
1.1.3 质量、速度、成本 /5
1.1.4 专业化、平台化、持续化 /7
1.1.5 可伸缩、可调度、可扩展 /8
1.1.6 Set模型,集装箱改变世界 /10
1.1.7 全网调度,速度与容灾并进 /12
1.1.8 海量导致架构取向,适用是王道 /15
1.1.9 大系统简单做、小做 /17
1.2 IDC规划 /19
1.2.1 全球最复杂的基础网络 /19
1.2.2 IDC属性、瓶颈分析及建议 /21
1.2.3 IDC策略,分布制胜、速度第一 /24
1.3 CDN规划 /27
1.3.1 CDN发展现状与趋势分析 /27
1.3.2 CDN厂商分析及外包细节 /28
1.3.3 CDN节点分布及解析策略 /32
1.3.4 CDN外包质量和风险控制 /34
1.4 预算规划 /37
1.4.1 预算的作用及预算推导 /37
1.4.2 服务器定制,切合应用与性价比 /39
1.4.3 服务器需求,用数据说话 /42
第2章 速度 /45
2.1 网站速度优化介绍 /45
2.1.1 什么是网站速度优化 /45
2.1.2 网站速度优化的价值 /46
2.1.3 网站速度关键指标 /47
2.1.4 影响网站速度的因素 /50
2.2 网站速度监测实践 /51
2.2.1 网站速度监测概述 /51
2.2.2 网站速度主动监测 /53
2.2.3 网站速度被动监测 /54
2.3 网站速度分析实践 /57
2.3.1 网站速度分析概述 /57
2.3.2 网站速度分析工具 /62
2.3.3 网站速度分析案例 /67
2.4 网站速度优化实践 /72
2.4.1 网站速度优化概述 /72
2.4.2 网络速度优化及案例 /73
2.4.3 系统速度优化及案例 /80
2.4.4 前端速度优化及案例 /83
2.5 防止网站速度退化 /88
2.5.1 通过规范防止速度退化 /88
2.5.2 通过工具防止速度退化 /90
第3章 监控 /94
3.1 监控概述 /94
3.1.1 监控定义和价值 /94
3.1.2 监控体系和实现途径 /95
3.2 用户监控实践 /97
3.2.1 访问监控,获取用户访问速度 /97
3.2.2 URL监控,服务实时访问状态 /103
3.2.3 劫持监控,了解全国劫持状态 /105
3.2.4 内容监控,掌握网页元素变化 /108
3.3 机器监控实践 /109
3.4 网络监控实践 /113
3.4.1 网络监控,时刻掌控广域网变化 /113
3.4.2 响应监控,IDC内服务响应监控 /118
3.4.3 域名监控,做精准的DNS解析 /119
3.5 应用监控实践 /124
3.5.1 模块监控,动态应用模块监控 /124
3.5.2 数据库监控,数据库运行可视化 /126
第4章 告警 /129
4.1 告警概述 /129
4.1.1 告警定义和途径 /129
4.1.2 告警问题和规避方法 /130
4.2 告警模型 /131
4.2.1 告警分类,将告警分类区分对待 /131
4.2.2 告警模型,如何建立告警模型 /133
4.3 告警优化 /134
4.3.1 告警收敛,规避被告警淹没 /134
4.3.2 告警关联,让告警更具价值 /135
4.3.3 告警分析,用数据说话 /135
第5章 安全 /138
5.1 Web漏洞扫描 /138
5.2 域名劫持扫描 /140
5.3 DDoS攻击扫描 /142
5.4 敏感信息扫描 /144
5.5 网页篡改扫描 /146
第2部分 效率
第6章 管理 /150
6.1 配置管理,标识所有的资源并记录在册 /150
6.2 事件管理,记录、分类、诊断、解决问题 /152
6.3 问题管理,消除引起问题的根本原因 /154
6.4 变更管理,串联变更原因、过程、结果 /157
6.5 容量管理,对运营指标未来的量化、预测 /159
第7章 流程 /163
7.1 业务运维管理规范 /163
7.2 系统用户管理规范 /165
7.3 设备使用管理规范 /168
7.4 应用安全管理规范 /169
7.5 开发与编译环境安全规范 /171
7.6 故障分级和处罚规范 /172
第8章 预案 /175
8.1 预案,从容有序应对危机 /175
8.2 预演,提高故障执行力 /177
第9章 考核 /179
9.1 运维能力考核 /179
9.2 架构能力考核 /180
9.3 运营预算考核 /182
第3部分 成本
第10章 基础 /184
10.1 规模化导致运营成本凸显 /184
10.2 运营成本优化方向和策略 /185
10.3 工具协助成本可持续优化 /187
第11章 设备 /190
11.1 服务器分类、分级、分层定制 /190
11.2 业务分类平台化减少运营成本 /192
11.3 混布最大限度提高资源利用率 /192
第12章 带宽 /194
12.1 通过改变产品形态减少数百万成本 /194
12.2 通过降低带宽单价减少成本 /197
12.3 通过自动优化减少带宽成本 /199

前言: 为什么要写这本书
我在腾讯、百度工作多年,参与过多个海量产品的研发和维护,也见证这些产品从无到有,从小到大,并且历经数年持续迭代和稳定运行的整个生命周期。在整个生命周期中都离不开产品、研发、测试、运维等角色的全程参与和配合。而运维在上线前架构、系统、网络、硬件资源规划及上线后质量、效率、成本管理方面都发挥了不可替代的作用。优秀的架构师、团队管理者、研发工程师、测试工程师等角色都需要了解这些才能进一步做好互联网产品,本书的初衷是把运维这个角色的价值和作用介绍给所有互联网从业人员,特别是入行不久的运维朋友。
书中的内容是从2010年4月陆续记录在个人blog(http://itkoala.com)上的,根据Google Analytics统计,至今浏览量有14万,访问次数为4.9万次,唯一身份访问者有2.4万人,很多热心的朋友单独联系我,给我很多支持和鼓励,这些也是我决定写这本书的动力。近3年整理的内容将作为第一版先行出版,第二版已经在梳理,时机成熟会再次出版。
本书的名字叫《海量运维、运营规划之道》,海量运维是指支撑大规模产品的架构、网络、系统、应用的维护,运营规划是指产品运行的质量、效率、成本的管理,道在这里的意思是方向、方法,所以本书是表达如何做好大规模互联网产品维护管理的方法论。关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那么运维、运营更多的是在关注互联网服务的稳定、质量、效率、成本、故障、瓶颈及用户的忍耐、抱怨等问题。在本书中,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台、监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下。
痛并快乐着!
从未有过这样的充实,没有停留,离开深圳,来到上海,跟之前一样的感觉,长沙-北京,北京-深圳,深圳-上海,9年工作生涯,随风飘过。
可能,人生,在经历着无数的痛苦和快乐后,慢慢的老去,有希望达成的,也有变梦想的,结局都归属黄土。正因如此,决定留下些什么,于是有了itkoala.com这个站点,希望在这里回忆过去,在这里记录和分享自己的所感、所悟。
关于互联网运维、运营
关于互联网运维、运营,相信大家对运维比较熟悉,但对于运营,可能会有歧义。运维、运营这两个名词在腾讯会特别被强调和区分。说说我对这个岗位的理解,首先看看腾讯(百度类似)有哪些岗位及分类。
综上所述,这里对运维、运营的理解又综合、抽象了技术支持类工程师的属性,比如应用运维、运营服务管理、系统管理等,甚至是研发工程师,可以理解为一种综合素养和协调能力。具体的工作大致如下:
读者对象
本书适合以下读者阅读:
.互联网行业运维工程师、测试工程师、前端研发工程师、后端研发工程师
.互联网行业技术经理、项目经理、产品经理、CTO
.致力于从全局把握运维和优化网站及互联网产品的所有互联网从业人员
勘误和支持
由于编写的时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正,书中的内容会不断更新在我的blog上,也欢迎您将错误和建议发送邮件至我的邮箱11599096@qq.com,期待能够听到读者的真挚反馈。
致谢
感谢原腾讯同事王辉和电子工业出版社张月萍老师花费大量的时间、精力来阅读我的书稿,指出许多文字和格式上的错误。感谢原腾讯同事丁吉亮、熊卫协助校稿和提供素材。

媒体评论: 云计算、大数据和移动互联,正在驱动着我们的生活产生巨大改变,这改变背后的核心动力之一,是一套规模化、安全、稳定、高效的运维体系和具备驾驭能力的运维人员。一名出色的运维人员,是学习型,复合型和实用型人才。越来越多的朋友有志或已经成为运维大家庭一员,而市面上,帮助大家系统的学习和分享大型网站运维的书籍少之又少,是个有待挖掘的领域。唐文有多年大型网站运维实战经验,其汇聚多年积累撰写的《海量运维、运营规划之道》正是一个可贵的尝试和思考,给广大运维从业人员提供了一个途径:既从真实场景出发,解决实际运维问题;又能提炼归纳,成为构建大型网站的指引方法。相信大家结合本书内容和自己面对的应用场景,学以致用,举一反三,能够受益良多。
——阿里技术保障总监 张颖杰
当我看到本书的初稿时,顿时有一种相见恨晚的感觉。自己从事运维管理、运营系统建设工作已经7年,期间阅读过不少好文,自己也写过一些对局部领域的总结文字,但是如此全方位、多角度、具备实战价值的“运维宝典”,还是第一次遇见,实在是爱不释手。衷心希望kevin兄弟的大作,能为战斗在运维岗位上的小伙伴们理清工作思路,找准发展方向,登上新的台阶。
—— 腾讯技术工程事业群 运维总监 肖志立
在百度, RD,OP&QA经常挂在嘴上的一句话就是“永远要对线上保持敬畏之心”, 在大数据时代, critical infrastructure的体量都在十几和几十万服务器的级别,互联网上突发流量场景(如双11)也不断出现,这些都对线上集群的运维提出了很多新的挑战,这本书能为你找到很多的答案。
——百度测试部 总监 高亮
喜欢读唐文的书,因为他的文章能够给互联网从业者以真正的启发、指导和引领。启发如何从运营角度构建互联网架构,指导如何解决大数据时代海量数据运营问题,引领如何成为架构师和COO。文如其人,简单而厚重。
——百度运维部 技术经理 沈慧勇
这是我看过的最实用的海量服务ITIL平台建设工具,没有之一!对于快速发展的中大型互联网公司,关注系统的效率、服务质量以及投入成本是永恒的话题。这本书用非常实战的案例、大量的统计数据和体系化的实施方案告诉读者如何解决公司最关注的问题。
—— 1号店IT部 资深总监 胡茂华
这本书绝对让我及其他读者受益。我想区别于其他此类书籍的是此书中素材是唐文过去近十年实际工作经验精华的总结,而他的经历与中国互联网飞速发展正好同步,海量运维的发展他一直置身其中。所以此书对合适读者借鉴意义就更有现实意义,相信读了此书的朋友一定会有我同样的感受。
——携程旅行网高级总监 酒店事业部产品技术负责人 蔡新发
.互联网运维是一个涉及知识面比较广的工作岗位,所有的工作也是围绕着服务质量、速度和成本进行展开 ,同时还需要考虑服务的可运维性(可扩展、可监控、可容灾、可调度等)和安全性。本书全面的介绍了大型互联网公司运维工作所涉及的各个方面,你甚至可以从中了解到运维流程、服务考核、标准相关的内容。10年与唐文结识,他在CDN和访问质量方面有非常丰富的经验,在百度负责用户访问质量topic,本书自然也在访问质量监测、优化方面有较详细的描述。
—— 小米 运维总监 井源
当我翻看本书的时候,一种久违的温馨和激动油然而生,他正是以切身的经历阐述了运维的方向,我有着深切的共鸣,端琢之下,书中还不乏真实的案例乃至数据,这些资料在圈内都是极为珍贵的,这也是本书的一大特色。据上,我诚挚地推荐:本书既适合业界人士的科普,也适合对运维有一定经验后系统的整理思路,尤其对提升网站的用户访问速度的有指导作用。相信:它和他一定能帮助大家规避弯路,直踏康庄大道。
——宜搜科技 研发总监 刘捷
如今的互联网运维,运营,规划及优化愈发依赖用户体验量化和客观业务发展,因此与时俱进的运维思想及规划理论非常重要。《海量运维、运营规划之道》将复杂的思想和理论深入浅出,配合真实的案例更具说服力。作为一线的互联网用户体验管理体系的推广者,我极力推荐业内同事阅读此书!
——基调网络 技术支持副总裁 褚冬毅
每一位运维人内心对运维都有自己独特的理解。笔者从自己多年经验出发,为读者展现一个运维的高层视图。给这个容易被误解的行业一个整体的介绍。新手可以获得整体知识脉络,老手亦可充实自己的知识库。尤其是成本和速度优化部分浓缩笔者多年一线经验,值得一读。
——百度运维部 架构师 刘卓