内容简介 · · · · · ·
八年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
在纸本书的创作中,作者几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式——如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
本书第一版荣获国家图书馆第八届文津图书奖。第二版增加了针对大数据和机器学习的内容。第三版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。
数学之美(第三版)的创作者
· · · · · ·
-
吴军 作者
作者简介 · · · · · ·
吴军,学者,投资人,人工智能、语音识别和互联网搜索专家。毕业于清华大学和美国约翰·霍普金斯大学,现任丰元资本创始合伙人、上海交通大学客座教授、约翰·霍普金斯大学工学院董事等职。
吴军博士曾作为资深研究员和副总裁分别任职于Google公司和腾讯公司。在Google公司,他和同事一同开创了搜索反作弊研究领域,成立了中、日、韩文产品部门,设计了Google中、日、韩文搜索算法,领导了Google自然语言处理和自动问答等研究型项目,拥有近20项美国发明专利。在腾讯公司,他负责了搜索、搜索广告和街景地图等项目。作为风险投资人,他成功地投资了150家硅谷和中国的高科技企业。吴军博士对科技产业有深入的研究,是当今硅谷地区解读IT产业最权威的专家。
吴军博士著有《浪潮之巅》《数学之美》《大学之路》《文明之光》《智能时代》《见识》《态度》和《全球科技通史》等多部畅销书...
吴军,学者,投资人,人工智能、语音识别和互联网搜索专家。毕业于清华大学和美国约翰·霍普金斯大学,现任丰元资本创始合伙人、上海交通大学客座教授、约翰·霍普金斯大学工学院董事等职。
吴军博士曾作为资深研究员和副总裁分别任职于Google公司和腾讯公司。在Google公司,他和同事一同开创了搜索反作弊研究领域,成立了中、日、韩文产品部门,设计了Google中、日、韩文搜索算法,领导了Google自然语言处理和自动问答等研究型项目,拥有近20项美国发明专利。在腾讯公司,他负责了搜索、搜索广告和街景地图等项目。作为风险投资人,他成功地投资了150家硅谷和中国的高科技企业。吴军博士对科技产业有深入的研究,是当今硅谷地区解读IT产业最权威的专家。
吴军博士著有《浪潮之巅》《数学之美》《大学之路》《文明之光》《智能时代》《见识》《态度》和《全球科技通史》等多部畅销书,并多次获得包括文津奖、中国好书奖、中华优秀出版物在内的图书大奖。
目录 · · · · · ·
第一版序言
第三版前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
· · · · · · (更多)
第一版序言
第三版前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
第2章 自然语言处理——从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
第4章 谈谈分词
中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:如何衡量分词的结果
第5章 隐马尔可夫模型
隐马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐马尔可夫模型
3 延伸阅读:隐马尔可夫模型的训练
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 互信息
4 延伸阅读:相对熵
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。
1 早年生活
2 从水门事件到莫妮卡·莱温斯基
3 一位老人的奇迹
第8章 简单之美——布尔代数和搜索引擎
布尔代数虽然非常简单,却是计算机科学的基础,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。
1 布尔代数
2 索引
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将所有的网页下载到服务器上,这个程序称为网络爬虫,它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
第10章 PageRank——Google的民主表决式网页排名技术
网页排名技术PageRank是早期Google的杀手锏,它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。
1 PageRank算法的原理
2 延伸阅读:PageRank的计算方法
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
2 延伸阅读:TF-IDF的信息论依据
第12章 有限状态机和动态规划——地图与本地搜索的核心技术
地图与本地搜索中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具,它们的应用非常广泛,还包括语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 全球导航和动态规划
3 延伸阅读:有限状态传感器
第13章 Google AK-47的设计者——阿米特·辛格博士
在所有轻武器中最有名的是AK-47冲锋枪,因为它从不卡壳,不易损坏,可在任何环境下使用,可靠性好,杀伤力大并且操作简单。Google的产品就是按照上述原则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代数中矩阵的奇异值分解来进行。这样一来,自然语言处理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
第16章 信息指纹及其应用
世间万物都有一个唯一标识的特征,信息也是如此。每一条信息都有它特定的指纹,通过这个指纹可以区别不同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
密码学的根本是信息论和数学。没有信息论指导的密码是非常容易被破解的。只有在信息论被广泛应用于密码学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题
闪光的不一定是金子,搜索引擎中排名靠前的网页也未必是有用的网页。消除这些作弊网页的原理和通信中过滤噪声的原理相同。这说明信息处理和通信的很多原理是相通的。
1 搜索引擎的反作弊
2 搜索结果的权威性
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确模型的途径常常是曲折的。正确的模型在形式上通常是简单的。
第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型
最大熵模型是一个完美的数学模型。它可以将各种信息整合到一个统一的模型中,在信息处理和机器学习中有着广泛的应用。它在形式上非常简单、优美,而在实现时需要有精深的数学基础和高超的技巧。
1 最大熵原理和最大熵模型
2 延伸阅读:最大熵模型的训练
第21章 拼音输入法的数学原理
汉字的输入过程本身就是人和计算机之间的通信。好的输入法会自觉或不自觉地遵循通信的数学模型。当然要做出最有效的输入法,应当自觉使用信息论做指导。
1 输入法与编码
2 输入一个汉字需要敲多少个键——谈谈香农第一定理
3 拼音转汉字的算法
4 延伸阅读:个性化的语言模型
第22章 自然语言处理的教父马库斯和他的优秀弟子们
将自然语言处理从基于规则的研究方法转到基于统计的研究方法上,宾夕法尼亚大学的教授米奇·马库斯功不可没。他创立了今天在学术界广泛使用的LCD语料库,同时培养了一大批精英人物。
1 教父马库斯
2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。布隆过滤器是计算机工程中解决这个问题最好的数学工具。
1 布隆过滤器的原理
2 延伸阅读:布隆过滤器的误识别问题
第24章 马尔可夫链的扩展——贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。而从认识论的层面看:贝叶斯网络克服了马尔可夫链那种机械的线性约束,它可以把任何有关联的事件统一到它的框架下面。它在生物统计、图像处理、决策支持系统和博弈论中都有广泛的使用。
1 贝叶斯网络
2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练
第25章 条件随机场、文法分析及其他
条件随机场是计算联合概率分布的有效模型,而句子的文法分析似乎是英文课上英语老师教的东西,这两者有什么联系呢?
1 文法分析——计算机算法的演变
2 条件随机场
3 条件随机场在其他领域的应用
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用最频繁的算法,也是很多自然语言处理采用的解码算法。可以毫不夸张地
讲,维特比是对我们今天的生活影响力最大的科学家之一,因为基于CDMA的3G移动通信标准主要就是他和厄文·雅各布创办的高通公司制定的。
1 维特比算法
2 CDMA技术——3G移动通信的基础
第27章 上帝的算法——期望最大化算法
只要有一些训练数据,再定义一个最大化函数,采用EM算法,利用计算机经过若干次迭代,就可以得到所需要的模型。这实在是太美妙了,这也许是造物主刻意安排的,所以我把它称作上帝的算法。
1 文本的自收敛分类
2 延伸阅读:期望最大化和收敛的必然性
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,它不仅在搜索广告中起着重要的作用,而且被广泛应用于信息处理和生物统计中。
1 搜索广告的发展
2 逻辑回归模型
第29章 各个击破算法和Google云计算的基础
Google颇为神秘的云计算中最重要的MapReduce工具,其原理就是计算机算法中常用的“各个击破”算法,它的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。由此可见,在生活中大量用到的、真正有用的方法常常都是简单朴实的。
1 分治算法的原理
2 从分治算法到MapReduce
第30章 Google大脑和人工神经网络
Google大脑并不是一个什么都能思考的大脑,而是一个很能计算的人工神经网络。因此,与其说Google大脑很聪明,不如说它很能算。不过,换个角度来说,随着计算能力的不断提高,计算量大但简单的数学方法有时能够解决很复杂的问题。
1 人工神经网络
2 训练人工神经网络
3 人工神经网络与贝叶斯网络的关系
4 延伸阅读:Google大脑
第31章 区块链的数学基础——椭圆曲线加密原理
希尔伯特讲,“我们直到能够把一门自然科学的数学内核剥出并完全地揭示出来,才能够掌握它。”以比特币为代表的加密货币的基础是数学的算法,只有搞清楚加密货币的数学内核,我们才能了解它的本质。
1不对称、不透明之美
2椭圆曲线加密的原理
第32章 大数据的威力——谈谈数据的重要性
如果说在过去的40年里,主导全球IT产业发展的是摩尔定律,那么在今后的20年里,主导IT行业继续发展的动力则将来自于数据。
1 数据的重要性
2 数据的统计和信息技术
3 为什么需要大数据
第33章 随机性带来的好处——量子密钥分发的数学原理
人们总是喜欢确定性而不喜欢随机性。但是,从对确定性规律的把握上升到对随机性规律的把握,恰恰是近代数学进步的标志。量子通信就是建立在把握有关随机性规律的基础之上。
1用(激光)量子的偏振方向传递信息
2利用随机性保证信息安全
第34章 数学的极限——希尔伯特第十问题和机器智能的极限
世界上只有一小部分问题是数学问题,而数学问题中又只有极小的一部分问题有解。在这些问题中,今天已经找到相应算法的少之又少。因此,数学不是万能的,我们需要了解数学的边界在哪里。
1图灵划定计算机可计算问题的边界
2希尔伯特划定有解数学问题的边界
3延伸阅读:关于图灵机
附录计算复杂度
第三版后记
索引
· · · · · · (收起)
"数学之美(第三版)"试读 · · · · · ·
喜欢读"数学之美(第三版)"的人也喜欢的电子书 · · · · · ·
喜欢读"数学之美(第三版)"的人也喜欢 · · · · · ·
数学之美(第三版)的书评 · · · · · · ( 全部 338 条 )
论坛 · · · · · ·
请问各位朋友,这本书适合初中生读吗? | 来自, | 1 回应 | 2023-12-21 16:55:12 |
本书一些有趣小知识 | 来自阿奖你说呢 | 1 回应 | 2023-12-20 10:25:48 |
请问哪里能买到电子版? | 来自又要昵称好烦 | 1 回应 | 2022-08-18 20:07:36 |
这本书的其他版本 · · · · · · ( 全部3 )
-
人民邮电出版社 (2012)8.7分 14084人读过
-
人民邮电出版社 (2014)8.9分 4198人读过
以下书单推荐 · · · · · · ( 全部 )
- 评分可能虚高书籍(一) (无心恋战)
- 北京地铁书单 (向北向北)
- 评分9分以上的计算机图书 (子苓)
- 阶梯阅读书目第一期 (白宇极)
- IT人文 (人民邮电出版社)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
订阅关于数学之美(第三版)的评论:
feed: rss 2.0
3 有用 烏漆抹黑鴉 2021-04-18 18:14:15
对于文科生来说,还是有可读的部分的,关于大数据和关于数学家的故事让我印象深刻~
68 有用 丰盛大猫咪 2020-06-18 21:51:08
数学能力卡在四则运算的本人看到书中的数字、方程、曲线、公式、模型、推导已经瞬间人工智障,但叙述、讲解和逻辑的部分清晰、简洁、理智、淡定,和蔼可亲,不故弄玄虚也不多愁善感,是很好看的文字,我很喜欢看。认为吴军博士科普不够严谨的,大概不会想到他的科普读者里还有我这种数学白痴,严谨专业当然是必须的,遗憾的是,那些头头是道的专业知识对我一点意义也没有。
2 有用 远行的小孩 2021-01-09 15:00:22
2021_002_纸质:佩服吴军能够把多种算法用工程的实例和简化的语言描述出来,自己对于算法的理解还是停留在纸上,没有形成融汇贯通的水平,比如说EM算法,最大熵算法等等,还是要注重底层知识体系的构建和跨领域和跨工程的理解,多阅读源码,学会用自己的语言复述出来。
6 有用 臭宝镗研工业 2020-08-12 03:10:08
犹太人在抄《圣经》时会把每个希伯来字母对应一个数字,每行每列都对应一个数,这个数就是校验码。抄完后只要对比每个行列的校验码就可以快速定位抄错部分。 马尔科夫假设让计算机可以处理自然语言,每个词出现的概率只和前一个词有关,涨停之前的往往是股票,那么只要给计算机量足够大的机读文本(语料库),就可以知道一个特定词后面出现的某词概率。然后把一句话里所有词出现的概率相乘,就是这个句子出现的概率。然后把每个... 犹太人在抄《圣经》时会把每个希伯来字母对应一个数字,每行每列都对应一个数,这个数就是校验码。抄完后只要对比每个行列的校验码就可以快速定位抄错部分。 马尔科夫假设让计算机可以处理自然语言,每个词出现的概率只和前一个词有关,涨停之前的往往是股票,那么只要给计算机量足够大的机读文本(语料库),就可以知道一个特定词后面出现的某词概率。然后把一句话里所有词出现的概率相乘,就是这个句子出现的概率。然后把每个句子的概率进行对比,概率最大的句子就是正确的句子。这个过程就是逻辑优化。 余弦定理用三角形两个边的向量计算出两边的夹角。新闻学领域,建立一个5万单词的词库,算出每个单词的权重。然后向计算机输入分类新闻,这样每个新闻都有5万个向量,形成了每篇新闻的特征向量。对比向量夹角,就可以分类出各种新闻板块了。 (展开)
3 有用 星野 2020-11-26 22:20:04
确实像作者自己说的,能把深奥的科学问题浅显生动解释清楚,这本身就很厉害。可以作为数据科学和机器学习入门书。
0 有用 hitlike 2024-12-31 23:31:02 黑龙江
豁然开朗,打开狭域。
0 有用 血夜爱上猫 2024-12-23 16:43:27 北京
好怪,再看一眼
0 有用 Ryan 2024-12-13 13:41:27 浙江
并不深刻,有点失望。
0 有用 Michelin_KiKi 2024-12-12 14:06:41 广东
复杂问题简单化
0 有用 柠檬 2024-12-07 14:11:30 山东
“对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。”