<center>03-11 周一 单词提取步骤</center>
| 时间 | 版本 | 修改人 | 描述 |
| --------------------- | ---- | ------ | -------- |
| 2024年3月11日09:32:49 | V0.1 | 宋全恒 | 新建文档 |
| | | | |
| | | | |
# 简介
## 工作流
 积累是很重要的事情,楼主最近刚刚完成了一篇关于Large Language Models的综述,这个综述一共83页吧,读起来速度就不是很快,又没有什么高明的办法,就只能一点一点,逐行的去阅读,而且在阅读过程中,总是会有生词出现,为了快速记忆这些生词,楼主就去找了单词相关的应用,最终形成了如下的工作流:
- 在Zotero中阅读文献的时候,对生词进行着色,楼主选择了红色,短语选择的颜色为蓝色。
- 导出这些生成,然后转换成逐行的格式。
- 将生词导入到不背单词App,进行艾宾浩斯的记忆,专项提高。
## 依赖的软件
 在单词导出的过程中,主要是包含如下的软件:
1. Zotero,对生词进行标记
2. VS Code, 使用正则表达式对文本中生词进行处理
3. 不背单词,网页,因此只要有浏览器就可以。
4. 搜狗输入法,保存成短语,方便下次提取相关的正则表达式
# 操作步骤
## 拷贝Zotero中的单词
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312101230980.png>
 在我们阅读paper时,一般会选择一个文献管理工具来进行阅读,楼主推荐大家使用Zotero进行文献的阅读,这是因为它有许多的插件,非常好用。诸如翻译插件,着色,标签。好的工具能够提升阅读的效率,在整理时会有许多的助力。
 楼主在阅读论文的时候,因为最近才开始读,所以会有很多的生词,是将单个生词标记成红色的。
## 提取单词“pertinent”
 首先是根据单词的格式提取特征,其中具体的单词及含义的格式有如下几种:
```bash
“pertinent” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=RYLAIUFP)) pertinent
英 [ˈpɜːtɪnənt]
美 [ˈpɜːrt(ə)nənt]
adj. 切题的,相关的
“implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz]
美 [ˌɪmplɪˈkeɪʃ(ə)nz]
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)
```
 因此,我们首先将包含单词“pertinent”的行中,处理成仅仅包含单词内容。
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312101704170.png>
 在VS Code中点击Replace all即可将上述的单词替换成如下的形式:
```bash
pertinent
英 [ˈpɜːtɪnənt]
美 [ˈpɜːrt(ə)nənt]
adj. 切题的,相关的
implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz]
美 [ˌɪmplɪˈkeɪʃ(ə)nz]
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)
```
## 去除中文行
 在经过上述处理中,可以将单词提取成为单独的一行了,因此,接下来处理发音行和释义行。可以看到都有中文,因此将含有中文字符的行删除即可
```bash
propose
英 [prəˈpəʊz]
美 [prəˈpoʊz]
v. 提议,建议;提出(理论或解释);提名,推荐;计划,打算;求婚;(向立法机构或委员会)提交(动议);提议祝(酒)
[ 第三人称单数 proposes 现在分词 proposing 过去式 proposed 过去分词 proposed ]
proximity
英 [prɒkˈsɪməti]
美 [prɑːkˈsɪməti]
n. (时间、空间、关系的)靠近,亲近
```
本次提取的过程是将行内包含中文字符的行去除,比方说包括发音的英, 美以及中文注释
 使用替换功能,使用如下正则表达式匹配包含中文字符的行
```bash
.*[\u4E00-\u9FA5]+.*
```
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311093643362.png>
 可以看到,一共有1083行包含了中文,这些行是我们要删除的。
## 移除空行
 接下来将使用vscode将空行移除
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311094433544.png>
> 注:由于不背单词在解析的时候,逐行解析,所以有空行也是没有关系的。
```bash
\n\s*\n
```
 在去除了空行之后,就成了下面的样式了
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311094714836.png>
## 检查移除不是单词的内容
 经过处理后的内容,可能包含一些特殊情况,手动删除。
```bash
halving
['ha:viŋ]
amplify
susceptible
lossless
uneven
predominantly
mandates
n.
confines
intractable
```
 如上文出现的n.、['ha:viŋ] 手动移除即可。
## 将这些常用的正则匹配保存进入搜狗输入法
 记住,如果一个问题,你解决过一次,那很有可能,你还是会遇到同样的场景的。所以,将这些正则字符串保存起来,方便提取,是一个不错的方式。
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312102627926.png>
## 导入不背单词
 接下来就是导入浏览器,将单词导入到[不背单词](https://www.bbdc.cn/)。登录,然后自制词书,即可。
<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312103802833.png>
 不再赘述
# 总结
 最近自己也是疯狂的在积累单词,自己上周日刚看完了一本东野圭吾的白夜行,整理了[人物关系图]。在阅读paper的时候,就意识到了结构structure的重要性,所以笔者决定再次进行金字塔原理的阅读,而且我再阅读的时候,还能感受到当时我阅读Martin Fowler的《重构 改善既有代码的设计》所带给我的感动,我感觉这本书也是一个这样的书,书里面包含了深刻的洞见,等我看完再分享分享。
 最近晚上睡眠的时候,睡前也会头脑风暴一下学习的单词,希望能够积累更多的生词吧,然后能够多读一些paper,2024年。