<center>03-11 周一 单词提取步骤</center>

| 时间                  | 版本 | 修改人 | 描述     |

| --------------------- | ---- | ------ | -------- |

| 2024年3月11日09:32:49 | V0.1 | 宋全恒 | 新建文档 |

|                       |      |        |          |

|                       |      |        |          |

# 简介

## 工作流

&emsp;积累是很重要的事情,楼主最近刚刚完成了一篇关于Large Language Models的综述,这个综述一共83页吧,读起来速度就不是很快,又没有什么高明的办法,就只能一点一点,逐行的去阅读,而且在阅读过程中,总是会有生词出现,为了快速记忆这些生词,楼主就去找了单词相关的应用,最终形成了如下的工作流:

- 在Zotero中阅读文献的时候,对生词进行着色,楼主选择了红色,短语选择的颜色为蓝色。

- 导出这些生成,然后转换成逐行的格式。

- 将生词导入到不背单词App,进行艾宾浩斯的记忆,专项提高。

## 依赖的软件

&emsp;在单词导出的过程中,主要是包含如下的软件:

1. Zotero,对生词进行标记

2. VS Code, 使用正则表达式对文本中生词进行处理

3. 不背单词,网页,因此只要有浏览器就可以。

4. 搜狗输入法,保存成短语,方便下次提取相关的正则表达式

 

# 操作步骤

## 拷贝Zotero中的单词

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312101230980.png>

&emsp;在我们阅读paper时,一般会选择一个文献管理工具来进行阅读,楼主推荐大家使用Zotero进行文献的阅读,这是因为它有许多的插件,非常好用。诸如翻译插件,着色,标签。好的工具能够提升阅读的效率,在整理时会有许多的助力。

&emsp;楼主在阅读论文的时候,因为最近才开始读,所以会有很多的生词,是将单个生词标记成红色的。

## 提取单词“pertinent”

&emsp;首先是根据单词的格式提取特征,其中具体的单词及含义的格式有如下几种:

```bash

“pertinent” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=RYLAIUFP)) pertinent  

英 [ˈpɜːtɪnənt]  

美 [ˈpɜːrt(ə)nənt]  

adj. 切题的,相关的

“implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications  

英 [ˌɪmplɪˈkeɪʃ(ə)nz]  

美 [ˌɪmplɪˈkeɪʃ(ə)nz]  

n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

```

&emsp;因此,我们首先将包含单词“pertinent”的行中,处理成仅仅包含单词内容。

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312101704170.png>

&emsp;在VS Code中点击Replace all即可将上述的单词替换成如下的形式:

```bash

pertinent

英 [ˈpɜːtɪnənt]  

美 [ˈpɜːrt(ə)nənt]  

adj. 切题的,相关的

implications

英 [ˌɪmplɪˈkeɪʃ(ə)nz]  

美 [ˌɪmplɪˈkeɪʃ(ə)nz]  

n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

```

 

## 去除中文行

&emsp;在经过上述处理中,可以将单词提取成为单独的一行了,因此,接下来处理发音行和释义行。可以看到都有中文,因此将含有中文字符的行删除即可

```bash

propose

英 [prəˈpəʊz]  

美 [prəˈpoʊz]  

v. 提议,建议;提出(理论或解释);提名,推荐;计划,打算;求婚;(向立法机构或委员会)提交(动议);提议祝(酒)  

[ 第三人称单数 proposes 现在分词 proposing 过去式 proposed 过去分词 proposed ]

proximity

英 [prɒkˈsɪməti]  

美 [prɑːkˈsɪməti]  

n. (时间、空间、关系的)靠近,亲近

```

本次提取的过程是将行内包含中文字符的行去除,比方说包括发音的英, 美以及中文注释

&emsp;使用替换功能,使用如下正则表达式匹配包含中文字符的行

```bash

.*[\u4E00-\u9FA5]+.*

```

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311093643362.png>

&emsp;可以看到,一共有1083行包含了中文,这些行是我们要删除的。

## 移除空行

&emsp;接下来将使用vscode将空行移除

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311094433544.png>

> 注:由于不背单词在解析的时候,逐行解析,所以有空行也是没有关系的。

```bash

\n\s*\n

```

 

&emsp;在去除了空行之后,就成了下面的样式了

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240311094714836.png>

## 检查移除不是单词的内容

&emsp;经过处理后的内容,可能包含一些特殊情况,手动删除。

```bash
halving
['ha:viŋ]  
amplify
susceptible
lossless
uneven
predominantly
mandates
n.  
confines
intractable
```

&emsp;如上文出现的n.、['ha:viŋ]  手动移除即可。

## 将这些常用的正则匹配保存进入搜狗输入法

&emsp;记住,如果一个问题,你解决过一次,那很有可能,你还是会遇到同样的场景的。所以,将这些正则字符串保存起来,方便提取,是一个不错的方式。

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312102627926.png>

## 导入不背单词

&emsp;接下来就是导入浏览器,将单词导入到[不背单词](https://www.bbdc.cn/)。登录,然后自制词书,即可。

<img src=https://cdn.jsdelivr.net/gh/yanchenmochen/imgs/imgsimage-20240312103802833.png>

&emsp;不再赘述

# 总结

&emsp;最近自己也是疯狂的在积累单词,自己上周日刚看完了一本东野圭吾的白夜行,整理了[人物关系图]。在阅读paper的时候,就意识到了结构structure的重要性,所以笔者决定再次进行金字塔原理的阅读,而且我再阅读的时候,还能感受到当时我阅读Martin Fowler的《重构 改善既有代码的设计》所带给我的感动,我感觉这本书也是一个这样的书,书里面包含了深刻的洞见,等我看完再分享分享。

&emsp;最近晚上睡眠的时候,睡前也会头脑风暴一下学习的单词,希望能够积累更多的生词吧,然后能够多读一些paper,2024年。