GRE考试一直以对考生词汇量要求高著称。在网络上搜索“考GRE需要多大词汇量”,可以得到少则两三千、多则两三万的截然不同的回答。如果仔细观察这些说法可以发现,其中一万以上的答案几乎全都是来自于主观判断,缺少实际的证据或理由作为支持,让人不敢轻易相信。而两三千的答案虽多以实际数据为依据,但由于其在数据的获取和解读上存在诸多不合理之处,参考价值也有限。本文试图在克服目前已有说法的缺陷的基础上针对考GRE需要多大词汇量这一问题给出一个相对而言更为可信的答案。
词汇量的定义
在讨论GRE考试的词汇量要求之前,首先要明确词汇量的定义,因为在不同的定义下由同一段文本可以统计出迥然相异的词汇量[1]。由于英语中同一个单词存在诸多变形(inflections),如动词look的常见变形有looks、looked、looking,因此在统计词汇量时有必要明确这些变形是否应算作同一个词汇。本文中除非特别说明,否则统计词汇量时均只计算词目(lemma)的数量,同一词目的不同变形均算作同一个词汇。因此前面提到过的look、looks、looked、looking同时出现时只统计一次,而这也是目前最常用的统计词汇量的标准。此外,由于专有名词(如人名和地名)以及过于专业的学科专业名词一般而言也不会计入某个人的词汇量,因此对于这部分词汇本文在统计时也予以忽略。
需要注意的是,有些时候一个词目在添加了前缀或后缀之后也有可能变为新的词目。如interest、interesting、interested由于在意思上存在较大差别,因此构成了三个词目。粗略判断一个单词自身是否构成词目的一个简单方法为,如果该单词在英语字典中存在单独的词条则为词目,否则为其他词目的变形(inflection)。如在英语词典中可以找到interesting的词条,但无法找到looks的词条,因此前者构成词目,而后者仅为look的变形。
GRE考查的词汇总量
在明确了词汇量的定义之后便可以统计GRE考查的词汇总量。本文以目前网络上流通的诸多GRE考试真题为研究样本,样本共包含900余道填空题目,以及299篇阅读文章和相应的题目(其中93篇为逻辑单题)。
统计发现,样本中全部填空题目中出现的总词汇量为6546,全部阅读题目中出现的总词汇量为6281,阅读理解题目词汇量为5765,逻辑单题词汇量为2141,所有题目中出现的总词汇量为9208。
其他已有的以实际考题为依据统计出的GRE考试词汇量也与此大同小异。于是有人据此提出,考GRE实际需要的词汇量不到一万。而又由于上述词汇量中包含了相当一部分的大学英语四六级基础词汇,于是又有人通过简单地将GRE题目的总词汇减去大约6000的四六级词汇量,得出考GRE只需要在四六级词汇的基础上再掌握大约三千词汇量的结论。
但是这种说法忽略了一个严重的问题:由于上文所述的词汇量是基于以往的考试题目统计出来的,因此我们只能说这一万左右的词汇可以应付以往的GRE考题,但并不一定足以应付未来的考题。因为过往经验告诉我们,几乎每次GRE考试都会考查以往考试中没有出现过的新词。因此除非我们用作统计样本的题目数量足够多,多到其中涉及到的词汇可以覆盖到未来考试中所有有可能出现的词汇,否则应对未来GRE考试所需的词汇量应大于基于现有题目的统计结果。
GRE词汇的难度
上述计算GRE所需词汇量方法的另一个问题在于其在统计时没有考虑GRE词汇的难度。比如我们先来看下面这道GRE官网上的填空例题:
In parts of the Arctic,the land grades into the landfast ice so______that you can walk off the coast and not know you are over the hidden sea.
(A)permanently
(B)imperceptibly
(C)irregularly
(D)precariously
(E)relentlessly
(答案:B)
这道题目中出现的词汇量为29,那么请问如果只是为了做对这一道题的话,一个考生需要有多大词汇量?答案显然不会是29。因为这道题目中出现了众多高难度词汇,在正常情况下任何一个词汇只有29的人都不可能认识选项中的这五个单词。
不论是母语者还是外语学习者,人们在学习词汇时整体上都是先掌握常用词汇,然后才能掌握生僻词汇。由于这一正常词汇学习的规律,又由于GRE考试经常考查极为生僻的词汇而很多常用词汇反而不考,导致一个考生只要当其实际掌握的词汇量显著高于GRE实际考查的词汇量时才有可能认识考试中出现的生僻单词。因此要回答考GRE需要多大词汇量这一问题,更合理的思路应是从GRE词汇的难度着手。
最能反映词汇难度的指标是词汇的生僻程度:越常见的单词越容易被使用者掌握,而越生僻的单词使用者掌握的可能性也越小。本文以当代美语语料库(Corpus of Contemporary American English,COCA)发布的单词词频数据作为计算单词生僻程度的依据。COCA为目前世界上最大的英语语料库,其中收录了总计超过4.5亿字的文本,可以很好地反映出英语的实际使用情况。COCA发布了六万余个词目、总计超过十万词汇(包含词目的变形)的词频数据。其中最高频的5000词目均为日常表达常用词,而词频排名在10000以后的词目则大多出自书面表达。根据流行的词汇量测试网站testyourvocab.com的统计,大多数母语者的词汇量在20000-35000之间,极少有人词汇量超过40000。
本文直接将单词所属词目在COCA中的频率排名作为词汇生僻程度的指标,不做任何换算。数字越大表示单词越生僻,最大为63145。按照这一标准,单词look难度为76,abandon难度为2203,上面例题中E选项的relentlessly难度为10098。于是我们可以这样估计考GRE所需的词汇量:考生解题需要认识的所有词汇中的难度最大值即为所需词汇量。因为理想情况下学习者掌握词汇的顺序应完全与其词频排序一致,于是当考生的词汇量为N时,应刚好认识题目中难度小于等于N的所有单词。虽然现实中学习者不大可能会完全按照词频顺序掌握每个词汇,但据此推算出的所需词汇量与实际的所需词汇量不会相差太多。