血、神与土地:数据视角下的国歌语言
对195首国歌歌词的自然语言处理分析揭示了各国用以定义自身的词汇。土地、上帝、鲜血和自由占据主导,而民主、科学和女性几乎完全缺席。
Nationalia Research
Data Journalism
国歌是地球上被演唱最广泛的文本之一。数十亿人在体育赛事、国家仪式和学校集会上唱国歌。然而我们很少停下来问:我们究竟在说什么?当你剥去旋律和情感,将195首国歌还原为原始文本并输入自然语言处理流程,一幅惊人的图景浮现出来。国家身份的词汇远比你预想的狭窄,而缺席的词汇与存在的词汇同样具有揭示性。
我们分析了数据集中所有195首国歌的英文文本,共约28000个词。结果讲述了一个关于各国认为自己是什么、渴望成为什么,以及宁愿不讨论什么的故事。
统计195首国歌的词汇
我们的方法很直接。我们收集了数据集中所有195首国歌的英文文本。对于原本用英语写成的国歌(如美国、英国、澳大利亚和肯尼亚的),我们使用原文。对于所有其他国歌,我们使用流传最广的英文译本,通常来自政府出版物、国际参考文献或权威学术来源。
关于语料库的说明。 本分析所使用的英文翻译是Nationalia为研究目的整理的工作译本。当某国政府或国际组织发布了英文版本时,我们使用该文本。当不存在此类版本时,我们使用参考文献中流传最广的译本。这些并非经过认证或具有法律效力的翻译,而是对每首国歌含义的最佳英文呈现。网站的总体声明——翻译”非官方译本,旨在传达含义”——同样适用于此语料库。四首纯器乐国歌(西班牙、波黑、科索沃、圣马力诺)因无歌词而被排除在外。
然后我们将整个语料库通过分词和词形还原流程,去除停用词(the, and, of, to)并将动词形式规范化为词根。剩下的是大约11400个有意义实词的数据集。
结果立竿见影且毫不含糊。最常出现的名词类别是土地/国家/民族,出现在89%的国歌中(195首中的174首)。第二是上帝/神圣/主,出现在52%(101首)。第三是自由/解放,41%(80首)。光荣/荣耀出现在38%(74首)。鲜血出现在34%(66首),使其比”和平”(29%)、“正义”(19%)或”爱”(17%)更为常见。
这五个词汇集群合在一起,构成了以国歌形式表达的国家认同的核心词汇。它们是各国构建其音乐自画像的支柱。
认同的词汇:土地、鲜血和神圣
为什么是这三个类别?为什么土地、鲜血和上帝如此彻底地主导了国歌的语言?
土地是最直观的。民族国家在其最基本层面上是对领土的主张。国歌就是那首说”这个地方是我们的”的歌。法国的《马赛曲》号召公民保卫”nos campagnes”(我们的田野)。乌克兰国歌开篇宣告国家的光荣和自由尚未消亡,将身份扎根于对土地的坚守。巴西国歌唤起其”天生巨人”的地理特征。“土地”或其同义词(土壤、大地、田野、海岸)出现在174首国歌中,因为没有领土,就没有可以歌唱的国家。
鲜血更为复杂。在66首国歌中,鲜血不是作为医学术语出现,而是作为牺牲的象征。法国国歌是最著名的例子,其中生动地提到”不洁之血”浸透田野。但这一模式在世界各地重复。阿尔及利亚、土耳其、孟加拉国和越南的国歌都提到为独立而流的血。国歌语言中的鲜血具有双重功能:它标记为主权付出的代价,并创造一笔后代应当偿还的债务。国歌实际上在说:“有人为此而死;你必须配得上。”
上帝(或神圣天意、上天、全能者)出现在101首国歌中,其功能是合法性。当一个国家援引神圣力量时,它声称自己的存在不仅仅是政治上的偶然,而是一个神圣的事实。美国祈求上帝”将恩典洒向”国家。埃及国歌涉及上帝和信仰。印度的《人民的意志》援引”Bharat Bhagya Vidhata”(印度命运的主宰)。即使是并非明确宗教性的国歌也常使用准神圣语言:日本的《君之代》是最古老的国歌之一,它描述天皇的统治延续”直到小石子变成覆满苔藓的巨岩”,以地质时间作为一种世俗的永恒。
这三个类别构成了国家认同的三角:我们拥有的土地、我们流下的鲜血,以及保佑这一切的更高力量。
区域词云:各大洲在唱什么
当我们按地理区域对数据进行细分时,出现了不同的词汇特征。
拉丁美洲
拉丁美洲国歌在语料库中修辞最为强烈。主导词汇是patria(祖国)、libertad(自由)、gloria(荣耀)和cadenas(锁链)。这些词汇反映了该大洲在19世纪共同的殖民解放历史。几乎每首拉丁美洲国歌都是在对抗西班牙或葡萄牙的独立战争期间或之后不久写成的。阿根廷国歌七次提到”自由”。墨西哥国歌反复提及”战争”和”大炮”。哥伦比亚国歌以庆祝摆脱枷锁的欢呼声开篇。
拉丁美洲国歌的平均长度也是最长的,翻译后约180个词,而全球平均为144个词。更多的历史需要更多的词汇。
非洲
非洲国歌集中在团结、和平、祖先和自由这些主题上。“团结”一词出现在78%的撒哈拉以南非洲国歌中,是任何单一概念在区域频率中最高的。这反映了后殖民时期跨越民族和语言界限锻造国家认同的挑战。肯尼亚国歌祈求上帝”团结我们所有的心”,在一个拥有40多个民族的国家。南非国歌”Nkosi Sikelel’ iAfrika”的独特之处在于一次演出中使用五种不同语言,以音乐形式表达其歌词所要求的团结。
“祖先”或”先辈”出现在41%的非洲国歌中,远高于14%的全球平均水平。这反映了非洲的祖先崇拜传统以及历史延续性在非洲政治思想中的重要性。
欧洲
欧洲国歌偏重祖国/母国、荣誉、国王/女王和古老/永恒。君主制词汇在这里最为强烈,62%的欧洲国歌提及皇室或贵族传统,而美洲仅为8%。英国的《天佑吾王》是最纯粹的例子:整篇文本都是祈求对君主的神圣庇护。荷兰的《威廉颂》以奥兰治的威廉的第一人称演唱。丹麦国歌歌颂”克里斯蒂安国王站在高高的桅杆旁”。
欧洲国歌中”古老”或”永恒”的出现频率也最高(48%),反映了该大洲强调深厚历史根基作为合法性来源。
亚洲
亚洲国歌偏好和谐、山岳、天空/黎明和繁荣。日本的《君之代》是世界上最精简的国歌(日文仅32个字符),使用地质意象(小石子、巨岩、苔藓)而非军事或政治语言。相比之下,中国国歌明确带有军事色彩(“起来!不愿做奴隶的人们”),但它写于1935年日本入侵期间,反映了特定的历史时刻。
印度的《人民的意志》以其地理列举著称:它列出旁遮普、信德、古吉拉特、马拉塔、德拉维达、乌特卡拉和孟加拉,通过列举其各地区将国家凝聚在一起。这种地理列举策略出现在23%的亚洲国歌中,但在全球仅为6%。
情感分析:国歌是快乐的还是悲伤的?
2025年发表在《科学报告》上的一项研究对国歌歌词语料库进行了计算情感分析,衡量了情感效价(积极与消极情绪)和唤醒度(平静与激昂)。研究结果挑战了关于国歌情绪的简单假设。
大多数国歌在情感效价上为正面,但张力较高。它们不像流行歌曲那样欢快。它们是胜利的、坚定的或庄严的。其情感特征更接近胜利演讲而非情书。
地区差异显著。美洲国歌(南北美洲)情感效价得分较低,可能是因为战争意象以及对斗争和牺牲的大量引用。美国国歌字面上描述的就是一场战斗。墨西哥国歌十一次提到”战争”。即使在庆祝胜利时,这些也不是欢快的文本。
赤道国家倾向于产生能量和唤醒度得分更高的国歌。研究作者推测气候、文化表达力和音乐能量之间存在相关性,尽管这一点仍有争议。明确的是,赤道附近的国歌在歌词和旋律上都往往更具节奏感和情感强度。
按情感效价评分最悲伤的国歌是波兰的《东布罗夫斯基玛祖卡》,它以”波兰尚未灭亡”开篇。情感最一致正面的国歌往往来自太平洋的小岛国,其歌词强调自然之美、感恩和神圣祝福,没有大国常见的军事意象。
从未出现的词汇
国歌没有说什么与它们说了什么同样重要。某些在当代政治话语中占主导地位的词汇几乎完全不见于世界各国的国歌中。
民主仅出现在全世界三首国歌中。尽管民主是地球上被最广泛宣称的政体形式,这一概念在国歌词汇中几乎无迹可寻。原因部分是历史性的(大多数国歌早于普选权),部分是结构性的:国歌关乎身份认同,而非治理方式。
经济、贸易、工业和技术几乎完全缺席。只有两首国歌(都很间接地)提及经济活动。国歌存在于一个前工业化的情感空间。它们谈论田野和山脉,而非工厂和股票市场。
科学出现在零首国歌中。教育出现在一首(伯利兹)。整个启蒙理性主义的框架,即从字面意义上使民族国家成为可能的知识传统,在各国关于自身的歌曲中完全缺失。
女性几乎是隐形的。只有六首国歌提及女性,且大多数情况下是一种泛化的”母国”拟人化,而非真正的女性。儿童出现在九首国歌中,通常是作为国家未来的保卫者。维系每个国家的家庭结构几乎完全不见于定义它们的文本中。
气候、环境和自然(生态学意义上的)出现在零首国歌中。国歌不断提及山脉、河流和天空,但始终是作为美丽或永恒的象征,从未是受到威胁的生态系统。
这种词汇空白揭示了一些根本性的东西:国歌不是对国家实际运作方式的描述。它们是神话文本。它们在一个先于工业化、妇女选举权、环境科学和民主治理的象征层面运作。从真正意义上说,它们是仍在21世纪被演唱的前现代文献。
数据揭示的关于国家神话的内容
这项分析最重要的发现不是任何单一的词频。而是整体模式。作为全球语料库考察的国歌揭示了一种关于国家身份的惊人一致的神话。
这种神话有三大支柱:神圣领土(这片土地是我们的,它是受到祝福的)、血的牺牲(我们的先辈为此而死,我们必须尊敬他们)和神圣合法性(更高的力量命定了我们的存在)。这三个观念跨越文化、大洲和世纪出现。它们出现在民主国家和独裁国家的国歌中,出现在岛国和大陆帝国的国歌中,出现在1776年建国和1991年建国的国家的国歌中。
这种一致性表明,国歌实际上并不是关于个别国家的。它们是关于国家身份这一概念本身的。每首国歌都是一个普遍模板的地方变体:我们是一个民族,这是我们的土地,我们用鲜血为它付出了代价,上天也给予了认可。
国歌还是述行性文本,意味着它们不仅仅描述现实,它们创造现实。当数百万人站起来齐唱同样的词语时,他们不是在报道国家统一。他们在生产它。国歌不是反映国家的镜子。它是一种构建国家的仪式,每一次演唱都在反复进行。
这就是为什么词汇如此保守。在仪式文本中,创新是危险的。国歌的力量依赖于重复,依赖于这些是我们祖父母也曾唱过的同样词语的感觉。引入现代概念(民主、技术、气候)会打破这种魔力。国歌需要感觉是永恒的,即使它所代表的国家只有几十年的历史。
数据证实了人类学家和政治学家长期以来的怀疑:国家从根本上来说是叙事工程。而国歌就是这个故事中最短、最广为人知的版本。它是一个90秒的神话,合唱演绎,将一群陌生人变为一个民族。词语的字面意义不如一起说出它们这个行为重要。但我们选择的词语和我们遗漏的词语,比任何宪法或政策文件都更能告诉我们国家真正看重什么。
来源与参考文献
- The emotional geography of national anthems . Scientific Reports (2025)
常见问题
- 国歌歌词中最常见的词汇是什么?
- 在195首国歌中,最常出现的实词是土地/国家/民族(出现在89%的国歌中)、上帝/神圣/主(52%)、自由/解放(41%)、光荣/荣耀(38%)和鲜血(34%)。'鲜血'一词出现的频率高于'和平'(29%)、'正义'(19%)或'爱'(17%)。
- 国歌歌词是如何分析的?
- 该分析对我们数据集中所有195首国歌的英文文本进行了自然语言处理(NLP),共约28000个词。对于原本以英语写成的国歌,使用原文;其余使用流传最广的英文译本。经过分词、词形还原和停用词去除后,大约11400个有意义的实词被用于频率和主题模式的分析。
- 为什么这么多国歌提到鲜血?
- 鲜血出现在34%的国歌中,通常作为牺牲和独立代价的隐喻。它在武装争取主权的斗争期间或之后创作的国歌中最为常见。'鲜血'比'和平'或'爱'更普遍,反映了国歌倾向于通过冲突和殉难来构建国家认同的历史趋势。
- 国歌歌词中缺少哪些词汇?
- 与民主、女性、儿童、科学、技术和经济发展相关的词汇在全球国歌语料库中几乎完全缺席。这种词汇空白表明,国歌更重视神话化的起源,而非现代公民价值观或日常生活。