《三体》中哪些词出现得最多?

前段时间读了一篇叫《统计词话》的文章,里面介绍了一种很暴力但相对来说还算比较有效的统计一段文本中各个词出现的次数的方法。

原文中举了个例子:

举个例子来说,《青玉案》中的这句“东风夜放花千树”,如果把所有可能的两个字的组合列出来,就是:

东风 风夜 夜放 放花 花千 千树

如果再把三个字的可能组合列出来,则有:

东风夜 风夜放 夜放花 放花千 花千树

如果不考虑其它的可能,那么总共就有11个词语。当然,这其中会有很多无意义的组合,但是我们可以预想的是,这些无意义的组合将不太可能大规模地重复出现,因此在排序的过程中它们自动地就被排在高频词语之后了。

这种暴力而又简单有效的方法看起来还不错,于是我也依葫芦画瓢玩了一下。当然,我没有像原作者那样很文艺地把全宋词作为输入数据。作为一名科幻迷,我更想知道的是刘慈欣的《三体》三部曲中哪些词出现的次数最多。

与宋词不同的是,现代文学中可能存在一些较长的词,因此,我将文字组合的长度区间设为了 2 ~ 7,即一句话中所有连续的 2 ~ 7 个字都会被“暴力”地作为一个词统计。另外,虽然我有《三体》三部曲的实体书,但做这个分析需要电子版,于是抱着学习的态度在网上找到了电子版。有点麻烦的是,网上流传的电子版中大多都有不少别字,比如将“叶文洁”打成了“叶文杰”。这些别字一部分被我改过来了,另一部分除非通读否则很难发现,不过或许对结果不会有太大影响。

最后的结果如下:

 

序号	三体I	次数	三体II	次数	三体III	次数	三体1~3	次数
1	一个	664	罗辑	1054	程心	1525	一个	3153
2	汪淼	623	一个	1024	一个	1465	没有	2087
3	文洁	483	没有	674	没有	1006	他们	1633
4	叶文	447	我们	624	太空	741	程心	1525
5	叶文洁	443	他们	593	他们	739	什么	1467
6	没有	407	什么	577	世界	699	我们	1465
7	三体	389	现在	521	太阳	610	世界	1336
8	我们	385	自己	485	可能	577	这个	1321
9	什么	355	这个	477	这个	562	自己	1317
10	了一	319	已经	474	自己	558	现在	1293
11	太阳	307	太空	454	现在	554	了一	1267
12	他们	301	了一	430	已经	544	太空	1255
13	的一	288	可能	428	什么	535	太阳	1240
14	这个	282	舰队	428	宇宙	524	可能	1220
15	世界	278	的一	414	了一	518	罗辑	1209
16	自己	274	知道	404	是一	512	的一	1202
17	文明	271	人类	377	看到	505	已经	1197
18	知道	249	面壁	366	的一	500	是一	1120
19	看到	249	是一	363	的人	469	看到	1094
20	是一	245	世界	359	飞船	467	知道	1069
21	就是	226	看到	340	中的	465	人类	1001
22	到了	226	就是	334	地球	462	的人	991
23	现在	218	中的	325	人类	458	中的	989
24	可能	215	太阳	323	我们	456	地球	937
25	的人	203	不是	320	时间	417	三体	913
26	中的	199	的人	319	知道	416	宇宙	900
27	宇宙	187	这样	310	可以	401	就是	878
28	地球	185	北海	301	有一	399	可以	848
29	已经	179	你们	298	三体	347	到了	842
30	科学	174	到了	292	空间	345	有一	823
31	信息	174	地球	290	引力	332	时间	822
32	上的	173	章北海	289	光速	327	不是	804
33	这样	172	他的	282	AA	327	这样	763
34	可以	169	可以	278	到了	324	上的	730
35	人类	166	这种	270	不是	321	这是	672
36	大的	163	在这	264	就是	318	在这	665
37	不是	163	有一	262	上的	317	你们	650
38	有一	162	起来	256	如果	309	飞船	646
39	那个	158	面壁者	251	阳系	306	那个	639
40	时间	156	时间	249	太阳系	305	舰队	638
41	们的	153	计划	245	出现	304	他的	636
42	红岸	149	这是	244	天明	304	们的	627
43	你们	134	上的	240	云天明	297	如果	624
44	这是	134	们的	238	这是	294	汪淼	623
45	研究	133	两个	230	那个	291	只是	613
46	计算	130	只是	221	在这	283	出现	613
47	这种	128	开始	211	这样	281	文明	608
48	问题	126	如果	211	智子	278	这种	602
49	发现	126	史强	207	只是	274	大的	590
50	系统	125	最后	207	这里	269	两个	583
51	他的	125	雷迪亚兹	200	部分	267	起来	578
52	发射	124	这里	193	二维	265	部分	559
53	大史	122	出现	192	一样	264	开始	552
54	起来	120	真的	191	关一帆	259	这里	550
55	开始	118	大的	190	个世	251	信息	526
56	在这	118	那个	190	人们	250	最后	525
57	不知	118	宇宙	189	信息	250	一样	524
58	只是	118	技术	188	是一个	245	发现	522
59	出现	117	己的	184	只有	244	东西	518
60	来的	114	进行	184	东西	243	是一个	512
61	基地	114	水滴	184	两个	240	文洁	510
62	部分	114	自己的	182	大的	237	只有	508
63	两个	113	还是	181	发现	237	来的	508
64	还是	113	怎么	180	所有	237	所有	502
65	的大	111	部分	178	们的	236	一次	492
66	技术	110	三体	177	她的	231	这些	486
67	出来	110	的那	177	他的	229	进行	485
68	的那	110	希恩斯	176	感觉	228	系统	485
69	一次	109	东西	175	最后	227	还是	481
70	一切	107	一次	175	的大	227	空间	479
71	都是	106	这些	174	开始	223	不可	478
72	如果	104	都是	174	来的	223	叶文	473
73	出了	104	所有	173	空中	222	的大	470
74	它们	102	一样	173	世纪	221	叶文洁	469
75	是一个	101	来的	171	你们	218	己的	467
76	那些	100	只有	171	的太	214	一切	465
77	东西	100	世纪	170	面的	213	自己的	464
78	这些	100	飞船	170	不可	213	它们	464
79	一种	99	战舰	169	这些	212	个世	463
80	自己的	98	这时	169	星环	211	都是	458
81	很快	97	不可	168	一次	208	技术	456
82	不可	97	文明	168	进行	207	感觉	453
83	进行	94	人的	167	维德	206	计划	450
84	只有	93	一切	167	它们	206	个人	449
85	所有	92	个世	167	个人	205	阳系	441
86	然后	91	是一个	166	然后	204	太阳系	440
87	最后	91	第一	164	这种	204	人的	437
88	的时	91	的是	163	系统	203	智子	436
89	存在	90	这一	163	还有	203	的那	434
90	个人	90	因为	161	城市	203	第一	432
91	运行	88	应该	161	公主	203	这时	426
92	这里	88	需要	161	起来	202	然后	425
93	样的	87	看着	160	行星	202	面的	425
94	看着	87	发现	159	人的	194	世纪	421
95	面的	87	选择	158	一切	191	不知	421
96	一样	87	系统	157	消失	189	还有	421
97	明的	86	它们	156	任何	188	一种	420
98	到的	86	样的	155	千米	188	看着	417
99	监听	86	出了	155	这时	188	空中	415
100	的事	86	思想	154	还是	187	很快	415

 

需要说明的是,《三体I》中出现了 447 次“叶文”,443 次“叶文洁”,这不是错别字造成的,另外 4 次“叶文”对应的是叶文洁的妹妹“叶文雪”。另外,文中还有一些地方直接称呼她为“文洁”,因此共有 483 次“文洁”。

这只是一种粗糙的、野蛮的统计方法,比如其实上面的“叶文”其实不应该算作一个词。同时,除了正常的词外,它也找出了一些经常出现的但并不是词的文字组合,比如“了一”等。鉴于实现这个统计的代码非常简短,这个缺陷应该是可以接受的。

从上面的列表可以看出,《三体》三部曲中每一部出现频率最高的几个词,大致是主角名字、“一个”、“没有”、“他们”、“我们”等等。除此之外,你还看出了哪些有趣的东西呢?

上面只列出了出现次数最多的 100 个词,你也可以点击这儿查看《三体》三部曲中出现次数最多的 1000 个词。这个统计就差不多到此为止了,纯属娱乐,希望更多的人从科幻中得到乐趣! 🙂

3 Replies to “《三体》中哪些词出现得最多?”

  1. 通过这个可以对比两部作品是否是同一个人写的。有人通过对比红楼梦后二十回和之前的所使用的“的”“地”“得”三个字的使用量发现两部作品不是同一个人写的。博主有兴趣可以试试看。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s