今天读书的时候被启发,想要写一个程序校内网蛋疼文章过滤器,写了一部分发现工作量有点大。恰恰想起过去曾经读到过一篇叫《东风何处是人间》的很有意思的文章,于是转念一想,正好拿起前面写了一部分的程序统计了下校内上那些分享量最高的日志的用词频率。
我用python写了一个程序抓取校内分享栏目里给出的分享量最高的120篇文章,然后对其中所有两字词的出现频率进行统计,最后排序并进行人工筛选。于是这篇《人人网最流行的那些日志都用什么词》出炉了!下面给出统计结果,本人不作任何评论;源代码则附在文章的最后,各位可以在此基础上进一步发掘(以及,我不保证我写的代码没bug……)。
实意名词TOP15:
1,帅哥,295次
2,男人,184次
3,中国,178次
4,孩子,174次
5,蟑螂,171次
6,女人,140次
7,韩国,136次
8,朋友,135次
9,世界,118次
10,时间,113次
11,咖啡,108次
11,妈妈,108次
13,生活,97次
14,永远,96次
15,幸福,95次
注:虽然这里把这些词语算作实意名词,但实际上在文中出现的时候它们未必是以名词形式出现的,譬如“永远”一词,想必大多数出现都不是名词;又如“生活”一词,既可以是名词又可以是动词,所以它在此榜单和下面一张榜单上都有名字。