统计词频

如果要统计一个字符串中的词频,可以使用 Python 中的字典(Dictionary)数据结构。下面是一个简单的程序示例:

 
def count_words(string):
words = string.split() # 将字符串拆分成单词列表
word_counts = {} # 创建一个空字典用于存储词频统计结果

for word in words:
    if word in word_counts:  # 如果字典中已经存在该单词
        word_counts[word] += 1  # 将该单词的计数加 1
    else:  # 如果字典中不存在该单词
        word_counts[word] = 1  # 创建一个新的键值对,将单词作为键,计数为 1

return word_counts

测试程序

string = “Hello, World! This is a test.”
print(count_words(string)) # 输出:{‘Hello’: 1, ‘World’: 1, ‘This’: 1, ‘is’: 1, ‘a’: 1, ‘test.’: 1}
 

在上述程序中,我们定义了一个名为  count_words  的函数,它接受一个字符串参数  string 。首先,我们使用  split  方法将字符串拆分成单词列表,然后创建一个空字典  word_counts  用于存储词频统计结果。

接下来,我们遍历单词列表中的每个单词。如果该单词已经存在于字典中,我们将其计数加 1;如果该单词不存在于字典中,我们创建一个新的键值对,将单词作为键,计数为 1。

最后,我们返回统计结果字典。

在测试程序中,我们使用示例字符串 “Hello, World! This is a test.” 调用  count_words  函数,并将返回值打印输出。

输出结果为一个字典,其中每个键都是一个单词,对应的值是该单词在字符串中出现的次数。