NLTK基础教程学习笔记(二)
Python基础:字典(dictionary)也是最常用到的一种数据结构。在其他语言中被称为关联数组/存储。字典是一种键值索引型的数据结构,其索引键可以是一种不可变的类型,例如字符串和数字常被用来充当索引键。Python的字典结构是哈希表实现之一。哈希表是一种操作起来非常容易的字典结构,其优势在于通过简短的代码就能建立起非常复杂的数据结构。例子用字典来获取文本中各单词出现的频率: mystring="Monty Python! And the holy Grail !\n" word_frep={} for tok in mystring.split(): if tok in word_frep: word_frep[tok]+=1 else: word_frep[tok]=1 print(word_frep) 结果: {'holy': 1, 'the': 1, 'Python!': 1, '!': 1, 'Grail': 1, 'And': 1, 'Monty': 1} NLTK入门:先介绍了一个简单的爬虫例子,爬取了Python官网主页上的文本信息: import urllib.r...