《Python数据科学指南》——1.5 使用集合
本节书摘来自异步社区《Python数据科学指南》一书中的第1章,第1.5节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.5 使用集合 除了不能存在重复值,集合和列表十分相似。集合是无序的同类元素的集合,通常情况下,集合被用来删除列表中的重复值。集合支持交集、并集、差集和对称差等操作,这些操作在许多用例中都十分便于使用。 1.5.1 准备工作 在这节中,我们会写一小段代码来帮助理解集合数据结构的不同用途。在这个实例里,我们将使用Jaccard系数来计算两句话的相似度,并对Jaccard系数进行详细的讲述,在后续的章节里,我们还会介绍相似的其他度量方法。先给Jaccard系数来一个简要的介绍:它是介于0到1的数值,1表示高相似度,它的计算方法基于两个集合中存在的共同元素数量。 1.5.2 操作方法 让我们来看看创建和维护集合的Python代码。 # 1.初始化两个句子 st_1 = "dogs chase cats" st_2 = "dogs hate cats" # 2.从字符串中创建词的集合 st_1_w...