![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 汇总表
通常情况下,将大型电子表格以更简洁的形式进行汇总是很有用的。计数表或频率表可以让我们更轻松地了解变量的基本分布,特别是对于定性数据。这种表格可以使用describe和value_counts方法获得。
作为第一个例子,我们将加载DataFrame对象nutri——1.2节对nutri进行了重构并保存为'nutri.csv',然后对'fat'特征(列)进行汇总。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_03.jpg?sign=1739272999-9x1RyaWvLP1rBVxZqLdInLbVP3aUwBVg-0-1561e1c251715e5a577fb97500ecd49c)
我们看到,烹调用油有8种,葵花籽油的食用频率最高,226人中有68人使用葵花籽油。value_counts方法给出了不同类型烹调用油的计数结果。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_04.jpg?sign=1739272999-HZsN0LRsnHMjbFLiqcjwABKyfnVzP1py-0-325f69218cd689aa1ba1d1c289af12b2)
列标签也是DataFrame的属性,例如,nutri.fat与nutri['fat']返回的对象完全相同。
也可以使用crosstab方法对两个或多个变量进行交叉汇总,给出一个列联表(contingency table):
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_05.jpg?sign=1739272999-a8kEJqSinQPalISuTgvUKYlVJ4Ko3Slm-0-9fac52b7db219895235d7bd8178ad9b5)
我们从老年人营养数据集中看到,单身男性的比例远远小于单身女性的比例。设置参数margins=True,可以在表格中添加汇总的行和列。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/20_01.jpg?sign=1739272999-ugznd6475xvtBaY7Wmp5GsOBomiI2fu9-0-d97fa302e72969d9fab22dc611ece496)