返回

大连达内教育

python分析包pandas使用小技巧有哪些

python学习网更新时间:2021-10-28 浏览:176

掌握python的朋友都了解,Pandas是python的一个数据统计分析包,最开始由AQR Capital Management于2008年4月开发设计,并于2009年底开源系统出去,现阶段由致力于Python数据文件开发设计的PyData开发设计team再次开发设计和维护保养,归属于PyData新项目的一部分。Pandas最开始被做为金融业数据统计分析专用工具而研发出去,因而,pandas为时间序列分析剖析带来了非常好的适用。

即然有pandas那么优异的专用工具,应用它的人也会许多 ,今日,python培训机构的我就为大伙儿梳理梳理了一些工作上使用到的pandas使用技巧,便捷更高效率地完成数据统计分析。

1.测算自变量缺少率

df=pd.read_csv('titanic_train.csv')

def missing_cal(df):

"""

df :数据

return:每一个字符串的缺少率

"""

missing_series = df.isnull().sum()/df.shape[0]

missing_df = pd.DataFrame(missing_series).reset_index()

missing_df = missing_df.rename(columns={'index':'col',

0:'missing_pct'})

missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True)

return missing_df

missing_cal(df)

假如想要测算样品的缺少率遍布,只需再加上主要参数axis=1.

2.获得排序里*值所属的行方式

分成排序中有重复值和无重复值二种。无重复值的状况。

df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})

df

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

先按Mt列开展排序,随后对排序以后的数据信息框应用idxmax函数取下Count*值所属的列,再用iloc位置数据库索引将行取下。有重复值的状况

df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)

df[df["rank"] == 1][["ID", "class"]]

对ID开展排序以后再对成绩运用rank涵数,成绩同样的状况会授予同样的排行,随后取下排行为1的数据信息。

3.两列合拼为一行

df = pd.DataFrame({'id_part':['a','b','c','d'], 'pred':[0.1,0.2,0.3,0.4], 'pred_class':['women','man','cat','dog'], 'v_id':['d1','d2','d3','d1']})

df.groupby(['v_id']).agg({'pred_class': [', '.join],'pred': lambda x: list(x),

'id_part': 'first'}).reset_index()

4.删掉包括特殊字符串数组所属的行

df = pd.DataFrame({'a':[1,2,3,4], 'b':['s1', 'exp_s2', 's3','exps4'], 'c':[5,6,7,8], 'd':[3,2,5,10]})

df[df['b'].str.contains('exp')]

5.同组排列

df = pd.DataFrame([['A',1],['A',3],['A',2],['B',5],['B',9]], columns = ['name','score'])

详细介绍二种高效率地组内排列的方式 。

df.sort_values(['name','score'], ascending = [True,False])

df.groupby('name').apply(lambda x: x.sort_values('score', ascending=False)).reset_index(drop=True)

6.挑选 指定形式的列

drinks = pd.read_csv('data/drinks.csv')

# 挑选 全部标值型的列

drinks.select_dtypes(include=['number']).head()

# 挑选 全部字符型的列

drinks.select_dtypes(include=['object']).head()

drinks.select_dtypes(include=['number','object','category','datetime']).head()

# 用 exclude 关键词清除特定的基本数据类型

drinks.select_dtypes(exclude=['number']).head()

最终实际上有关pandas的技能有许多 ,期待对这种有兴趣的朋友可以共享给大伙儿,共同奋斗,共同学习。达内教育python培训学校提示每一个it发烧友:假如你愿意在短期内快速入门,成功把握一门技术性,提议或是努力学习视頻。多训练,多动手能力。

相关资讯

Python操作Excel教程:average函数求平均值的算法
2021-10-30 926
Python操作Excel教程-average函数求平均值...
人工智能和创客教育有什么区别
2022-11-05 890
人工智能和创客教育有什么区别对于人工智能,教育工作者首先要了解和接触这些技术,然后在课堂上介绍给学生。在这个过程中,教师...
怎么用热力图实现Python数据可视化
2021-10-28 822
大数据可视化是计算机科学或深度学习新项目中十分特别的一环。一般,你需要在工程前期开展探究性的数据统计分析(EDA),进而对信息有一定的掌握,并且建立数据可视化的确能够使剖析的目的更清楚...
Python的基础语法
2021-11-03 514
编写Paython程序流程以前*对英语的语法有一定的掌握,才可以编写标准的Python程序流程...
人工智能在制造业的生产中可以发挥哪些作用
2021-06-12 490
人工智能在制造业的生产中可以发挥的作用共分为7项,分别是:1、预测性和预防性维护;2、提高机器人的效能;3、制造供应链;...
二维密度图实现Python可视化的方法
2021-10-28 481
二维密度图(2D Density Plot)是一维版本号密度图的形象化拓展,相对性于一维版本号,其特点是可以见到有关2个自变量的概率分布函数...
Python操作Excel教程:提取Excel工作表的名字并修改的方法
2021-10-30 410
Python操作Excel教程-提取Excel工作表的名字并修改...
怎么运行python
2023-01-10 402
怎么运行python1. 使用Python自带的IDLE在开始--程序--Python2.5(视你安装的版本而不同)中找到IDLE(Python GUI),点击后弹出如下...

相关课程

栏目导航