翻开某1列中某个许中取值:

Pandas提供了duplicated、Index.duplicated、drop_duplicates函数来标志及删除重复记录

=

多少集名.drop_duplicates([‘列名’])

duplicated函数用于标志Series中的值、DataFrame中的记录行是不是是重复,重复为True,不另行为False

图片 1

#实际上为除去重复项,删除后对原数据集不变

pandas.DataFrame.duplicated(self,
subset=None, keep=’first’)

一、基本介绍

在张开多少管理时,假设数据轻便,数量相当少,excel是我们的首荐。可是当数码众多,类型复杂,必要灵活地显示切条、进行索引、以及排序时,python会特别惠及。借助python中的numpy和pandas库,它能十分的快完毕各类职责,包罗数据的创办、检查、冲洗、预管理、提取、筛选、汇总、总计等。接下来几篇文章,将以excel为参照,介绍python中数量的拍卖。

波及pandas,那就不得不提两类入眼的数据结构,Series和DataFrame,那两类数据结构都是树立在numpy的数组array基础上。与array相比较,Series是叁个壹维的数据集,不过各种数据元素都含有一个目录,有一点点类似于字典。而DataFrame在数组的功底上,扩展了行索引和列索引,类似于Series的字典,大概说是三个列表集。

故此在多少处理前,要安装好numpy ,
pandas。接下来就看看怎么办到壹套完整的多少操作。

输入:data.drop_duplicates([‘name’])

pandas.Series.duplicated(self,
keep=’first’)

二、像Excel同样选拔Python

输出:   

其间参数解释如下:

壹.导入数据表

始建数据表的点子分三种,分别是从外部导入数据,以及一贯写入数据。

图片 2

导入数据

在python中,也可外部导入xlsx格式文件,使用read_excel()函数:

import pandas as pd

from pandas import DataFrame,Series

data=DataFrame(pd.read_excel(‘c:/python27/test.xlsx’))

print data

输出:

Gene Size Function

0 arx1 411 NaN

1 arx2 550 monooxygenase

2 arx3 405 aminotransferase

……

即:调用pandas中read_excel属性,来读取文件test.xlsx,并转换来DataFrame格式,赋给变量data。在每一行后,自动分了2个索引值。除了excel,还援助以下格式文件的导入和写入:

1   zhangsan

subset:用于识别重复的列标签或列标签体系,默许全部列标签

二.写入数据表

Python写入的法子有非常多,但要么不比excel方便。常用的举个例子利用非常长度的字典或numpy数组来创制:

data1 = DataFrame(

{‘Gene’:[‘arx1′,’arx2′,’arx3’],

‘Size’:[411,550,405],

‘Func’:[np.NaN,’monooxygenase’,’aminotransferase ‘]})

print data1

输出

Func Gene Size

0 NaN arx1 411

1 monooxyg arx2 550

2 amino arx3 405

分红二个行索引后,自动排序并出口。

2    lisi

keep=‘frist’:除了第叁遍出现外,其他一律的被标志为再一次

3.翻看数据表消息

在python中,可以应用info()函数查看全部数据的详细音信。

print data.info()

输出

RangeIndex: 7 entries, 0 to 6

Data columns (total 3 columns):

Gene 7 non-null object

Size 7 non-null int64

Function 5 non-null object

dtypes: int64(1), object(2)

memory usage: 240.0+ bytes

None

除此以外,还足以经过shape, column, index, values,
dtypes等函数来查阅数据维度、行列组成、全数的值、 数据类型:

print data1.shape

print data1.index

print data1.columns

print data1.dtypes

输出

(3, 3)

RangeIndex(start=0, stop=3, step=1)

Index([u’Func’, u’Gene’, u’Size’], dtype=’object’)

Func object

Gene object

Size int64

dtype: object

3    wangwu

keep=’last’:除了最终一回出现外,别的1律的被标识为重复

四.替换空值

在excel中能够按“F5”,在“定位条件”中选拔“空值”,选中后,输入替换消息,再按“Ctrl+Enter”就能够到位替换。

图片 3

轮换空值

在python中,使用函数 isnull 和 notnull 来检查评定数据丢失,
包括空值重回True,不包蕴则赶回False。

pd.isnull(data1)

pd.notnull(data1)

也能够运用函数的实例方法,以及插手参数,对某壹列进行检查:

print data1[‘Func’].isnull()

输出

Func Gene Size

0 True False False

1 False False False

2 False False False

再利用fillna对空值进行填写:

data.fillna(value=0)

#用0来填充空值

data[‘Size’].fillna(data1[‘Size’].mean())

#用data1中Size列的平均值来填充空值

data[‘Func’]=data[‘Func’].map(str.strip)

#理清Func列中留存的空格

如上这篇python查看列的并世无两值方法正是笔者分享给我们的全体内容了,希望能给我们一个参照,也盼望大家多多支持脚本之家。

keep=False:全部同一的都被标识为重复

伍.替换别的值

Excel中得以按“Ctrl+F”,可调出替换对话框,替换相应数额。

图片 4

搜索替换

Python中,使用replace函数替换:

data[‘Func’].replace(‘monooxygenase’, ‘oxidase’)

将Func列中的’monooxygenase’替换成’oxidase’。

您或然感兴趣的篇章:

  • pandas全表查询定位有个别值所在行列的措施
  • python中得以实现数组和列表读取1列的方式
  • Python numpy
    提取矩阵的某一行或某1列的实例
  • python pandas
    如何替换某列的3个值
import numpy as np
import pandas as pd 
#标记DataFrame重复例子
df = pd.DataFrame({'col1': ['one', 'one', 'two', 'two', 'two', 'three', 'four'], 'col2': [1, 2, 1, 2, 1, 1, 1],
   'col3':['AA','BB','CC','DD','EE','FF','GG']},index=['a', 'a', 'b', 'c', 'b', 'a','c'])
#duplicated(self, subset=None, keep='first')
#根据列名标记
#keep='first'
df.duplicated()#默认所有列,无重复记录
df.duplicated('col1')#第二、四、五行被标记为重复
df.duplicated(['col1','col2'])#第五行被标记为重复
#keep='last'
df.duplicated('col1','last')#第一、三、四行被标记重复
df.duplicated(['col1','col2'],keep='last')#第三行被标记为重复
#keep=False
df.duplicated('col1',False)#Series([True,True,True,True,True,False,False],index=['a','a','b','c','b','a','c'])
df.duplicated(['col1','col2'],keep=False)#在col1和col2列上出现相同的,都被标记为重复
type(df.duplicated(['col1','col2'],keep=False))#pandas.core.series.Series
#根据索引标记
df.index.duplicated()#默认keep='first',第二、五、七行被标记为重复
df.index.duplicated(keep='last')#第一、二、三、四被标记为重复
df[df.index.duplicated()]#获取重复记录行
df[~df.index.duplicated('last')]#获取不重复记录行
#标记Series重复例子
#duplicated(self, keep='first')
s = pd.Series(['one', 'one', 'two', 'two', 'two', 'three', 'four'] ,index= ['a', 'a', 'b', 'c', 'b', 'a','c'],name='sname')
s.duplicated()
s.duplicated('last')
s.duplicated(False)
#根据索引标记
s.index.duplicated()
s.index.duplicated('last')
s.index.duplicated(False)

6.查看唯1值

Excel中,通过“数据-筛选-高端”能够选拔性地看某一列的唯1值。

图片 5

查阅唯一值

Python中,使用unique函数查看:

print data[‘Func’].unique()

输出

[nan u’monooxygenase’ u’aminotransferase’ u’methyltransferase’]

drop_duplicates函数用于删除Series、DataFrame中重复记录,并再次回到删除重复后的结果

7.轻重写调换

Excel中,通过UPPERubicon、LOWE宝马X3、PROPER等函数来成为大写、小写、首字母大写。

图片 6

高低写函数

Python中也可以有同名函数:

data1[‘Gene’].str.lower()

pandas.DataFrame.drop_duplicates(self,
subset=None, keep=’first’, inplace=False)

捌.删除重复值

Excel中得以由此“数据-删除重复项”来去除重复值。

图片 7

多少-删除重复值

Python中,能够通过drop_duplicates函数删除重复值:

print data[‘Func’].drop_duplicates()

输出

0 NaN

1 monooxygenase

2 aminotransferase

3 methyltransferase

Name: Func, dtype: object

还是能够安装“ keep=’last’ ”参数,前面世的被封存,先出现的被去除:

print data[‘Func’].drop_duplicates(keep=’last’)

输出

2 aminotransferase

3 methyltransferase

6 monooxygenase

8 NaN

Name: Func, dtype: object

内容参谋:

Python For Data Analysis

蓝鲸网址解析博客,小编蓝鲸(王彦平)

pandas.Series.drop_duplicates(self,
keep=’first’, inplace=False)

#删除DataFrame重复记录例子 
#drop_duplicates(self, subset=None, keep='first', inplace=False) 
df.drop_duplicates() 
df.drop_duplicates('col1')#删除了df.duplicated('col1')标记的重复记录 
df.drop_duplicates('col1','last')#删除了df.duplicated('col1','last')标记的重复记录 
df1.drop_duplicates(['col1','col2'])#删除了df.duplicated(['col1','col2'])标记的重复记录 
df.drop_duplicates('col1',keep='last',inplace=True)#inplace=True表示在原DataFrame上执行删除操作 
df.drop_duplicates('col1',keep='last',inplace=False)#inplace=False返回一个副本 
#删除Series重复记录例子 
#drop_duplicates(self, keep='first', inplace=False) 
s.drop_duplicates() 

上述那篇Pandas标识删除重复记录的章程正是笔者分享给大家的全部内容了,希望能给我们一个参照,也期望大家多多援救脚本之家。

您恐怕感兴趣的小说:

  • python之pandas用法大全
  • python中pandas.DataFrame的轻松操作方法(成立、索引、扩张与删除)
  • 用Python的pandas框架操作Excel文件中的数据教程

Author

发表评论

电子邮件地址不会被公开。 必填项已用*标注