韩漫免费漫画在线观看方法,《好好疼爱里面》免费看,年轻漂亮的女士护士内衣,妈妈醉酒后把我当爸爸电视剧

文章 > Python常见问题 > python如何做数据清洗?

python如何做数据清洗?

头像

 Ly

2020-05-26 14:57:495901浏览 · 0收藏 · 0评论

1.数据清洗的代码:

import pandas as pd
import numpy as np
# 创建空的df,保存测试数据
test_df = pd.DataFrame({'K1':['C1','C1','C2','C3','C4','C2','C1'],'K2':['A','A','B','C','D',np.NaN,np.NaN]})
# 按K1列进行分组,组内进行unique操作(去除重复元素,返回元组或列表)
test_df_unique = pd.DataFrame(test_df.groupby(['K1'])['K2'].agg('unique'))
# 自定义函数判断元组中是否含有nan
def has_nan(list):
    flag = False
    for x in list:
        if x is np.NaN:
            flag = True
            break
    return flag
# 自定义函数判断元组中是否不含有nan
def no_nan(list):
    flag = True
    for x in list:
        if x is np.NaN:
            flag = False
            break
    return flag
# 获取k2列含有nan的数据
test_df_unique_has_nan = test_df_unique[test_df_unique['K2'].apply(has_nan)]
# 获取k2列不含有nan的数据
test_df_unique_no_nan = test_df_unique[test_df_unique['K2'].apply(no_nan)]
# 管理测试数据,获取源数据
test_df_get = test_df[test_df['K1'].isin(test_df_unique_has_nan.index.tolist())]
test_df_alone = test_df[test_df['K1'].isin(test_df_unique_no_nan.index.tolist())]
# 去除含nan的重复数据
test_df_get_nonan = test_df_get[~test_df_get['K2'].isna()]
# 组合数据
result = test_df_get_nonan.append(test_df_alone)
# 去重,得到最终结果
result_save = result.drop_duplicates(subset=['K1','K2'],keep='last')
# 结果落地
result_save.to_excel('C:/Users/zhen/Desktop/数据清洗之去重.xlsx')

2、测试数据:

p1.jpg

3、结果:

p2.jpg

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

《大度》韩版免费| 韩国三级《吸乳》电影| 适合做前看的MV| 站立式插插的正确方法| 少女配狗视频大全播放| 台湾《洞门为君开》演员表| 香蕉视频| 爸爸汆肉的日常| 玉蒲团2之艳乳欲仙| 日本护士裸体做爰视频| 《一滴都不许漏》何泽城林荫 | 单亲妈妈韩剧在线观看全集| 女人用嘴巴吸出精子会反流吗| 呱呱爆料网每日爆料| 第1章初始小莹的奶水| 电影《乳妓》在线观看| 嫂嫂让小叔子帮忙生孩子视频 | 高三妈妈用性缓解孩子压力| 合家欢(1-46)王家| 他的大手在秘密花园小说免费阅读 | 韩剧《我的瑜伽教练》免费观看| 苍井空《办公室爱欲》| 《情欲按摩院》未删减版| 《性爽2》电影| 扌击辶鬲的小说父女| 《厨房激战5》完整版在线观看| 蜜桃成熟时李丽珍粤语原唱| 大龟慢慢挺进我的体内| 边吃奶边扭身体哼唧怎么回事 | 《熟妇的荡欲》HD中字| 成品PPT网站大片入口| 男朋友隔着衣服顶撞是什么心理现.. | 二人生猴子全程免费| 妈妈装睡配合孩子阴阳调和| 《荷尔蒙3》| 扌桑辶鬲的照片| 水稀美里| 男生把困困放到女生坤坤视频高清| 蜜臀| 我把刘姨俩腿扛在肩上是哪一集| 群体轮换