十个Pandas的另类数据处理技巧

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同，你可能并不会经常的使用它，但是有时候当你遇到一些非常棘手的问题时，这些技巧可以帮你快速解决一些不常见的问题。

创新互联公司专业为企业提供青秀网站建设、青秀做网站、青秀网站设计、青秀网站制作等企业网站建设、网页设计与制作、青秀企业网站模板建站服务，十多年青秀做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

1、Categorical类型

默认情况下，具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引，并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categorical的Dtype来解决这个问题。

例如一个带有图片路径的大型数据集组成。每行有三列：anchor, positive, and negative.。

如果类别列使用 Categorical 可以显着减少内存使用量。

# raw data
 +----------+------------------------+
 |  class   |        filename        |
 +----------+------------------------+
 | Bathroom | Bathroom\bath_1.jpg    |
 | Bathroom | Bathroom\bath_100.jpg  |
 | Bathroom | Bathroom\bath_1003.jpg |
 | Bathroom | Bathroom\bath_1004.jpg |
 | Bathroom | Bathroom\bath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 |         anchor         |        positive        |          negative          |
 +------------------------+------------------------+----------------------------+
 | Bathroom\bath_1.jpg    | Bathroom\bath_100.jpg  | Dinning\din_540.jpg        |
 | Bathroom\bath_100.jpg  | Bathroom\bath_1003.jpg | Dinning\din_1593.jpg       |
 | Bathroom\bath_1003.jpg | Bathroom\bath_1004.jpg | Bedroom\bed_329.jpg        |
 | Bathroom\bath_1004.jpg | Bathroom\bath_1005.jpg | Livingroom\living_1030.jpg |
 | Bathroom\bath_1005.jpg | Bathroom\bath_1007.jpg | Bedroom\bed_1240.jpg       |
 +------------------------+------------------------+----------------------------+

filename列的值会经常被复制重复。因此，所以通过使用Categorical可以极大的减少内存使用量。

让我们读取目标数据集，看看内存的差异：

triplets.info(memory_usage="deep")
 
 #   Column   Non-Null Count   Dtype  
 # --- ------   --------------   -----  
 # 0   anchor   525000 non-null category
 # 1   positive 525000 non-null category
 # 2   negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 #   Column   Non-Null Count   Dtype
 # --- ------   --------------   -----
 # 0   anchor   525000 non-null object
 # 1   positive 525000 non-null object
 # 2   negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB

差异非常大，并且随着重复次数的增加，差异呈非线性增长。

2、行列转换

sql中经常会遇到行列转换的问题，Pandas有时候也需要，让我们看看来自Kaggle比赛的数据集。census_start .csv文件:

可以看到，这些按年来保存的，如果有一个列year和pct_bb，并且每一行有相应的值，则会好得多，对吧。

cols = sorted([col for col in original_df.columns \
               if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
              value_vars=cols,
              var_name="year",
              value_name="feature").sort_values(by=["cfips", "year"])

看看结果，这样是不是就好很多了：

3、apply()很慢

我们上次已经介绍过，最好不要使用这个方法，因为它遍历每行并调用指定的方法。但是要是我们没有别的选择，那还有没有办法提高速度呢？

可以使用swifter或pandarallew这样的包，使过程并行化。

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
     return row * 10
 
 def traditional_way(data):
     data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
     data['out'] = data['in'].swifter.apply(target_function)

Pandarallel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
     return row * 10
 
 def traditional_way(data):
     data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
     pandarallel.initialize()
     data['out'] = data['in'].parallel_apply(target_function)

通过多线程，可以提高计算的速度，当然当然，如果有集群，那么最好使用dask或pyspark

4、空值，int, Int64

标准整型数据类型不支持空值，所以会自动转换为浮点数。所以如果数据要求在整数字段中使用空值，请考虑使用Int64数据类型，因为它会使用pandas.NA来表示空值。

5、Csv, 压缩还是parquet?

尽可能选择parquet。parquet会保留数据类型，在读取数据时就不需要指定dtypes。parquet文件默认已经使用了snappy进行压缩，所以占用的磁盘空间小。下面可以看看几个的对比

|        file            |  size   |
 +------------------------+---------+
 | triplets_525k.csv      | 38.4 MB |
 | triplets_525k.csv.gzip |  4.3 MB |
 | triplets_525k.csv.zip  |  4.5 MB |
 | triplets_525k.parquet  |  1.9 MB |
 +------------------------+---------+

读取parquet需要额外的包，比如pyarrow或fastparquet。chatgpt说pyarrow比fastparquet要快，但是我在小数据集上测试时fastparquet比pyarrow要快，但是这里建议使用pyarrow，因为pandas 2.0也是默认的使用这个。

6、value_counts ()

计算相对频率，包括获得绝对值、计数和除以总数是很复杂的，但是使用value_counts，可以更容易地完成这项任务，并且该方法提供了包含或排除空值的选项。

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
      df["a"].value_counts(normalize=True, dropna=True), sep="\n\n")

这样是不是就简单很多了

7、Modin

注意：Modin现在还在测试阶段。

pandas是单线程的，但Modin可以通过缩放pandas来加快工作流程，它在较大的数据集上工作得特别好，因为在这些数据集上，pandas会变得非常缓慢或内存占用过大导致OOM。

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")

以下是modin官网的架构图，有兴趣的研究把：

8、extract()

如果经常遇到复杂的半结构化的数据，并且需要从中分离出单独的列，那么可以使用这个方法：

import pandas as pd
 
 regex = (r'(?P[A-Za-z\'\s]+),'<br>          r'(?P<author>[A-Za-z\s\']+),'<br>          r'(?P<isbn>[\d-]+),'<br>          r'(?P<year>\d{4}),'<br>          r'(?P<publisher>.+)')<br> addr = pd.Series([<br>     "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",<br>     "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",<br>     "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",<br>     "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",<br>     "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"<br>  ])<br> addr.str.extract(regex)</pre><p>
</p>
<h4>9、读写剪贴板</h4>
<p>这个技巧有人一次也用不到，但是有人可能就是需要，比如：在分析中包含PDF文件中的表格时。通常的方法是复制数据，粘贴到Excel中，导出到csv文件中，然后导入Pandas。但是，这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。</p><p>有读就可以写，所以还可以使用to_clipboard()方法导出到剪贴板。</p><p>但是要记住，这里的剪贴板是你运行python/jupyter主机的剪切板，并不可能跨主机粘贴，一定不要搞混了。</p>
<h4>10、数组列分成多列</h4>
<p>假设我们有这样一个数据集，这是一个相当典型的情况:</p><pre>import pandas as pd<br> df = pd.DataFrame({"a": [1, 2, 3],<br>              "b": [4, 5, 6],<br>              "category": [["foo", "bar"], ["foo"], ["qux"]]})<br> <br> # let's increase the number of rows in a dataframe<br> df = pd.concat([df]*10000, ignore_index=True)</pre><p>
</p><p>我们想将category分成多列显示，例如下面的</p><p>
</p><p>先看看最慢的apply：</p><pre>def dummies_series_apply(df):<br>    return df.join(df['category'].apply(pd.Series) \<br>                                  .stack() \<br>                                  .str.get_dummies() \<br>                                  .groupby(level=0) \<br>                                  .sum()) \<br>              .drop("category", axis=1)<br> %timeit dummies_series_apply(df.copy())<br> #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)</pre><p>sklearn的MultiLabelBinarizer</p><pre>from sklearn.preprocessing import MultiLabelBinarizer<br> def sklearn_mlb(df):<br>    mlb = MultiLabelBinarizer()<br>    return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) \<br>              .drop("category", axis=1)<br> %timeit sklearn_mlb(df.copy())<br> #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p>是不是快了很多，我们还可以使用一般的向量化操作对其求和：</p><pre>def dummies_vectorized(df):<br>    return pd.get_dummies(df.explode("category"), prefix="cat") \<br>              .groupby(["a", "b"]) \<br>              .sum() \<br>              .reset_index()<br> %timeit dummies_vectorized(df.copy())<br> #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p>
</p><p>使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。</p>
<h4>总结</h4>
<p>我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外，除了csv之外，还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型，它可以节省大量内存。感谢阅读!</p>            <br>
            网页名称：十个Pandas的另类数据处理技巧            <br>
            地址分享：<a href="http://www.scanyue.cn/article/dppcjie.html">http://www.scanyue.cn/article/dppcjie.html</a>
        </div>
    </div>
    <div class="news_r">
        <h3>其他资讯</h3>
        <ul>
            <li>
                    <a href="/article/cddcgpj.html">区块链如何选择云服务提供商？</a>
                </li><li>
                    <a href="/article/cddcggp.html">创新互联Python教程：python如何下载网页？</a>
                </li><li>
                    <a href="/article/cddcgji.html">中使用字符串使用字符串实现Redis中Hash的功能（在redishash）</a>
                </li><li>
                    <a href="/article/cddcgih.html">Linux函数atoi的应用介绍（linuxatoi）</a>
                </li><li>
                    <a href="/article/cddcggi.html">香港同配置服务器租用价格不同的原因是什么？</a>
                </li>        </ul>
    </div>
</div>
<!--尾部begin-->
<!--尾部begin-->
<footer>
    <div class="f_bg">
        <div class="wrap">
            <div class="links">
                <h2 class="h2">云锦诚建站解决方案<a href="../solution/" title="更多" class="more">更多+</a></h2>
                <ul>
                    <li><a href="../solution/xiaochengxu.html" title="小程序定制解决方案">小程序定制解决方案</a></li>
                    <li><a href="../solution/qiyewz.html" title="企业网站建设解决方案">企业网站建设解决方案</a></li>
                    <li><a href="../solution/menhuwz.html" title="行业门户网站建设解决方案">行业门户网站建设解决方案</a></li>
                    <li><a href="../solution/yingxiaowz.html" title="营销型网站建设解决方案">营销型网站建设解决方案</a></li>
                    <li><a href="../solution/waimaowz.html" title="外贸网站建设解决方案">外贸网站建设解决方案</a></li>
                    <li><a href="../solution/pingpaiwz.html" title="品牌形象网站建设解决方案">品牌形象网站建设解决方案</a></li>
                    <li><a href="../solution/dianziwz.html" title="数码、电子产品网站建设解决方案">数码、电子产品网站建设解决方案</a></li>
                    <li><a href="../solution/jituanwz.html" title="集团、上市企业网站建设解决方案">集团、上市企业网站建设解决方案</a></li>
                    <li><a href="../solution/dichanwz.html" title="房地产、地产项目网站建设解决方案">房地产、地产项目网站建设解决方案</a></li>
                    <li><a href="../solution/zhubaowz.html" title="珠宝高端奢侈品网站建设解决方案">珠宝高端奢侈品网站建设解决方案</a></li>
                </ul>
            </div>
            <div class="links w2">
                <h2 class="h2">我们的实力<a href="../about/" title="更多" class="more">更多+</a></h2>
                <ul>
                    <li>多年专业互联网服务经验</li>
                    <li>安岳高端建站设计团队</li>
                    <li>资深行业分析策划</li>
                    <li>B2C营销型网站建设者</li>
                    <li>前沿视觉设计、研发能力</li>
                    <li>前端代码深度符合SEO优化</li>
                    <li>安岳市高新技术企业证书</li>
                    <li>具有完备的项目管理</li>
                    <li>完善的售后服务体系</li>
                    <li>深厚的网络运营经验</li>
                    <li>时刻新技术研发能力</li>
                    <li>16个网站系统软件著作权</li>
                </ul>
            </div>
            <div class="f_div2_r">
                <h2 class="h2">关于云锦诚网站建设<a href="../about/" title="更多" class="more">更多+</a></h2>
                云锦诚网站设计，为客户量身定制各类网站建设业务，包括企业型、电子商务型、行业门户型、品牌建立型等各类网站，实战经验丰富，成功案例众多。以客户利益为出发点，云锦诚网站建设网站制作为客户规划、定制符合企业需求、带有营销价值的建站方案，提供从网站前期定位分析策划到网站界面设计... </div>
            <div class="c_l"></div>
        </div>
        <div class="wrap">
            <div class="link">
                友情链接：
                <a href="http://www.cdxwcx.cn/" title="成都网站设计" target="_blank">成都网站设计</a>   <a href="http://www.qyyxtuwen.com/" title="成都水晶字" target="_blank">成都水晶字</a>   <a href="http://m.cdxwcx.com/seo.html" title="成都网站推广公司" target="_blank">成都网站推广公司</a>   <a href="http://www.wxzgy.com/" title="眉山玉柴发电机出租" target="_blank">眉山玉柴发电机出租</a>   <a href="http://www.pzfdj.cn/" title="彭州发电机公司" target="_blank">彭州发电机公司</a>   <a href="http://www.pganf.com/" title="德阳发电机公司" target="_blank">德阳发电机公司</a>   <a href="http://www.djyfdj.com/" title="都江堰发电机维修保养" target="_blank">都江堰发电机维修保养</a>   <a href="http://www.weixiufdj.cn/" title="成都发电机维修" target="_blank">成都发电机维修</a>   <a href="http://www.ghfdjzy.com/" title="ghfdjzy.com" target="_blank">ghfdjzy.com</a>   <a href="http://www.slowang.com/" title="成都石笼网公司" target="_blank">成都石笼网公司</a>               </div>
        </div>
        <div class="wrap">
            <div class="f_div3"> <span class="l">安岳网站建设案例©2025 成都云锦诚科技有限公司  安岳建站云锦诚 版权所有  | <a href="http://www.scanyue.cn/" target="_blank">安岳网站设计</a><a href="http://www.scanyue.cn" target="_blank">www.scanyue.cn</a></span> <span class="r"><a href="https://beian.miit.gov.cn/" target="_blank" rel="nofollow">蜀ICP备2024117194号-9</a></span> </div>
        </div>
    </div>
</footer>
<!--尾部end-->
<script language="javascript" src="/Public/Home/js/foot.js"></script>
<!--尾部end-->
<!--侧边栏begin-->
<div class="side">
    <ul>
        <li id="qqonline_xbceo"><a href="tencent://message/?uin=631063699&Site=&Menu=yes"><i class="bgs1"></i>QQ咨询</a></li>
        <li class="shangqiao"><a href="tencent://message/?uin=532337155&Site=&Menu=yes" title="在线咨询">
            <div><i class="bgs2"></i>在线咨询</div>
        </a></li>
        <li class="sideewm"><i class="bgs3"></i>官方微信
            <div class="ewBox"></div>
        </li>
        <li class="sideetel"><i class="bgs4"></i>联系电话
            <div class="telBox">
                <dd class="bgs1"><span>座机</span><a href="tel:028-86922220" target="_blank">028-86922220</a></dd>
                <dd class="bgs2"><span>手机</span><a href="tel:13518219792" target="_blank">13518219792</a></dd>
            </div>
        </li>
        <li class="sidetop" onClick="goTop()" id="sidetop"><i class="bgs6"></i>返回顶部</li>
    </ul>
</div>
<script type="text/javascript">
    $('.sideewm').hover(function(){
        $('.ewBox').stop().fadeIn();
    },function(){
        $('.ewBox').stop().fadeOut();
    });
    $('.sideetel').hover(function(){
        $('.telBox').stop().fadeIn();
    },function(){
        $('.telBox').stop().fadeOut();
    });
</script>
<!-- WPA start -->
<!-- WPA end -->
<!--侧边栏end-->
</body>
</html>
<script>
    $(".con img").each(function(){
        var src = $(this).attr("src");    //获取图片地址
        var str=new RegExp("http");
        var result=str.test(src);
        if(result==false){
            var url = "https://www.cdcxhl.com"+src;    //绝对路径
            $(this).attr("src",url);
        }
    });
    window.onload=function(){
        document.oncontextmenu=function(){
            return false;
        }
    }
</script>

云锦诚建站，专注安岳网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站建设案例

解决方案

网站制作报价

网站建设动态

关于我们

联系我们

安岳网站建设设计将想法与焦点和您一起共享

十个Pandas的另类数据处理技巧

1、Categorical类型

2、行列转换

3、apply()很慢

Swifter

Pandarallel

4、空值，int, Int64

5、Csv, 压缩还是parquet?

6、value_counts ()

7、Modin

8、extract()

云锦诚建站，专注安岳网站制作网站设计与营销型网站建设与优化

安岳网站建设设计 将想法与焦点和您一起共享

十个Pandas的另类数据处理技巧

1、Categorical类型

2、行列转换

3、apply()很慢

Swifter

Pandarallel

4、空值，int, Int64

5、Csv, 压缩还是parquet?

6、value_counts ()

7、Modin

8、extract()

安岳网站建设设计将想法与焦点和您一起共享