• 如何使用熊猫数来匹配单词

    我有2个数据框 set1 = ['a','b','c','d','e','f','g','h','i','j'] set2 = ['a','b','b','c','c','f','h','j','k'] df1 = pd.DataFrame(set1, columns=['name']) df2 = pd.DataFrame(set2, columns=['name']) 我想比较没有for循环的这2个数据帧,并得到类似的输出 df3 = ['a=1','b=2','c=2','f=1','h=1','...
  • R循环将数据框信息提取到函数中并命名输出

    这里是新的R用户,我在循环上可以在线找到并应用函数的所有信息与我为成功应用到我的问题所做的努力还不够接近,因此任何想法和指导都应是非常感激。 我在R中有一个名为parks.metadata2的数据框,其中包含68行。每行都有我需要进行反向轨迹分析的位置,日期和时间的信息。某些列具有经/纬度数据和日期/时间数据,我想将它们输入到hysplit_trajectory函数中以生成另一个对象,该对象是带有该位置和时间的轨迹信息的小数据框。因此,我想最终得到68个对象,parks.metadata2中的每一行都有一个...
  • 根据系列的布尔值删除数据帧索引

    我有以下数据框 df = pd.DataFrame(data= {'country': ['USA','Italy','France'], 'Jan':[-150,2,50], 'Feb':[100,0.5,2],'Mar':[200,0,5]}) df.set_index('country', inplace=True) 我想删除绝对值不大于10的任何索引-在这种情况下为“意大利” 我可以检查给定索引的这种情况,如下所示: (df.loc['Italy'].abs()>10).any() 有没有一种有...
  • 在熊猫中每隔一列取行平均值(python)

    我正在尝试每隔几列使用行平均值。这是一个样本数据集。 d = {'2000-01': range(0,10), '2000-02': range(10,20), '2000-03': range(10,20), '2001-01': range(10,20), '2001-02':range(5,15), '2001-03':range(5,15)} pd.DataFrame(data=d) 2000-01 2000-02 2000-03 2001-01 2001-02 20...
  • 带有数据框的条件函数

    对于来自数据帧的pandas系列,我想使用if语句根据数据列之一的值运行不同的功能。 例: def my_Function(Col_1_Input, Col_2_Input, Col_3_Input) if Col_1_Input == 15: Process Col_2_Input Process Col_3_Input return Result else: Diff process Col_2_Input ...
  • 用R中的列总和除以数据集中的每个单元格

    我正在尝试将数据框中的每个单元格除以该列的总和。例如,我有一个数据帧df: sample a b c a2 1 4 6 a3 5 5 4 我想创建一个新的数据框,将每个单元格放入并除以该列的总和,如下所示: sample a b c a2 .167 .444 .6 a3 .833 .556 .4 我已经看到了使用sweep()的答案,但这看起来像是用于矩阵的,而且我有数据帧。我了解如何使用colSums(),...
  • 熊猫-是否可以将数据框列标签永久更改为默认列号。数据框至少有40列

    df.columns = range(len(df.columns))inplace = True 文件“”,第1行 df.columns = range(len(df.columns)inplace = True) ^ SyntaxError:语法无效 如果删除“ inplace = True”,则可以得到正确的解决方案,但不是永久的。 也许有更好的方法可以做到这一点 原始数据框: sepal_length sepal_width petal_length petal_width s...
  • ValueError:索引的值重叠:

    我正在制作一个网络爬虫,每个季节的每周都收集幻想足球数据。每周从3个不同的网页收集数据,因此每周有3个不同的数据帧要组合。每个数据帧都将附加到列表dfs。此代码有效期为1周(三个已加入数据帧),但是当我尝试合并3个以上数据帧时无法工作。这是我的代码和错误消息。有谁知道为什么会发生此错误以及如何解决该错误? df.set_index(['Week', 'Player', 'Pos', 'Tm',], inplace=True) if key == 'Passing': ...
  • Spark Scala中的GroupBy / count

    我正在使用以下代码(SQL)来汇总色相(IMPALA表)上每个唯一ID的值。目的是了解每个ID(pack_no)的项目总数(有效)。 SELECT pack_no, count(DISTINCT `_valid`) FROM database.table GROUP BY pack_no; 我得到了预期的结果: 尝试在Scala Spark和Spark SQL中执行相同的操作(在读取了impala表使用的镶木地板文件之后): val df = datalakeData.groupBy(col("pack...
  • 如何在不进行操作的情况下对熊猫数据框进行分组或聚合

    我有一个涉及Pandas DataFrame的特定情况,如下所示: df = pd.DataFrame({'col1': ['group1','group1','group1'], 'value1':[0,0,0],'value2':['A','B','C']}) 在此,整个列的0值可以解释为“空白”或NaN。 我要做的只是将“ col1”值“分组”,在这种情况下,该值仅为“ group1”,并获得具有以下内容的数据框: 'col1'('group1')下的一个值 'value1'下的一个值(0) “ ...
  • 将geom_line添加到R中的堆叠条形图

    我看过类似的话题,但没有发现任何与我的情况有关的东西。 我想在ggplot2的填充条形图中添加geom_line。我有要叠加为向量的值。有没有一种简单的方法可以将所有值不合并到同一数据框中? 我的代码(如果相关): ggplot(df_region, aes(fill=as.factor(Secondary1), y=Total, x=Year)) + geom_bar(position="fill", stat="identity") + theme(legend.position="bott...
  • 在R中使用distinct()函数

    我正在处理一个包含经度和纬度坐标的大型数据框,每个坐标都在不同的列中。我只想删除每个重复的行,只要它们具有相同的经度和纬度。这样可以解决问题吗? distinct(dat, dat$longitude, dat$latitude, .keep_all = TRUE) 这似乎可行,但是我不确定是否要删除仅具有匹配的经度和不同纬度的行或以其他方式删除行。
  • 使用* args将数据帧传递给函数

    我想编写一个函数,其中几个数据帧可以作为* args传递,以绘制一些图。就像这样: def f_plot (*args): p = None if args == df1: ...plot rules for df1... p = plot.show() elif args == df2: ...plot rules for df2... p = plot.show() else: raise V...
公告

《从零开始开发BBS》课程上线啦,快来跟着我一步步搭建属于你的BBS吧。

课程地址:https://www.shiyanlou.com/courses/1436
9折优惠邀请码: ZHwfIjb1

该课程会带领大家一步步的了解并熟悉Go语言开发,如果你是一个Go语言初学者,或者正准备学习Go语言,那么这个课程非常适合你。如果你熟练掌握了本课程中的知识点,相信你就已经入门Go语言开发,并能胜任日常的开发工作了。