• 使BeautifulSoup数据成为DataFrame Python

    我是Python的新手。但是我在网上抓取数据并获取数据,但是在将数据放入数据框时遇到了麻烦。看来我只能在数据框中获得一行数据。 n=range(2009,2021) url2 ='https://www.sports-reference.com/cbb/seasons/' url3 ='-school-stats.html' for n in n: all = url2+str(n)+url3 r = requests.get(all) soup = BeautifulS...
  • 无法子集DataFrame中的第一列

    我正在学习如何使用熊猫,并且我已经从Kaggle下载了一些有关汽车价格的数据。 我试图通过将所有具有模型“ Golf”的汽车都替换掉来创建一个新的数据框。 ''' 高尔夫球= df [df.model ==“高尔夫”] ''' 它的确返回一个新的数据框,但是当我调用它时,除了列名外它只是空的。 试试这个: ''' 其他= df [df.model!=“高尔夫”] ''' 创建一个新的数据框,但其中包含所有内容。列的数据类型是一个对象。所以我试图通过传输来创建子集,这也是一个对象。 ''' man_trans...
  • 为什么我的hdf5文件看起来这么大?

    我正在使用一个巨大的数据集(数百个GB),该数据集将4000万个标识符存储为32个字符的字符串,每个标识符包含数百或数千行数字数据。 为了节省空间并提高从磁盘读取数据的效率,似乎最好不要在数据集中重复识别符。例如,数据表看起来像 verylongstringidentifier1, 1.2 verylongstringidentifier1, 2.3 verylongstringidentifier1, 3.4 . . verylongstringidentifier2, 2.1 verylongstrin...
  • R表函数,包括过滤出的行

    我有一个用readRDS作为df读取的数据框。这包含许多带有城市和州的行。我仅将加利福尼亚州的数据保留为df_ca。 df_ca包含100列,而我仅保留一些分类列。我创建一个名为df_cat的新分类df。我想遍历分类列并使用表函数获取频率。忽略用于故障排除的循环,我将var设置为“ city”,并执行表函数以创建一个名为cat_freq的新df。 cat_freq包含df而非df_ca的所有城市,其Freq为0。如果将它们过滤掉,为什么甚至显示它们?我是R的新手,但具有python背景 df <- as.d...
  • 如何通过输入部门名称获取股票行情清单

    我正在尝试编写代码以在输入部门名称时返回股票行情清单。 例如,MSFT在金融领域属于技术领域,我希望剩下属于该特定领域的公司。 import yfinance as yf msft= yf.Ticker("MSFT") print(msft.info['sector']) 此代码将返回“技术”,如何获取数据框 包含其他股票。 是否有可能获得比“技术”更具体的行业类别,例如“通信”?
  • 如何在R中读取数据帧的setdiff?

    我正在努力在两个数据帧上实际使用setdiff的结果(对我来说,作为矢量是有意义的,但对于数据帧则不那么有用)。 收益: m1 <- mtcars m2 <- mtcars m2[m2$cyl == 4, "cyl"] <- 3.99 setdiff(m1,m2) cyl Mazda RX4 6 Datsun 710 4 Hornet Sportabout 8 # I know the 6 and 8 are there be...
  • 在数据框中添加列,这是另一个数据框中的列的总和

    我有两个数据框: df1:N为55k +的数据框 df2:N为650的数据框 我想做的是在df2中添加一列,它是df1中一列的总和,但基于df2中一列的条件。 因此,例如df2的ID为101,在df1中有3行ID为101的行,在“计数”列中的总和为4。我想根据df2行的ID将那4拉入一行。 如果这没有道歉,我们很乐意澄清!感谢您的所有帮助。 一种
  • 根据其他行中的重复项创建新列

    我想添加一列以指示在数据帧的2行中是否观察到2个重复项。让我举个例子。这是示例数据。 df id date n var 01-05 12-04-1985 1 sleep 02-06 11-04-2000 10 epoch 01-05 12-04-1985 1 epoch 12-10 01-08-2010 4 sleep 请注意,第1行和第3行的ID和日期相同。我想在具有ID和日期的行匹配的实例的新列(var)中创建一个具有“ sleep /...
  • IndexError:列表索引超出range_

    从视频中提取帧后,我将帧保存在一个文件夹中,然后尝试将帧数据保存在csv文件中,但出现此索引错误。 我不知道是什么问题 for i in tqdm(range(train.shape[0])): count = 0 videoFile = train['video_name'][i] cap = cv2.VideoCapture('UCF-101/'+videoFile.split(' ')[0].split('/')[1]) # capturing th...
  • 在Pandas DataFrame中添加“计数”列

    我有两个数据框,我将它们分别称为frame1和frame2。 frame1是较小的框架,并具有一个id列,其中每个单个id都是唯一的。 frame2较大,并且具有完全相同的id列,但是许多id是重复的。但是,frame2中唯一ID的数量与frame1中的行数相同... aka,frame2中的每个id都存在于frame1中。 我想做的是在frame1中添加一个“ counts”列,其中包含与frame2中的每个ID相关联的唯一度量标准类别的数量。 这是框架的外观: enter image descripti...
  • 从两个现有数据框架创建一个新的数据框架

    我是熊猫新秀,我在stackoverflow中回顾了类似的问题,但这似乎很独特。 我正在寻找一个将A和B进行比较的函数,如果B中的任何列的值均大于0,则DataFrame B将用于创建DataFrameC。 目标是为DataFrame C提供与DataFrame A相同的大小,只是具有相同标签的列的DataFrame B的值。 Have: A = pd.DataFrame({"X1": [0], "Y1": [0], "X2": [0], "Y2": [0], "X3": [0], "Y3": [0], ...
  • 在R中的一组列中遍历数据框的行

    我有一个包含6个字段A,B,C,D,E和F的数据框df。我的要求是创建一个新列G,该列等于上一个值(C)+上一个值(D)+上一个(E) -F。但这需要在组级别通过A和B列(按A和B分组)实现。如果它是组中的第一行,则G列中的值应等于E。 样本Df- A B C D E F 1 2 100 200 300 0 1 2 110 210 310 10 1 2 120 130 300 10 1 1 140 150 80 0 1 1 50 60 80 ...
  • Groupby给出keyerror

    I have a dataframe, df, defined as: Empty DataFrame Columns: [] Index: [timestamp, device_type, os] 我正在尝试通过时间戳和设备类型进行分组,并对它执行.agg,例如: df.groupby(['timestamp', 'device_type']).agg({'sessions_sum': 'sum'}) 这给了我一个KeyError: ** KeyError: KeyError('timestamp',...
  • 转置PySpark数据框

    如何转置以下PySpark数据帧? 以下是pyspark数据框。 +----+------+-----+-----+-----+-----+-----+-----+-----+-----+-----+----------------+--------+------+ |srab|srsbtp|avgm1|avgm2|avgm3|avgm4|avgm4|avgm6|avgm7|avgm8|avgm9| avgm10| avgm11|avgm12| +----+------+-----+--...
公告

《从零开始开发BBS》课程上线啦,快来跟着我一步步搭建属于你的BBS吧。

课程地址:https://www.shiyanlou.com/courses/1436
9折优惠邀请码: ZHwfIjb1

该课程会带领大家一步步的了解并熟悉Go语言开发,如果你是一个Go语言初学者,或者正准备学习Go语言,那么这个课程非常适合你。如果你熟练掌握了本课程中的知识点,相信你就已经入门Go语言开发,并能胜任日常的开发工作了。