• 具有熊猫数据框,在条件后输出特定的列

    我有一个熊猫数据框,其中的第一列包含细菌(名称)的基因组。另一方面,我有一个字典,其中的键中包含未知的细菌名称,值中包含已知的细菌,而这些值都在我的数据框中。 我想创建一个新数据框,其中一列的名称未知,然后在第二列中的已知名称以及上一数据框的某些列。最好看例子。 我的df accession phylum class order genus 1 bacteriaA p__Firmicutes c__Bacilli...
  • 从自由文本输入中提取数字和总和数字,添加到df

    我有一个带有一栏的数据框,其中包含有关受教育年限的免费文本条目。我想从自由文本条目中提取所有数字并将它们相加。 示例:数据教育$ Txt [1]给出“ 6小学10高中” 使用以下代码,我可以提取两个数字并将它们相加。 library(stringr) x <- as.numeric(str_extract_all(data_en$education[1], "[0-9A]+")[[1]]) x <- as.vector(x) x <- sum(x) 但是,理想情况下,我希望对所有自由文本条目(即每一行)执...
  • 遍历Pandas Dataframe列并将其元素添加到Python Collections Counter对象

    我有N列整数对象值的pandas数据框。列中的值与特定随机实验的结果相关。例如,如果我要调用df.head(): 0 1 2 3 0 13 4 0 5 1 8 2 16 6 2 6 20 14 0 3 17 4 8 4 4 17 2 12 0 我感兴趣的是确定特定列中每个唯一值出现的次数。仅针对第0列,我不妨知道该实验观察到的值“ 17”的次数,在上面的框中,我们可以看到在第0列的前5个条目中发生了两次。 通过熊猫本身还是其他方式,...
  • 70 GB ALTO Xml文件解析

    我在将70 GB XML文件解析为CSV时遇到麻烦。 这就是XML的样子: <?xml version="1.0" encoding="utf-8"?> <File> <row Id="1" Name="tanu" Count="289949" /> <row Id="2" Name="daniel" Count="863524" /> <row Id="3" Name="ricky" Count="1909662"/> </File> 由于它是一个很大的文件,我无法一口气读取整个文件,因为它...
  • 根据另一列中的值删除数据框中的前2行

    我有一列带有股票报价器的df,下一列称为“快速添加”,它将填充为值“添加”或为空。 我想删除2个股票行情自动收录器,但只删除快速添加列=添加的地方。下面的代码将删除前2行,但我需要添加一个参数,该参数仅删除“快速添加”列=“添加”的前2行。有人可以帮忙吗 new_df = df_obj[2:]
  • 如何将api JSON输出转换为数据框?

    我正在使用SDK从NOAA API中提取天气数据。下面是示例代码: import requests, json import pandas as pd from pandas.io.json import json_normalize from noaa_sdk import noaa n = noaa.NOAA() n.points_forecast(40.7314, -73.8656, hourly=False) 示例输出如下: {'@context': ['https://raw.githubus...
  • 将数据框列从文本更改为pandas数据框中的数字

    使用熊猫,我在这里有一个数据框,描述了一些有关臭氧的数据 ozone_data = pd.read_csv('https://www.dropbox.com/s/0s9ui4h90j7xaxg/Dataset_ozone.csv?dl=1', sep=';') 在此数据集中,我有一列名为“ pluie”。它描述为“秒”或“ Pluie”。 我想将该列的值从字符串“ Sec”更改为数字2,并将字符串“ Pluie”更改为数字1 我不知道该怎么办,有人可以帮我吗?
  • 如何将数据帧简化为带有矢量的单行

    我有这个DF email date user_ipaddress other data 1 x@bla.com 2020-03-24 177.95.75.230 xxxx 2 x@bla.com 2020-04-02 177.139.49.93 yyyy 3 x@bla.com 2020-04-02 177.139.49.93 zzzz 我想将这些数据转换为将要存储的形状 整个问题将是一个包含不同电子邮件的...
  • 确定R中旅行的开始和结束

    我想确定从t1开始到t7结束的活动的持续时间。起点是t1,它记录了活动在t1_1,t1_2,t1_3等处的发生。例如,在ID为12的情况下,活动发生在t1_2和t1_3(我想保存),t2_2(因为我没有参与此活动之前和之后没有活动),t3_1(与t2_2相同),t3_3, t4_2,t5_2,t6_1,t6_2,t6_3和t7_3。我想从头到尾标识发生活动的所有ID,持续时间和最频繁的ID。 输入: id t1_1 t1_2 t1_3 t2_1 t2_2 t2_3 t3_1 t3_2 t3_3 t4_1 t...
  • 将旧数据集中的列添加到新数据集中

    我有以下数据集: df=pd.read_csv('/path/text.csv') that has columns A B C D (shown by using print(df.columns)) 我试图做的是使用该文件中的列创建新列,如下所示: for index, row in df.iterrows(): parsed=urlparse(row['B']) netloc.append(parsed.netloc) # E paths.append(parsed.path...
  • 通过解压缩列表将列添加到pandas DataFrame

    我需要将HTML文件列表读入pandas DataFrames。 每个HTML文件都有多个数据框(我使用pd.concat来组合它们)。 HTML文件名包含一个我想添加为列的字符串。 # Read all files into a list files = glob.glob('monthly_*.html') # Zip the dfs with the desired string segment zipped_dfs = [zip(pd.concat(pd.read_html(file)), ...
  • 需要Python中的法线方程式改进

    我是Python的新手,想为自己编写正常方程式。以下是代码,请提供有关编码的一些建议和反馈。谢谢! def norm_equ(x, y): x_input = pd.DataFrame(x) x_input = (x_input - x_input.mean())/x_input.std() x_0 = np.ones((len(x_input), 1)) x_new = np.hstack((x_0, x_input)) temp1 = np.linalg.pinv...
公告

欢迎访问 码农俱乐部  点击这里设置您的邮箱  可以接收站内跟帖、回复邮件提醒,不错过任何一条消息。

关注公众号订阅更多技术干货! 码农俱乐部