1、join():
用于將序列中的元素使用指定字符合并字符串
如:
str1 = "a"
str2 = ("1", "2", "3") # 字符串序列
print(str1.join(str2))
結果為1a2a3a
2、apply():
基于DataFrame
將函數(shù)用到各行或列對應的一維數(shù)組上。默認為列,可以嵌套lambda函數(shù)
3、for循環(huán):
數(shù)組既循環(huán)索引,又循環(huán)值
for key,value in enumerate(data):
4、remove:
列表中刪除某個元素:
a = ['1','2','3']
a.remove('1');
5、根據(jù)同一屬性合并兩個pandas讀入的csv:
import pandas as pd
pd.merge(a,b,on=['id'],copy=False)
on為按照某一列合并,copy為是否合并不同項
6、根據(jù)所有屬性拼接兩個pandas讀入的csv
import pandas as pd
pd.concat([a,b],ignore_index=True)
axis=1參數(shù)可以加上為橫向拼接
join='inner'參數(shù)為取交集 outer為并集
7、線性回歸:
from sklearn import linear_model #表示,可以調(diào)用sklearn中的linear_model模塊進行線性回歸。
model = linear_model.LinearRegression()
model.fit(X, y)
display(model.intercept_) #截距
display(model.coef_) #線性模型的系數(shù)
a = model.predict(test)
8、numpy.ndarray轉換pandas.dataframe
使用DataFrame()
反向轉換使用.as_matrix()或者.values
9、Logistic回歸
model = LogisticRegression()
model.fit(x_train, y_train)
# 返回預測標簽
print(model.predict(x_test))
# 返回預測屬于某標簽的概率
print(model.predict_proba(x_test))
10、列表
list.append(object) 向列表中添加一個對象object
list.extend(sequence) 把一個序列seq的內(nèi)容添加到列表中
list.index(value) 查找value的位置
11、稀疏矩陣和矩陣互轉(csr_matrix轉ndarray):
(1)稀疏矩陣調(diào)用todense()或直接.A就能直接返回矩陣。
(2)矩陣使用sparse.csr_matrix()括號里放矩陣名,生成稀疏矩陣
12、numpy更改格式
使用.astype(float)
如:
valid_Y2 = valid_Y.values.astype(float)
13、pandas.dataframe中取列名
result = pd.read_csv('total_write2.csv')
print(result.columns)
取幾列生成新的dataframe
dic_data = {'id':result['id'],'title':result['title_result'],}
result2 = pd.DataFrame(dic_data)