w2v_lr.py

﻿from sklearn.linear_model import LogisticRegressionCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_auc_score,roc_curve
from sklearn.utils import shuffle
from sklearn.externals import joblib
from matplotlib import pyplot
import pickle

HISTORY_FROM='04-01'
HISTORY_TO='04-10'

train_data_path='wp_'+HISTORY_FROM+'_'+HISTORY_TO+'.pkl'

with open(train_data_path,'rb') as f:
    data=pickle.load(f)

print('Number of Actual Users: ',len(data))

train_data=[]
train_label=[]
test_data=[]
test_label=[]
# history value is just a summation, not an average
for pair in data:
    hist=pair[0]
    neg_samples=pair[1]
    hist_sum=[0]*100
    for i in range(len(hist)-2):
        hist_sum=[sum(x) for x in zip(hist_sum,hist[i])]
        train_data.append(hist_sum+hist[i+1])
        train_label.append(1)
        train_data.append(hist_sum+neg_samples[i+1])
        train_label.append(0)
    hist_sum=[sum(x) for x in zip(hist_sum,hist[-2])]
    test_data.append(hist_sum+hist[-1])
    test_label.append(1)
    test_data.append(hist_sum+neg_samples[-1])
    test_label.append(0)

assert len(train_data)==len(train_label)
assert len(test_data)==len(test_label)

print('train data length: ',len(train_data))

# need scaling for use of Stochastic Average Gradient descent solver ( much faster )
scaler=StandardScaler()
scaler.fit(train_data)

joblib.dump(scaler,'scaler.pkl')

X=scaler.transform(train_data)
X_test=scaler.transform(test_data)
lr=LogisticRegressionCV(penalty='l2',n_jobs=-1,solver='sag')
lr.fit(X,train_label)

joblib.dump(lr,'wplr.pkl')

score=lr.score(X_test,test_label)

print(score)

print('probability for a few results: \n')
print(lr.predict_proba(test_data[:10]))
print('original class of above data: \n')
print(test_label[:10])

predicted_probs=lr.predict_proba(X_test)[:,1]

fpr,tpr,threshold=roc_curve(test_label,predicted_probs,pos_label=1)

pyplot.plot(fpr,tpr)
pyplot.xlabel('False positive rate')
pyplot.ylabel('True positive rate')
pyplot.title('ROC curve')
pyplot.legend(loc='best')

auc_score=roc_auc_score(test_label,predicted_probs)

print('auc score: {:.4f}'.format(auc_score))

pyplot.show()