Adventures in Wonderland


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 公益404

常用操作小笔记

发表于 2018-08-15 | 分类于 analysis
  • 本文是将数据分析工作中一些常用的关于时间的技巧进行提炼总结,主要参考以下资料
    • 书籍:利用python进行数据分析
    • 网站:http://www.runoob.com/python/python-date-time.html

关于时间的一些定义

格式定义

  • 与系统环境无关
    • %Y 四位年
    • %y 两位年
    • %m 两位月
    • %d 两位日
    • %H 时(24小时制)
    • %I 时(12小时制)
    • %M 两位分
    • %S 两位秒
    • %w 用整数表示的星期几(0-6)
    • %U 每年的第几周,从0开始(周日为第一天)
    • %W 每年的第几周,从0开始(周一为第一天)
    • %F %Y-%m-%d的简写
    • %D %m/%d/%y的简写
      阅读全文 »

k_means聚类算法

发表于 2018-05-15 | 分类于 model

聚类算法是一种无监督的学习算法,通过对无标记训练样本的学习,将样本划分为若干不相交的样本簇,本文简单介绍聚类分析中常用的距离及最经典的聚类算法-k_means算法

聚类分析中常用的距离

欧氏距离_有序属性(连续属性)

  • 在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)
  • 2维空间,坐标(x1, y1)与坐标(x2, y2)的欧氏距离与自然长度
    • ρ=sqrt((x2-x1)²+(y2-y1)²);
    • |X|=sqrt(x2²+y2²)
  • 3维空间,坐标(x1, y1,z1)与坐标(x2, y2,z2)的欧氏距离与自然长度
    • ρ=sqrt((x2-x1)²+(y2-y1)²+(z2-z1)²);
    • |X|=sqrt(x2²+y2²+z2²)
  • n维空间
    • 两个点A=(a[1],a[2],…,a[n])和B=(b[1],b[2],…,b[n])的欧氏距离
    • ρ(A,B) =sqrt[ ∑( a[i] - b[i] )² ] (i = 1,2,…,n)
    • 向量 x=(x[1],x[2],…,x[n]) 的自然长度
    • |x| = sqrt(x[1]²+ x[2]²+ … + x[n]²)
      阅读全文 »

常用操作小笔记

发表于 2018-05-01 | 分类于 git

工作过程中,常用到的一些小操作,做个备份便于查询

服务与文件

  • 连接服务器: [ssh user_name]@[server_ip]
  • 在连接的服务器启动jupyter后再本地浏览器打开: jupyter notebook –ip=[server_ip] nohop ?
  • 传送文件: scp -pr [本地文件夹/文件] [目标存放地址]
  • 重启服务器: sudo reboot
  • 虚拟环境
    • 安装: pip3 install virtualenv
    • 新建: virtualenv -p /usr/bin/python3 [虚拟环境存放的目标位置]
    • 启动: source [目标位置/bin/activate] 
    • 退出: deactivate
    • 自己编写的函数包,可以放在虚拟环境下的lib/python环境中的site-packages中
    • 指定调用的包的路径:site-packages mylib.pth中编写
  • bashrc文件定义短句样例: alias jter=’jupyter notebook’
    阅读全文 »

评价分类模型好坏的重要指标ROC,PRC,KS

发表于 2017-12-12 | 分类于 model

前段时间整理了一篇关于随机森林和GBDT模型对比的文章,里面在建模的过程中,用到了很多评价模型的指标,所以此次将这些指标单独拿出来进行一下概括,主要包括ROC曲线和AUC值,PRC曲线和f1值,KS曲线和KS值 在将上述内容时,首先明确以下指标:

  • TP:正确肯定的数目
  • FN:漏报,没有正确找到的匹配的数目
  • FP:误报,给出的匹配是不正确的
  • TN:正确拒绝的非匹配对数
    阅读全文 »

借贷产品资产质量分析报告

发表于 2017-12-08 | 分类于 analysis
  • 本文主要是以分期产品为例,简单介绍一下,信贷产品的资产质量分析内容

总体趋势分析

客户维度

  • 申请授信额度的用户数(也可以看下被驳回的原因分布情况)
  • 通过授信申请的用户数
  • 成功借贷的用户数及转化率
  • 客群分析(客群维度较多,可选取主要的维度进行分析)

在计算转化率时,对应的时间应该以用户为追踪目标,不可直接用本月借贷人数/本月授信成功人数

阅读全文 »

随机森林与GBDT简单对比及代码样例

发表于 2017-09-23 | 分类于 model

本文简单对比了随机森林与GBDT模型的优缺点,并列举了两种模型的样例的模型效果

随机森林(Random Forest)

  • 随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,随机森林的每一棵决策树之间是没有关联的

优缺点

优点

  • 在数据集上表现良好
  • 方差和偏差都比较低,泛化性能优越
  • 在创建随机森林的时候,对generlization error使用的是无偏估计
  • 它能够处理很高维度(feature很多)的数据,并且不用做特征选择
  • 在训练完后,能够输出特征(feature)的重要性程度,非常实用
  • 高度并行化,易于分布式实现,训练速度快
  • 在训练过程中,能够检测到feature间的互相影响
  • 由于是树模型 ,不需要归一化即可之间使用,实现比较简单

缺点

  • 随机森林在某些噪音较大的分类或回归问题上会过拟合
  • 分裂的时候,偏向于选择取值较多的特征
  • 忽略属性之间的相关性
    阅读全文 »

数据分析中利用matplotlib画图

发表于 2017-05-19 | 分类于 analysis

本文主要介绍了几种在数据展示时,常用的画图的方法

ax画图常用的参数

fig,ax: 画板,用法:fig, ax = plt.subplots(figsize=(10, 5))

figsize: 表示图像大小的元组

sharex, sharey:x(y)轴共享,用法:sharex=True

title: 标题

legend: 添加图例,用法:ax.legend([‘kind1’,’kind2’])

阅读全文 »

利用pandas进行数据分析的常用小功能

发表于 2017-05-18 | 分类于 analysis

本文主要介绍了,利用pandas进行数据处理时,经常会用到的一些小技巧

与时间相关

1
2
3
import datetime as dt
from datetime import datetime
import time
阅读全文 »

报告邮件自动化发送

发表于 2017-05-17 | 分类于 email

确定要发送的内容

将table1,table2作为发送内容

1
2
3
4
5
from pandas import DataFrame
import pandas as pd
table1 = DataFrame({'A':[1,2,3,],'B':[2,3,4]})
table2 = DataFrame({'C':[1,3,3,],'D':[2,3,4]})
table1 table2
阅读全文 »

python与数据库的连接与使用

发表于 2017-05-10 | 分类于 database
1
2
import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

oracle与mysql数据库

定义好url

1
2
3
4
engine_url = {
'oracle': 'oracle://[user]:[password]@ip地址/SID或者SERVICE NAME',
'mysql':'mysql://[user]:[password]@ip地址:端口号/数据库名'
}

oracle连接

阅读全文 »
12
Icey

Icey

11 日志
6 分类
20 标签
© 2018 Icey
由 Hexo 强力驱动
主题 - NexT.Pisces