numpy

数据科学的比赛，不了解numpy和pandas的话，简直是寸步难行。之前虽然有用过numpy和pandas的一些方法，但都没有系统学习过，所以还是决定要系统的过一遍。所以简单看了一下莫烦的教程。numpy库主要可以分成几个部分：属性、创建、运算、索引以及操作（合并与分割）。

1.属性

我们都知道，在数据科学中，我们主要的对象就是数据，那为了方便数据的管理与运输，我们又通常将他们转换为矩阵的形式，numpy操作的对象大部分就是矩阵。那作为矩阵一般都有什么属性，就很容易理解了。

1.ndim：维度，维度就是描述数据特征的特征数量，例如一系列的目标在二维空间中，怎么描述这些目标呢？当然需要行和列来描述了。这里维度就是2（行和列）。

2.shape：行数和列数

3.size：元素的个数

4.dtype:元素的类型

array = np.array([[1,2,3],[2,3,4]])  #列表转化为矩阵
print(array)
"""
array([[1, 2, 3],
       [2, 3, 4]])
"""
print('number of dim:',array.ndim)  # 维度
# number of dim: 2

print('shape :',array.shape)    # 行数和列数
# shape : (2, 3)

print('size:',array.size)   # 元素个数
# size: 6

a = np.array([2,23,4],dtype=np.int)
print(a.dtype)
# int 64

2.创建

前面说到numpy主要操作的对象是矩阵，那我们在敲代码的时候肯定不能直接写：

1	a = np.矩阵（（1，1））

哈哈哈，这里有个关键字嘛，就是array。在

a = np.array([2,23,4])  # list 1d
print(a)
# [2 23 4]

# 这里可以指定矩阵中元素的类型
a = np.array([2,23,4],dtype=np.int)
print(a.dtype)
# int 64

当然这是最普通的，还有一些简便的生成特殊矩阵的方法。

# 全零数组
a = np.zeros((3,4)) # 数据全为0，3行4列
"""
array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])
"""
# 全一数组
a = np.ones((3,4),dtype = np.int)   # 数据为1，3行4列
"""
array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])
"""
# 全空数组（每个值实际上都是接近零的数
a = np.empty((3,4)) # 数据为empty，3行4列
"""
array([[  0.00000000e+000,   4.94065646e-324,   9.88131292e-324,
          1.48219694e-323],
       [  1.97626258e-323,   2.47032823e-323,   2.96439388e-323,
          3.45845952e-323],
       [  3.95252517e-323,   4.44659081e-323,   4.94065646e-323,
          5.43472210e-323]])
"""

# 连续数组
a = np.arange(10,20,2) # 10-19 的数据，2步长
"""
array([10, 12, 14, 16, 18])
"""

#线段型数据(没错就是lin space？？嗯？)
a = np.linspace(1,10,20)    # 开始端1，结束端10，且分割成20个数据，生成线段
"""
array([  1.        ,   1.47368421,   1.94736842,   2.42105263,
         2.89473684,   3.36842105,   3.84210526,   4.31578947,
         4.78947368,   5.26315789,   5.73684211,   6.21052632,
         6.68421053,   7.15789474,   7.63157895,   8.10526316,
         8.57894737,   9.05263158,   9.52631579,  10.        ])
"""

3.运算

运算有分成对矩阵单个元素进行运算的，也有对某一个维度进行运算的，也有对整个矩阵进行运算的。

1
2
3

import numpy as np
a=np.array([10,20,30,40])   # array([10, 20, 30, 40])
b=np.arange(4)              # array([0, 1, 2, 3])

1.单个元素：

c=a-b  # array([10, 19, 28, 37])
c=a+b   # array([10, 21, 32, 43])
c=a*b   # array([  0,  20,  60, 120])
c=b**2  # array([0, 1, 4, 9])
# 逻辑判断，这个也挺经常用到
print(b<3)  
# array([ True,  True,  True, False], dtype=bool)

2.某一个维度：(axis指定维度)

print("a =",a)
# a = [[ 0.23651224  0.41900661  0.84869417  0.46456022]
# [ 0.60771087  0.9043845   0.36603285  0.55746074]]

print("sum =",np.sum(a,axis=1))
# sum = [ 1.96877324  2.43558896]

print("min =",np.min(a,axis=0))
# min = [ 0.23651224  0.41900661  0.36603285  0.46456022]

print("max =",np.max(a,axis=1))
# max = [ 0.84869417  0.9043845 ]

3.整个矩阵

# 矩阵乘积（一般的运算方法都有两种形式，不一一列举了）
c_dot = np.dot(a,b)
# array([[2, 4],
#       [2, 3]])
c_dot_2 = a.dot(b)
# array([[2, 4],
#       [2, 3]])


# 所有元素相加，取最值
np.sum(a)   # 4.4043622002745959
np.min(a)   # 0.23651223533671784
np.max(a)   # 0.90438450240606416
np.argmin(a) # 返回最小值的索引
np.argmax(a) # 返回最大值的索引


# 取平均
print(np.mean(A))        # 7.5
print(np.average(A))     # 7.5


# 累差运算，计算的是每一行中后一项和前一项的差，故一个3行4列矩阵通过函数计算得到的矩阵便是3行3列的矩阵。
print(np.diff(A))   


# nonzero是将所有非零元素的行与列坐标分割开，重构成两个分别关于行和列的矩阵。
print(np.nonzero(A))    
# (array([0,0,0,0,1,1,1,1,2,2,2,2]),array([0,1,2,3,0,1,2,3,0,1,2,3]))


# 排序
A = np.arange(14,2, -1).reshape((3,4)) 

# array([[14, 13, 12, 11],
#       [10,  9,  8,  7],
#       [ 6,  5,  4,  3]])

print(np.sort(A))    

# array([[11,12,13,14]
#        [ 7, 8, 9,10]
#        [ 3, 4, 5, 6]])


# 矩阵的转置
print(np.transpose(A))    
print(A.T)

# array([[14,10, 6]
#        [13, 9, 5]
#        [12, 8, 4]
#        [11, 7, 3]])
# array([[14,10, 6]
#        [13, 9, 5]
#        [12, 8, 4]
#        [11, 7, 3]])


# 修建函数，将要被执行用的矩阵，而后面的最小值最大值则用于让函数判断矩阵中元素是否有比最小值小的或者比最大值大的元素，并将这些指定的元素转换为最小值或者最大值。
print(A)
# array([[14,13,12,11]
#        [10, 9, 8, 7]
#        [ 6, 5, 4, 3]])

print(np.clip(A,5,9))    
# array([[ 9, 9, 9, 9]
#        [ 9, 9, 8, 7]
#        [ 6, 5, 5, 5]])

4.索引

和python的list索引比较像，就不展开了，说一下迭代输出吧。

import numpy as np
A = np.arange(3,15).reshape((3,4))
         
print(A.flatten())   
# array([3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

for item in A.flat:
    print(item)
    
# 3
# 4
……
# 14
flat 返回的是迭代器，而flatten返回的是一个数列

5.操作

合并

1.np.vstack()

import numpy as np
A = np.array([1,1,1])
B = np.array([2,2,2])
         
print(np.vstack((A,B)))    # vertical stack
"""
[[1,1,1]
 [2,2,2]]
"""

2.np.hstack()

D = np.hstack((A,B))       # horizontal stack

print(D)
# [1,1,1,2,2,2]

print(A.shape,D.shape)
# (3,) (6,)

3.np.newaxis(),添加一个新的维度，可以用于维度对齐或者是将序列转换成矩阵,这里也可以用reshape来实现序列转换到矩阵。

print(A[np.newaxis,:])
# [[1 1 1]]

print(A[np.newaxis,:].shape)
or print(A.reshape((1,-1)).shape)
# (1,3)

print(A[:,np.newaxis])
"""
[[1]
[1]
[1]]
"""

print(A[:,np.newaxis].shape)
or print(A.reshape((-1,1)).shape)
# (3,1)

4.np.concatenate(),是前面两个函数的复合版

C = np.concatenate((A,B,B,A),axis=0)

print(C)
"""
array([[1],
       [1],
       [1],
       [2],
       [2],
       [2],
       [2],
       [2],
       [2],
       [1],
       [1],
       [1]])
"""

D = np.concatenate((A,B,B,A),axis=1)

print(D)
"""
array([[1, 2, 2, 1],
       [1, 2, 2, 1],
       [1, 2, 2, 1]])
"""

分割

1.等量分割

A = np.arange(12).reshape((3, 4))
print(A)
"""
array([[ 0,  1,  2,  3],
    [ 4,  5,  6,  7],
    [ 8,  9, 10, 11]])
"""

print(np.split(A, 2, axis=1))
"""
[array([[0, 1],
        [4, 5],
        [8, 9]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11]])]
"""

print(np.split(A, 3, axis=0))

# [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]

2.不等量分割

print(np.array_split(A, 3, axis=1))
"""
[array([[0, 1],
        [4, 5],
        [8, 9]]), array([[ 2],
        [ 6],
        [10]]), array([[ 3],
        [ 7],
        [11]])]
"""

3.其他分割方法

print(np.vsplit(A, 3)) #等于 print(np.split(A, 3, axis=0))

# [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]


print(np.hsplit(A, 2)) #等于 print(np.split(A, 2, axis=1))
"""
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11]])]
"""