0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Numpy居然有这么多陷阱?

马哥Linux运维 来源:lq 2018-12-03 16:37 次阅读

陷阱一:数据结构混乱

array 和 matrix 都可以用来表示多维矩阵:

看起来效果不错。假设我们要对数据进行筛选,取第 1 列的第 1 行和第 3 行数据构成一个 2 x 1 的列向量。先看对 array 的做法:

从 Out[101] 可以看到一个陷阱,a[:, 0] 过滤完应该是一个 3 x 1 的列向量,可是它变成了行向量。其实也不是真正意义上的行向量,因为行向量 shape 应该是 3 x 1,可是他的 shape 是 (3,) ,这其实已经退化为一个数组了。所以,导致最后 In [110] 出错。只有像 In [111] 那样 reshape 一下才可以。我不知道大家晕了没有,我是已经快晕了。

相比之下,matrix 可以确保运算结果全部是二维的,结果相对好一点。为什么只是相对好一点呢?呆会儿我们再来吐吐 matrix 的槽点。

看起来还不错。不过槽点就来了。Out [114] 我们预期的输入结果应该是一个 2 x 1 的列向量,可是这里变成了 1 x 2 的行向量!

为什么我会在意行向量和列向量?在矩阵运算里,行向量和列向量是不同的。比如一个 m x 3 的矩阵可以和 3 x 1 的列向量叉乘,结果是 m x 1 的列向量。而如果一个 m x 3 的矩阵和 1 x 3 的行向量叉乘是会报错的。

陷阱二:数据处理能力不足,语言效率低

我们再看个例子。假设 X 是 5 x 2 的矩阵,Y 是 5 X 1 的 bool 矩阵,我们想用 Y 来过滤 X ,即取出 Y 值为 True 的项的索引,拿这些索引去 X 里找出对应的行,再组合成一个新矩阵。

我们预期 X 过滤完是 3 x 2 列的矩阵,但不幸的是从 Out[81] 来看 numpy 这样过滤完只会保留第一列的数据,且把它转化成了行向量,即变成了 1 x 3 的行向量。不知道你有没有抓狂的感觉。如果按照 In [85] 的写法,还会报错。如果要正确地过滤不同的列,需要写成 In [86] 和 In [87] 的形式。但是即使写成 In [86] 和 In [87] 的样式,还是一样把列向量转化成了行向量。所以,要实现这个目的,得复杂到按照 In [88] 那样才能达到目的。实际上,这个还达不到目的,因为那里面写了好多硬编码的数字,要处理通用的过滤情况,还需要写个函数来实现。而这个任务在 matlab/octave 里只需要写成 X(Y==1, :) 即可完美达成目的。

陷阱三:数值运算句法混乱

机器学习算法里,经常要做一些矩阵运算。有时候要做叉乘,有时候要做点乘。我们看一下 numpy 是如何满足这个需求的。

假设 x, y, theta 的值如下,我们要先让 x 和 y 点乘,再让结果与 theta 叉乘,最后的结果我们期望的是一个 5 x 1 的列向量。

直观地讲,我们应该会想这样做:(x 点乘 y) 叉乘 theta。但很不幸,当你输入 x * y 时妥妥地报错。那好吧,我们这样做总行了吧,x[:, 0] * y 这样两个列向量就可以点乘了吧,不幸的还是不行,因为 numpy 认为这是 matrix,所以执行的是矩阵相乘(叉乘),要做点乘,必须转为 array 。

所以,我们需要象 In [39] 那样一列列转为 array 和 y 执行点乘,然后再组合回 5 x 3 的矩阵。好不容易算出了 x 和 y 的点乘了,终于可以和 theta 叉乘了。

看起来结果还不错,但实际上这里面也是陷阱重重。

In [45] 会报错,因为在 array 里 * 运算符是点乘,而在 matrix 里 * 运算符是叉乘。如果要在 array 里算叉乘,需要用 dot 方法。看起来提供了灵活性,实际上增加了使用者的大脑负担。而我们的需求在 matlab/octave 里只需要写成 x .* y * theta ,直观优雅。

陷阱四:语法复杂,不自然

比如,我们要在一个 5 x 2 的矩阵的前面加一列全部是 1 的数据,变成一个 5 x 3 的矩阵,我们必须这样写:

有兴趣的人可以数数 In [18] 里有多少个括号,还别不服,括号写少了妥妥地报错。而这个需求在 matlab/octave 里面只需要写成[ones(5,1) x],瞬间脑袋不短路了,直观优雅又回来了。

结论

有人说 python 是机器学习和数据分析的新贵,但和专门的领域语言 matlab/octave 相比,用起来确实还是比较别扭的。当然有些槽点是因为语言本身的限制,比如 python 不支持自定义操作符,导致 numpy 的一些设计不够优雅和直观,但默认把列向量转化为行向量的做法只能说是 numpy 本身的设计问题了。这或许就是 Andrew Ng 在他的 Machine Learning 课程里用 matlab/octave ,而不用 python 或其他的语言的原因吧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87593
  • 矩阵
    +关注

    关注

    0

    文章

    406

    浏览量

    34247
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130553

原文标题:Numpy 隐含的四大陷阱,千万别掉进去了!

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    看了这么多论坛 还是这个论坛好啊...

    其他的论坛没有这么多人,没有这么快的更新.... 你们觉得呢?
    发表于 04-17 10:52

    电阻的作用居然有这么多

    更改;可以用于在最短回流路径断裂时提供较小的回流路径,减小干扰;可以有效的限制环路电流,使噪声得到抑制;可以作为温度补偿器……零欧姆电阻竟然这么有用,小伙伴们有木有惊呆了呢~~  电阻的作用
    发表于 10-16 00:14

    这是spi读华邦flash W24X16,我不明白这里这里怎么有这么多模式

    1 这是spi读华邦flash W24X16,我不明白这里这里怎么有这么多模式,只觉得有主从模式和全双工模式,不明白简单的双向数据线/主模式和全双工模式/主模式有什么区别?想请大家帮我讲解下这幅图配置里的这么多模式相互之间的区别?2 还想问SPIx_NSS选择硬件模式,主
    发表于 04-09 11:30

    AVR单片机,在ICCAVR里输入了几行程序,可是运行后有这么多错误,请问是什么原因呢?

    我是单片机的初学者,今天按照课本在ICCAVR里输入了几行程序,可是运行后有这么多错误,请问是什么原因呢?
    发表于 10-25 11:46

    为什么roll一上电就飘了这么多

    放在水平位置上校准之后pitch还是挺准的,roll一上电就飘了这么多,为什么??
    发表于 07-04 04:35

    为什么OLED初始化的时候要这么多命令?

    void OLED_Init(void)这个函数里面要写的命令好多啊,不知道为什么初始化的时候要这么多命令啊??求解具体在数据手册哪几页
    发表于 09-18 23:58

    什么是VBA?为什么这么多软件支持VBA?

    什么是VBA?什么是VBS?二者有什么不同?为什么这么多软件支持VBA?
    发表于 07-02 06:35

    STM32系统为什么要有时钟?为什么有这么多个时钟源

    STM32系统为什么要有时钟?为什么有这么多个时钟源?STM32系统时钟的框架是由哪些部分组成的?
    发表于 11-22 07:00

    为什么有这么多编程语言呢

    关注+星标公众号,不错过精彩内容编排|strongerHuang微信公众号 |嵌入式专栏有很多初学者都会问:我到底是该学C语言,还是学C++,或者JAVA呢?为什么有这么多编程语言呢...
    发表于 01-12 06:34

    RK3399居然有这么强的解码能力?

    的比较多,今天自己亲自动手测试下还是吓了一跳,没想到RK3399居然有这么强的解码能力?一、什么是MPP?Media Process Platform (MPP) module directory
    发表于 09-08 16:42

    RK3399居然有这么强的解码能力?

    的比较多,今天自己亲自动手测试下还是吓了一跳,没想到RK3399居然有这么强的解码能力?一、什么是MPP?Media Process Platform (MPP) module directory
    发表于 10-09 18:02

    安卓8.0最新消息:安卓8.0初体验,竟然这么流畅还有这么多黑科技功能

    安卓8.0初体验,竟然这么流畅还有这么多黑科技功能
    发表于 04-13 09:00 3571次阅读

    小垫圈,里面还有这么多名堂……

    小垫圈,里面还有这么多名堂……
    的头像 发表于 07-02 11:40 2374次阅读

    选AC-DC电源适配器还有这么多门道?看完才知道

    选AC-DC电源适配器还有这么多门道?看完才知道
    的头像 发表于 07-02 11:40 5568次阅读

    硬件电路设计有这么多坑,如何少走弯路?看大牛怎么说

    硬件电路设计有这么多坑,如何少走弯路?看大牛怎么说
    的头像 发表于 11-27 17:34 353次阅读