0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

C语言常见错误:数组越界及其避免方法

Q4MP_gh_c472c21 来源:嵌入式ARM 作者:嵌入式ARM 2020-12-06 09:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

所谓的数组越界,简单地讲就是指数组下标变量的取值超过了初始定义时的大小,导致对数组元素的访问出现在数组的范围之外,这类错误也是 C 语言程序中最常见的错误之一。

在 C 语言中,数组必须是静态的。换而言之,数组的大小必须在程序运行前就确定下来。由于 C 语言并不具有类似 Java 等语言中现有的静态分析工具的功能,可以对程序中数组下标取值范围进行严格检查,一旦发现数组上溢或下溢,都会因抛出异常而终止程序。也就是说,C 语言并不检验数组边界,数组的两端都有可能越界,从而使其他变量的数据甚至程序代码被破坏。

因此,数组下标的取值范围只能预先推断一个值来确定数组的维数,而检验数组的边界是程序员的职责。

一般情况下,数组的越界错误主要包括两种:数组下标取值越界与指向数组的指针的指向范围越界。

数组下标取值越界

数组下标取值越界主要是指访问数组的时候,下标的取值不在已定义好的数组的取值范围内,而访问的是无法获取的内存地址。例如,对于数组int a[3],它的下标取值范围是[0,2](即a[0]、a[1] 与 a[2])。如果我们的取值不在这个范围内(如 a[3]),就会发生越界错误。示例代码如下所示:

很显然,在上面的示例程序中,访问 a[3] 是非法的,将会发生越界错误。因此,我们应该将上面的代码修改成如下形式:

指向数组的指针的指向范围越界

指向数组的指针的指向范围越界是指定义数组时会返回一个指向第一个变量的头指针,对这个指针进行加减运算可以向前或向后移动这个指针,进而访问数组中所有的变量。但在移动指针时,如果不注意移动的次数和位置,会使指针指向数组以外的位置,导致数组发生越界错误。下面的示例代码就是移动指针时没有考虑到移动的次数和数组的范围,从而使程序访问了数组以外的存储单元。

在上面的示例代码中,for 循环会使指针 p 向后移动 10 次,并且每次向指针指向的单元赋值。但是,这里数组 a 的下标取值范围是[0,4](即a[0]、a[1]、a[2]、a[3] 与 a[4])。因此,后 5 次的操作会对未知的内存区域赋值,而这种向内存未知区域赋值的操作会使系统发生错误。正确的操作应该是指针移动的次数与数组中的变量个数相同,如下面的代码所示:

为了加深大家对数组越界的了解,下面通过一段完整的数组越界示例来演示编程中数组越界将会导致哪些问题。

上面的示例代码模拟了一个密码验证的例子,它将用户输入的密码与宏定义中的密码123456进行比较。很显然,本示例中最大的设计漏洞就在于 Test() 函数中的strcpy(buffer,str)调用。

由于程序将用户输入的字符串原封不动地复制到 Test() 函数的数组char buffer[7]中。因此,当用户的输入大于 7 个字符的缓冲区尺寸时,就会发生数组越界错误,这也就是大家所谓的缓冲区溢出Buffer overflow漏洞。

但是要注意,如果这个时候我们根据缓冲区溢出发生的具体情况填充缓冲区,不但可以避免程序崩溃,还会影响到程序的执行流程,甚至会让程序去执行缓冲区里的代码。示例运行结果为:

在示例代码中,flag 变量实际上是一个标志变量,其值将决定着程序是进入密码错误的流程(非 0)还是“密码正确”的流程(0)。当我们输入错误的字符串1234567或者aaaaaaa,程序也都会输出“密码正确”。但在输入0123456的时候,程序却输出“密码错误”,这究竟是为什么呢?

其实,原因很简单。当调用 Test() 函数时,系统将会给它分配一片连续的内存空间,而变量char buffer[7]与int flag将会紧挨着进行存储,用户输入的字符串将会被复制进 buffer[7] 中。如果这个时候,我们输入的字符串数量超过 6 个(注意,有字符串截断符也算一个),那么超出的部分将破坏掉与它紧邻着的 flag 变量的内容。

当输入的密码不是宏定义的123456时,字符串比较将返回 1 或 -1。我们都知道,内存中的数据按照 4 字节(DWORD)逆序存储,所以当 flag 为 1 时,在内存中存储的是0x01000000。如果我们输入包含 7 个字符的错误密码,如aaaaaaa,那么字符串截断符 0x00 将写入 flag 变量,这样溢出数组的一个字节 0x00 将恰好把逆序存放的 flag 变量改为0x00000000。在函数返回后,一旦 main 函数的 flag 为 0,就会输出“密码正确”。这样,我们就用错误的密码得到了正确密码的运行效果。

而对于0123456,因为在进行字符串的大小比较时,它小于123456,flag的值是 -1,在内存中将按照补码存放负数,所以实际存储的不是0x01000000而是0xffffffff。那么字符串截断后符 0x00 淹没后,变成0x00ffffff,还是非 0,所以没有进入正确分支。

其实,本示例只是用一个字节淹没了邻接变量,导致程序进入密码正确的处理流程,使设计的验证功能失效。

尽量显式地指定数组的边界

在 C 语言中,为了提高运行效率,给程序员更大的空间,为指针操作带来更多的方便,C 语言内部本身不检查数组下标表达式的取值是否在合法范围内,也不检查指向数组元素的指针是不是移出了数组的合法区域。因此,在编程中使用数组时就必须格外谨慎,在对数组进行读写操作时都应当进行相应的检查,以免对数组的操作超过数组的边界,从而发生缓冲区溢出漏洞。

除此之外,在 C99 标准中,还允许我们使用单个指示符为数组的两段“分配”空间,如下面的代码所示:

在上面的a[MAX]数组中,如果 MAX 大于 10,数组中间将用 0 值元素进行填充(填充的个数为MAX-10,并从 a[5] 开始进行 0 值填充);如果 MAX 小于 10,[MAX-5]之前的 5 个元素(1,2,3,4,5)中将有几个被[MAX-5]之后的 5 个元素(6,7,8,9,10)所覆盖,示例代码如下所示:

运行结果为:

对数组做越界检查,确保索引值位于合法的范围之内

要避免数组越界,除了上面所阐述的显式指定数组的边界之外,还可以在数组使用之前进行越界检查,检查数组的界限和字符串(也以数组的方式存放)的结束,以保证数组索引值位于合法的范围之内。例如,在写处理数组的函数时,一般应该有一个范围参数;在处理字符串时总检查是否遇到空字符‘’。

来看下面一段代码示例:

从上面的int*TestArray(int num,int value)函数中不难看出,其中存在着一个很明显的问题,那就是无法保证 num 参数是否越界(即当num>=ARRAY_NUM的情况)。因此,应该对 num 参数进行越界检查,示例代码如下所示:

这样通过if(num

但是,如果仔细检查,TestArray() 函数仍然还存在一个致命的问题,那就是没有检查数组的下界。由于这里的 num 参数类型是 int 类型,因此可能为负数。如果 num 参数所传递的值为负数,将导致在 arr 所引用的内存边界之外进行写入。

当然,你可以通过向if(num

但是,这样的函数形式对调用者来说是不友好的(由于 int 类型的原因,对调用者来说仍然可以传递负数,至于在函数中怎么处理那是另外一件事情),因此,最佳的解决方案是将 num 参数声明为 size_t 类型,从根本上防止它传递负数,示例代码如下所示:

获取数组的长度时不要对指针应用 sizeof 操作符

在 C 语言中,sizeof 这个其貌不扬的家伙经常会让无数程序员叫苦连连。同时,它也是各大公司争相选用的面试必备题目。简单地讲,sizeof 是一个单目操作符,不是函数。其作用就是返回一个操作数所占的内存字节数。其中,操作数可以是一个表达式或括在括号内的类型名,操作数的存储大小由操作数的类型来决定。例如,对于数组int a[5],可以使用sizeof(a)来获取数组的长度,使用sizeof(a[0])来获取数组元素的长度。

但需要注意的是,sizeof 操作符不能用于函数类型、不完全类型(指具有未知存储大小的数据类型,如未知存储大小的数组类型、未知内容的结构或联合类型、void 类型等)与位字段。例如,以下都是不正确形式:

了解 sizeof 操作符之后,现在来看下面的示例代码:

从表面看,上面代码的输出结果应该是0,1,2,3,4,5,6,7,8,9,但实际结果却出乎我们的意料,如图 1 所示。

图 1 示例代码在 VC++2010 中的运行结果

是什么原因导致这个结果呢?

很显然,上面的示例代码在void Init(int arr[])函数中接收了一个int arr[]类型的形参,并且在main函数中向它传递一个a[10]实参。同时,在 Init() 函数中通过sizeof(arr)/sizeof(arr[0])来确定这个数组元素的数量和初始化值。

在这里出现了一个很大问题:由于 arr 参数是一个形参,它是一个指针类型,其结果是sizeof(arr)=sizeof(int*)。在 IA-32 中,sizeof(arr)/sizeof(arr[0])的结果为 1。因此,最后的结果如图 1 所示。

对于上面的示例代码,我们可以通过传入数组的长度的方式来解决这个问题,示例代码如下:

除此之外,我们还可以通过指针的方式来解决上面的问题,示例代码如下所示:

现在,Init() 函数中的 arr 参数是一个指向arr[10]类型的指针。需要特别注意的是,这里绝对不能够使用void Init(int(*arr)[])来声明函数,而是必须指明要传入的数组的大小,否则sizeof(*arr)无法计算。但是在这种情况下,再通过 sizeof 来计算数组大小已经没有意义了,因为此时数组大小已经指定为 10 了。

责任编辑:xj

原文标题:数组越界及其避免方法,C语言数组越界详解

文章出处:【微信公众号:嵌入式ARM】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • C语言
    +关注

    关注

    183

    文章

    7646

    浏览量

    146169
  • 数组
    +关注

    关注

    1

    文章

    420

    浏览量

    27468

原文标题:数组越界及其避免方法,C语言数组越界详解

文章出处:【微信号:gh_c472c2199c88,微信公众号:嵌入式微处理器】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    烧录芯片总失败?五大常见错误与解决方法

    产线常见 Verify Error 校验错误,多非芯片本身问题,而是五大典型因素导致:烧录座接触不良、电源供电不稳、信号与时序异常、加密保护误触、静电与温度影响。按物理连接、电气环境、软件配置逐级排查,规范耗材更换与产线防护,可显著提升烧录良率与稳定性。
    的头像 发表于 02-24 15:37 1355次阅读

    容易造成单片机内存溢出的几个陷阱介绍

    关于程序变量和内存分配,都是需要我们时刻关注的问题。我相信有不少人在这块犯过很多的错误,也可能说明我们基础不够扎实,编写程序的习惯也不够好。 总结一下关于程序的变量和内存方面的概念,虽然是属于C语言
    发表于 01-23 07:25

    C编译器错误与解决方法

    C语言keil编译器提示错误的解决方法,可以帮你解决程序编译中的烦恼!! C编译器错误与解决
    发表于 01-22 08:03

    keil中c语言的动态分配内存

    进行判断,所以他可能是空指针(当malloc动态内存开辟失败时),这时就会产生对空指针解引用而产生错误。 (2)对动态开辟的空间越界访问。这一点即使是存放在栈区的数组中也非常常见,不做
    发表于 01-21 06:04

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家的工作习惯。需避免的机器学习和深度学习数据错误在训练数据驱动的人工智能模型时,我们会遇到一些常见错误和局
    的头像 发表于 01-07 15:37 351次阅读
    机器学习和深度学习中需<b class='flag-5'>避免</b>的 7 个<b class='flag-5'>常见</b><b class='flag-5'>错误</b>与局限性

    芯片编程器使用指南:如何避免芯片烧录过程中的常见错误

    芯片烧录失败多源于细节疏漏,使用编程器需规避常见错误。首要确保芯片与编程器适配,核查封装、电压协议并验证芯片 ID;重视环境与连接,做好静电防护、保障电源稳定及触点清洁;规范文件流程,严格版本核对
    的头像 发表于 12-30 10:59 638次阅读

    C语言C++之间的区别是什么

    ,尤其是在涉及到类型转换时,会尽量防止隐式的、可能导致问题的类型转换。 相比之下,C语言允许更多的灵活性,但也更容易产生类型相关的运行时错误,因为其类型检查不如C++严格。 3、函数
    发表于 12-11 06:23

    C语言中除数为0属于什么错误

    0 的错误,以及援引数组元素时下标溢出等。 静态错误又可以分为语法错误和静态语义错误。语法错误
    发表于 12-08 06:38

    C语言的编程技巧

    1、宏定义使用do{...}while(0)‌:当宏定义中包含多条语句时,使用do{...}while(0)可以避免语句嵌套问题,确保宏的独立性。‌ ‌2、灵活数组成员‌:C99标准允许结构体的最后
    发表于 11-27 06:46

    C语言常见算法

    # C语言常见算法 C语言中常用的算法可以分为以下几大类: ## 1. 排序算法 ### 冒泡排序 (Bubble Sort) ```
    发表于 11-24 08:29

    位操作的常见错误与应对策略

    (一)误操作其他位的防范 在进行位操作时,一个常见错误就是误操作其他位,这可能导致系统出现意想不到的行为。为了避免这种错误,使用位掩码是一种非常有效的
    发表于 11-24 07:50

    知晓常见的铜缆安装错误避免

    铜缆(如网线、电话线等)是网络和数据传输的基础设施,但在安装过程中,由于操作不当或忽视细节,常出现各种错误,导致网络性能下降甚至故障。以下是常见的铜缆安装错误及预防措施,帮助您避免踩坑
    的头像 发表于 09-16 10:42 1295次阅读

    电商API常见错误排查指南:避免集成陷阱

      在电商平台开发中,API集成是连接系统、实现数据交换的核心环节。然而,许多开发者在集成过程中常遇到错误,导致项目延迟、数据丢失或用户体验下降。本文将逐步介绍常见错误类型、排查方法
    的头像 发表于 07-11 14:21 2299次阅读
    电商API<b class='flag-5'>常见</b><b class='flag-5'>错误</b>排查指南:<b class='flag-5'>避免</b>集成陷阱

    高温电阻率测试中的5个常见错误及规避方法

    测试结果出现偏差。下面为你详细剖析高温电阻率测试中的 5 个常见错误,并提供有效的规避方法。​ 一、样品制备不当​ 常见错误​ 样品的形状、
    的头像 发表于 06-09 13:07 1045次阅读
    高温电阻率测试中的5个<b class='flag-5'>常见</b><b class='flag-5'>错误</b>及规避<b class='flag-5'>方法</b>

    深入理解C语言C语言循环控制

    C语言编程中,循环结构是至关重要的,它可以让程序重复执行特定的代码块,从而提高编程效率。然而,为了避免程序进入无限循环,C语言提供了多种循
    的头像 发表于 04-29 18:49 2226次阅读
    深入理解<b class='flag-5'>C</b><b class='flag-5'>语言</b>:<b class='flag-5'>C</b><b class='flag-5'>语言</b>循环控制