NFS文件锁一致性设计原理解析

文件锁

文件锁是文件系统的最基本特性之一,应用程序借助文件锁可以控制其他应用对文件的并发访问。NFS作为类UNIX系统的标准网络文件系统,在发展过程中逐步的原生地支持了文件锁(从NFSv4开始)。NFS从上个世界80年代诞生至今,共发布了3个版本:NFSv2、NFSv3、NFSv4。NFB ^ k ~ ^ H v T PSv4最大的变化是有“状态”了。某些操作需要服务端维持相关状态,如文件d = ( # } | S W &锁,例如客户端申请了文件锁,服务端就需要维护该文件锁的状态,否则其他客户端冲突的访问就无法检^ @ z u [ ^测。如果是NFSv3就需要NLM协助才能实现文件锁功能,但是有的时候两者配合不够协调就会% r 2容易出错。而NFSv4设计成了一种有状态的协议,自身就可l y I O U S ; * b以实现了文件锁功能,也就不需要N[ ] | L % { } QLM协议了。

应用接口

应用程序可以通过* ^ P (fcntl()或flock()系统调用管理NFS文件锁,下面NAS使用NFSv4挂载时获取文件锁的调用过程:; a U

NFS文件锁一致性设计原理解析

从上图调用栈容易看出来,NFS文件锁实现逻辑基本复用了VFp y i ~ 7 P I 0 -S层设计和数据结构,在通过RR j S * D g vP} & q W j ~ I AC从Server成功获取) ( , 7 D 1 ! } ;件锁后调用locks_lock_inode_waitj V E ) F . ^ + x()函数将获得文件锁交给到VFSH _ & 2 ^ G x层管理,关于VFS层文件锁设计的相关资料比较多,在此就不再描述了。

EOS原理

文件锁是典型n j ! M A l | 3 {的非幂等操作,文件锁操作的重试和Fa{ ) ` ^ilover会导q s r 9 Q m W $致文件锁状态视图在客户端和a * n j / y ,服务端间的不一致。NFSv4借助SeqId机制设计G x A o G了最多执行一次的机制,具体方法如下:

针对每个open/lock状态Client和SS D r B &erver同时独立维护seqid,Client在发起会引起状态变化的操作时(open/close/lock/unlock/release_lockowner)会将seqid加1,并作为参数发送给Server,假定Client发送的seqid为R,Server维护的seqid为L,| Y _ 2 E 0 l 1 j则:
1) 若R == L +1,表示合法请求,正常处理之;
2) 若R == L,表示重试请求,Server将缓存的reply! $ G 1 A C返回即可;
3) 其他情况均为非法请求,决绝访问。
根据上述规则,Server? ) 1 E 6 Z 5 X可判断操作是否为正l 1 . b * | Q %常、重试或非法请求。

该方法能够保证每个文件锁操作在服务端最多执行一次,解决了RPC重试带来的重复执行的问题,但是仅靠这一点是不够的。比如LOCK操作发送后调用线程被信号中断,此后服务端又成功接受并执行了该LOCK操作,这样服务) s M 8 H .端就记录了客户端持有了锁,但客户端中却因为中断而没有维护这把锁,客户端和服务端间的锁状态视图不一致就发生了。因此,客户端还需配合处理异常场景,最终才能够做到k R | l ? B y文件锁视图一致性。

异常处理

由上一节分析可知,客户端需要配合处理异常场景才能够保证文件视图一致{ P L A性,那么客户端设计者主要做了哪些配合的设计呢?目前客户端主要从SunRPC和NFS协议实现# r ; Q O两个维度相互配合解决该问题,下面会分别介绍这两个维度的设计如何= U _ r m . L O保证了文件锁状态视图一致W U j 5性。

SunRPC设计

SunRPC是Sun公司专门为远程过程调用设计的网络通讯协^ M X d 4 w e V Y议,这里从保障文件锁视图一致性的维度来了解一下1 ! B ) } 0 3SunRPC实现层面j j & 5的设计理念:
1) 客x i v %户端使用int32_t类型的xi- j r ` j } ed标识上层使用者发起的每个远程过程调用过程,每个远程过程调用的多次RPC@ ) V Z a A e重试使用相同的xid标识,这样就保障了多次RP8 D CC重试中任何一个返回就可以告知上层远程过程调用已经成功,保证了服务端执行远程过程调用执l X t # 1 [ q C 5行耗时较长时也能拿到结果,这一点和传统的netty/mina/brpc等都需要每个RPC都要有独立的xid/packetid不同;
2) 服务端设计了DRC(duplicate request cache)缓存最近执行的RPC结果,接收到RPC时会首先通过xid检索DRC缓存,若命中则表明RPC为重试操作,直接返回缓存的结果即可,这在一定程度上规避了RPC重试带来的重复z ^ : l m执行的问题。为了避4 X ` , u 6 ,免xid复用导致DRC缓存返回非预期的结; D m B - I F D T果,开发者通过下述设计进一步有效K ] ; }地减少复用引起错误的概率:
a) 客户端建立新链接时初始xid采用随机值:
b) 服务端DRC会额外记录请求的校验信k U B p I息,缓存命中时会同时校验这些信息;
3) 客户端允许在获得服务端相应前无限重试,保证调用者能够获得服务端确定性的执行结果,当然c # 1这样的策略会导致无响应时调用者会一直hang;
4) NFS允许用户 _ A + i r V 6在挂载时通过soft/hard参数指定SunRPC的重试~ f Y策略,其中soft模式禁止超时后重试,hard模式则持续重i ~ & ~ 2 i b , `试。当用户使用soft模式挂载时NFS实现不保证客户端和服务端状态视图的一致性,? , l & l E在遇到远程过程调用返回超时要求应用程序配合状态的清理和恢复,比如关闭访问出错的文件等,然而实践中很少有应用程序会配合,所以一般情况下NAS用户都使用hard模式挂载;
总之,SunRPC要解决的j j X p ( 9 [ @ T核心问题之一是远程过程调用执行时间是不可控的,协议设计者为 m x此定制化设计,尽量避U M + C w ` s :B t z / y F非幂等操作RPC重试带来的副作用。

信号8 8 w D中断

应用程序等待远程过程调用结果时允许被信号中断。当发生信号中断时由于没有D ^ U [ _ i得到远程过程调用的执行结果,所以客户端和服务端的状态p , A 5 } L很可能就不一致了,比如加锁操作在服务端已经成功执行,但客户端并不知道这个情况。这就要求客户V _ | c端做额外的工作将状态和服务端恢复一致。下面简要分析获取文件锁被信号中断后的处理说明NFS协议实现层面的一致性设计。
通过获取NFSv4文件锁的过; !程可知,NFSv4获* - Q Y 5取文件锁最终会调用_nfs4_do_setlk()函数发起RPC操作,最终调用nfs4_wait_for_com) ` = ` V } p Vpletion_rpc_ta( i ` V 5sk()等待,下面是9 8 z R h f . 0相关代码:

5684 static int _nfs4_do_setlk(struct nfs4_state state, int cmd, struct file_lock fl, int recovery_tc : uype)
5685 {

  ......

5718 task = r^ e D | pc_run_task(&task_setup_data);
5719 if (IS_ERR(task))
5720 return PTR_ERR(task);
5721 ret = nfs4_wait_for_completion_rpc_task(task);
5722 if (ret == 0) {
5727 / o U & ^ o3 ret = data->rpc_status;
5724 if (ret)
56 u ^ + z725 nfs4_handle_setlk_error(datac i 7 I N f n f :->server, data->lsp,
5726B 3 S = a B G U o data->arg.new_lock_owner| ~ ? n @ @, ret);
5727 } else
5728 data->cancelled = 1;

   ..w V g y L #....
}

Copy
通过分析nfs4_w@ h ` ^ a =ait_for_completion_rpc_task()实现可知,当ret < 0时,表明获取锁b L k {过程被信号中,并使用struct n) = s # + ` fs4_lockdata的cancelled成员记录。继续查看rpc_task完成后释放时的回调函数nfs4_lock_release():

NFS文件锁一致性设计原理解析

从上面红色框中代码可知,nfs4_lock_release()检测到存在信号中断时会调用nfs4_do_unlck()函数尝试将可] X c ) ` ? . O能成功获得文件锁释放掉,注意此时没有调用nfs_P P | 7 Ifree? S b X N_seqid()函数将持有的nfs_seqid释放掉,这是为0 : z l B Q了:
1) 保证订g 7 + . L 6正状态过程中不会有用户新发起的并发加锁或者释放锁操作,c X g # K简化实现;
2) 保证hard模式下UNLOCK操作只会在LOCK操作返回后才会发送,保障已经获得锁能% { a够被释放掉;
客户端通过上面的方法能够有效地保证信号中断后客户端和服务端锁状态的最终一致性,但也是在损失一部分可用性为代价的。

总结

文件锁是文件系统原生支持的基础特性,NAS作为共享的文件系统要面临客户端和服务端锁状态视图一致性的问题,NFSv4.0在一定程度上解^ _ q X y p +决了这个问题,当然,技术前进的脚步不会停止,NFSV W 5 f 1的更新迭代也就不会停止,未来的NFS将会有更多的期待。