最近在项目中遇到了一个问题,FlinkSQL作业运行几天后自动退出,可规律复现,错误信息如下:
org.apache.hadoop.ipc.Client[] - Exception encountered while connecting to the server : org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.token.SecretManager$InvalidToken): Invalid AMRMToken from appattempt_1628650090030_0117_000001
问题主要原因:AM和RM沟通的过程中,突然AM提供的Token不被认可,导致拒绝连接,进而AM被kill,为Yarn 2.6版本的BUG:https://issues.apache.org/jira/browse/YARN-3103
但是由此也产生了相应的疑惑,Yarn的bug为啥到导致Flink作业运行失败呢?