GE产品IC693ACC318
IC693ACC318采用CNN和Transformer的串联编码器来提取文档图像的视觉和语义特征。文档图像首先经过ResNet网络以获取1/4到1/32的四个不同尺度的特征图。随后采用一个标准的Transformer网络接收小尺度的特征图并加上1D位置编码向量,提取出包含全局上下文的语义特征。该特征被重新转化为2D形态后,与CNN的其余三个尺度特征图通过FPN[6]融合成4倍下采样的特征图,作为整图的多模态特征表示。
2.2 预训练策略
为了统一建模MLM和MIM两种模态预训练方式,论文提出了一种基于词粒度图像区域掩码预测方式来学习视觉和语言联合特征表达。首先,随机筛选30%的词粒度OCR预测结果(仅在预训练阶段使用),根据OCR的位置信息直接在原图对应位置像素进行掩码操作(比如填充0值)。接着,掩码后的文档图像直接送入编码器网络去获得整图的多模态特征表示。后,再次根据选中的OCR位置信息,采用ROIAlign[11]操作去获得每个掩码区域的多模态ROI特征。
IC693ACC318
FANUC A860-307-T211 LTD, Pulse Coder
MITSUBISHI DC SERVO AMPLIFIER TH 30A
ALLEN BRADLEY CNC OSAI 5250 RA BOARD
Maintenance Drawings Fanuc Sys 6MA 6TA 6M books
FANUC 10M CONTROL PANEL CRT WITH KEY PAD.
FANUC A16B-1211-0271 02A A16B12110271 02A AXIS CONTROL
FANUC A16B-1210-0590 A3 I/O BOARD
FANUC A16B-1211-0290 04A A16B12110290 04A ROM/RAM
FANUC A16B-1211-0850 04A A16B12110850 01 POWER SUPPLY
Fanuc DC Motor 00M A06B-0632-B102 A860-0303-T002