【Hackathon 7th】Fundable project 5. 前沿文档多模态大模型飞桨复现 #833

MqLeet · 2024-11-25T06:08:57Z

GOT-OCR2.0 是由 StepFun 和中国科学院大学推出的专用于通用 OCR 任务的多模态大模型，参数量 0.6B，采用 vision encoder+input embedding layer+decoder 的 pipeline。我们需要跟进与丰富PaddleMIX中的跨模态文图模型，从模型、训练、推理等方面完善。

任务描述	详细内容	完成情况
GOT-OCR2.0基础模型复现,主要包含其依赖的相关基础组件	BlipImageEvalProcessor	done
	ImageEncoderViT	done
	GOTQwenModel	done
	GOTQwenForCausalLM	done
GOT-OCR2.0 推理 pipeline 构建	got_ocr2_0_infer	done
提供相关的 paddle 模型权重	model.safetensors	done
支持并对齐 GOT-OCR2.0 的 post-training 训练	待定	---

MqLeet · 2024-11-25T06:10:31Z

PaddlePaddle/Paddle#68245

tracking issue for 赛题5 前沿文档多模态大模型飞桨复现

paddle-bot bot assigned lyuwenyu Nov 25, 2024

luotao1 mentioned this issue Nov 25, 2024

【Hackathon 7th】Fundable Projects PaddlePaddle/Paddle#68245

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【Hackathon 7th】Fundable project 5. 前沿文档多模态大模型飞桨复现 #833

【Hackathon 7th】Fundable project 5. 前沿文档多模态大模型飞桨复现 #833

MqLeet commented Nov 25, 2024

MqLeet commented Nov 25, 2024

【Hackathon 7th】Fundable project 5. 前沿文档多模态大模型飞桨复现 #833

【Hackathon 7th】Fundable project 5. 前沿文档多模态大模型飞桨复现 #833

Comments

MqLeet commented Nov 25, 2024

MqLeet commented Nov 25, 2024