广目多闻–基于多模态大模型的文旅游览助手 | OPENAIGC开发者大赛企业组优秀作品
添加书签在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事
无论您是技术专家还是爱好者,希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能,见证科技与创意的完美融合!
创未来AI应用赛-企业组优秀作品
作品名称:广目多闻–基于多模态大模型的文旅游览助手
参赛团队:上海墀圣信息技术有限公司天山长歌
作品简介
本项目是一款基于多模态大模型,为用户提供AI导游服务的应用方案。本方案可以根据用户提供的博物馆展品照片、基于预先标出的值得关注的部分,为用户提供导游和问答互动,让游客便捷地获取相关知识、典故、轶事,增加游览兴趣,尤其是可作为研学用户的高效助手,在上线后继续拓展海外市场。
项目设计
本项目提出了一款可根据用户拍摄的博物馆文物与展品照片,使用户可以和多模态模型互动,获取导览内容,达到导游的目的。功能主要有:
用户侧:
用户拍摄展品照片后,在交互界面上传,获得展品上的”重点区域“标识
导览内容包括:
博物馆在后台编辑的内容介绍
网络上关于该展品及区域的介绍
专业资料和书籍对该展品及区域的介绍
“重点区域”也可以通过用户的推荐而生成。用户点击生成遮罩,提交导览内容和简介,经审核和用户匿名投票后,达到标准的展示为新的”值得关注的区域“。通过交互满足社交性、趣味性、娱乐性,增加用户参与度和使用粘性。
管理侧:
博物馆管理方在后台可新增、编辑、删除所属的展品、”重点区域“信息,保证专业性和严肃性。
核心技术和创新点
主要使用如下多模态技术:
Segment Anything进行遮罩选取与分割
ImageBind+Lora进行图像编码和文本标题简介的拉齐
基于Qwen-14B的RAG系统,结合文本标题简介,提供经审核的、严肃的学术性介绍和用户互动功能
在RAG系统上的Agent,搜集更多其它信息用户互动
技术成果和突破
对齐了多模态编码、图像识别、大模型文本生成内容的功能;
将多模态不仅作为大模型的黑盒子使用,而且拆分出来满足用户的个性化需求;
使用openvino,加速文本生成,使用户体验更好。
未来发展
本项目后面会拓展到自然景观的应用,面向外部条件更复杂的户外景观,在光照、恶劣天气等情况下实现落地。
另一方面迭代多模态大模型的版本和量化方式,使生成的速度和性能不断提升