在人工智能框架生态峰会2023上,中国科学院自动化研究所联合武汉人工智能研究院正式发布“紫东太初”全模态大模型。
“紫东太初”全模态大模型是在千亿参数多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力,面向数字经济时代加速通用人工智能的实现。
会上首次对外实时展示了大模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等方面的全新功能,并邀请现场观众与大模型即时互动。“紫东太初”全模态认知大模型不仅可以透过《月光曲》畅谈贝多芬的故事,也可以在三维场景里实现精准定位,还能够通过图像与声音的结合完成场景分析,在现场获得了热烈反响。
中科院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥在接受采访时表示,目前建立了多模态人工智能产业联合体,专门基于国产化的全栈基础软硬件打造图、文、音多模态的大模型,并基于“紫东太初”打造了一系列的工具,形成了大模型开放服务平台。
“多模态产业联合体有70多家单位,其中20多家在用我们的大模型服务平台。大模型的定位相当于拥有世界知识的底座模型,我们希望能够在各个行业,通过产业联合体和专家数据在智慧汽车、智能医疗、智能制造、数字政务这四个领域开展应用示范。”
王金桥表示,在武汉人工智能计算中心所搭建的大模型服务平台,迄今用户数量有40多家,企业可通过大模型和行业场景深度的结合,生产和优化自己的模型,实现低代码的开发,让大模型更高效地利用。
“主要应用场景包括法律案件分析、交通的调度治理、政务数字人等。另外在医疗领域进行手术导航、辅助医生进行罕见病判断。在汽车领域,与东风岚图、长安欧尚汽车等一系列智能汽车公司,合作内容包括软件自动的代码编写、测试,为智能座舱打造千人千面的数字人等。”
“紫东太初”大模型的多模态探索仍在持续深入。针对新需求与新趋势,“紫东太初”2.0在语音、图像和文本之外,加入了视频、传感信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入;突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术,能融合多个任务的认知增强多模态关联技术等,大模型多模态认知能力大幅提升。
“紫东太初”2.0可以理解三维场景、传感信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。从1.0到2.0,“紫东太初”大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知世界,从而延伸出更加强大的通用能力。
打造全栈国产化通用人工智能底座
“紫东太初”2.0以自动化所自研算法为核心,以国产化基础软硬件平台昇腾AI为基础,依托武汉人工智能计算中心算力支持,着力打造全栈国产化通用人工智能底座。长期以来,强大的算力支撑是约束我国人工智能发展的瓶颈之一,以“紫东太初”大模型为领头雁开展的创新实践将有力推动国产基础软硬件与大模型技术的适配,协同构建我国通用人工智能自主可控发展生态。
全模态赋能,产业应用前景广阔
目前,“紫东太初”大模型已展现出广阔的产业应用前景,在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列引领性、示范性应用。
自动化所以“紫东太初”大模型为基础,持续探索与类脑智能、博弈智能等技术路径的相互融合,最终实现可自主进化的通用人工智能。并将探索在更多领域发挥赋能价值,为促进我国数字经济快速发展贡献力量。
武汉市教育局最新名单公示
通讯员:张隽玮