商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。
其拥有30亿参数,是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。凭借在多模态多任务处理能力方面多项突破,“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。
当今快速增长的各式应用需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。
利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务
利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务
除解决自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。
除全图级别的以图生文,“书生2.5”通用大模型同样可根据物体边框更精细化定位任务需求。
“书生2.5”同时具备AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如,借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。
例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。
“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效率的多任务协作能力。在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型。值得一提的是,谷歌与微软均未公开模型及额外数据集。除高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,取得了65.4的mAP。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。
“书生2.5”在20余个不同场景不同任务的单模态和跨模态公开数据集中都取得了最佳成绩
当前,“书生”还在持续学习、不断进步,致力于推动多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。 通过上图可知ChatGPT的未来题材发散路径还有机器人和无人驾驶等领域没被市场挖掘,随着GPT4功能日渐强大,那么周末很有可能扩散到机器人和无人驾驶题材,因为未来人工智能的终极模型就是通用人工智能!我这里海慧寺强烈看好奥比中光的预期差!
相信随着GPT4充分被市场挖掘,一定会扩散到服务机器人以及自动驾驶领域!
芯片方面:奥比中光目前已研发出 MX 系列 3 款深度引擎芯片,同时 2019-2021 年期间投入研 发的芯片包括高分辨率结构光专用感光芯片、MX6600、iToF 感光芯片、AIoT 数字算力芯片、dToF 感光芯片等。算法方面:公司目前已量产结构光深度引擎算法、iToF 深度引擎算法、双目深度引擎 算法,算法均实现了芯片 IP 化,同时也布局了骨架跟踪、图像分割、三维重建、机 器人 SLAM 等算法。激光雷达:自研面阵 SPAD 探测器和可寻址 VCSEL 器件全固态激光雷达以及 SPAD 感 光芯片等核心部件。
奥比中光的3D视觉感知技术在自动驾驶领域中的应用主要包括以下方面:
- 3D视觉感知技术:奥比中光的3D视觉感知技术是其核心技术之一,它可以通过3D传感器获取车辆周围的环境信息,包括道路、车辆、行人等,从而实现车辆的自主驾驶。
- 智能驾驶辅助系统:奥比中光在智能驾驶领域的业务还包括智能驾驶辅助系统,例如车主身份识别、车内交互等功能,这些功能可以提升驾驶的安全性和舒适性。
- 自动驾驶软件:奥比中光不仅提供3D视觉感知技术,还提供自动驾驶软件,固态激光雷达等例如自动泊车、自动跟车等功能,这些功能可以实现车辆的自主驾驶。
奥比中光是一家在自动驾驶领域有相关技术和业务布局的公司,它的核心技术之一是3D视觉感知技术,可以应用于自动驾驶、智能驾驶辅助系统等方面。同时,奥比中光在自动驾驶领域也得到了市场的认可和合作伙伴的支持
奥比中光的技术包括3D结构光、iToF、双目、dToF、Lidar、工业三维测量等。奥比中光的ASIC芯片能够实现高精度3D深度信息获取,助力服务机器人实现感知、避障、导航等功能。这些技术已经应用于服务机器人、工业机器人以及扫地机器人
奥比中光与地平线合作推出了适用于服务机器人、扫地机器人的3D视觉应用解决方案。基于公司在3D视觉领域的全栈式技术能力与地平线机器人开发平台(Horizon Hobot Platform),双方进一步深化合作,通过将公司自研的高性能双目结构光相机Dabai Pro、小型化3D面阵iToF等技术与地平线机器人开发平台相结合,共同为服务机器人、扫地机器人等提供更全面、更智能的3D视觉解决方案
此文为最后一篇关于奥比中光的逻辑,静待市场慢慢挖掘!