华为发布盘古大模型3.0:多种模型集合体 已落地行业
2023-07-07 23:06:36 经济观察报


(相关资料图)

经济观察网 记者 沈怡然 7月7日,继百度、阿里、腾讯、科大讯飞等科技企业之后,华为首次公布了自研的AI大模型盘古3.0。

该成果是在今日举办的2023华为开发者大会上公布的,主要研发方是华为云。根据华为常务董事、华为云CEO张平安介绍,不同于ChatGPT等通用人工智能大模型,盘古大模型是一个面向垂直行业的大模型系列,已经迭代到3.0版本。

技术上看,盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。已经初步运用在政务、煤矿、铁路、气象、金融领域。

张平安介绍了几个应用案例,例如在金融领域,盘古金融大模型可以对银行的各种操作、政策、案例文档进行预训练,能根据客户的问题,为柜台工作人员自动生成流程和操作指导,将原来需要平均5次的操作降低为1次,办结时间缩短5分钟以上。

例如盘古铁路大模型能精准识别现网运行的67种货车、430多种故障,无故障图片筛除率高达95%,成为货运列检员身边有力的数字助手,将列检员从每日数百万张的“图海”检测中解放出来。

目前,中国在AIGC研发上仍然处于起步阶段,文心一言、讯飞星火、通义千问、商汤“商量”等通用大模型应用先后面世,相比之下,围绕生物医药、金融、工业等垂直行业大模型的研发进度稍慢,因为后者在专业数据收集、场景适配、定制化等方面难度更高。

和其他行业大模型有所不同,盘古3.0是个采用分层解耦设计的大模型系列集。据张平安介绍,华为云在底层准备了五个基础大模型,包括自然语言、视觉、多模态、预测、科学计算,满足行业场景中的多种技能需求。

在五个基础大模型之上,华为云开发了N个行业大模型,张平安表示,既可以提供使用行业公开数据训练的行业通用大模型,包括政务、金融、制造、矿山、气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的基础层上,为客户训练自己的专有大模型。

在此之上,华为云开发了更多细化场景的模型,包括政务热线、网店助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景。

以系列的形式推出大模型,意味着更高的基础算力要求。张平安表示,华为云上线了单集群2000P Flops算力的昇腾AI云服务,落地在乌兰察布和贵安。此外,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长,代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。

相关新闻: