大规模预训练模型,人工智能技术新高地。
在这一AI前沿领域,由百度公司打造的文心大模型家族,成为千行百业AI开发的基座大模型,降低了AI产业应用门槛。
产业需要大模型,因为它能加速智能升级。在保险领域,文心大模型的智能解析能力,使文本处理效率提升30倍;在人力资源领域,文心大模型帮助候选人信息智能分类,模型识别准确率达99%;在医疗领域,文心大模型将每份病案的检查时间,从30分钟缩短到了秒级别……
“文心大模型来源于产业实践,同时服务于产业实践,是在实践中建设起来的大模型。”百度集团副总裁吴甜在采访中说,通过大模型与国产深度学习框架融合发展,百度打造了自主创新的AI底座,真正发挥大模型驱动AI规模化应用的产业价值。
图为百度集团副总裁吴甜
融合创新 力攻世界性技术难关
2019年,百度开始深耕预训练模型研发,并持续投入大模型的创新升级。2021年底,百度联合鹏城实验室发布全球首个知识增强千亿大模型——鹏城-百度·文心。
参数规模达2600亿,在60多项任务上取得更好效果,如此“硬核”的文心大模型,在应用上具备哪些优势?在业内人士看来,它通用性好、泛化性强,开发难度更小,标注数据可以更少,AI开发和应用门槛更低,更贴近真实场景应用需求。
真实世界中的数据是有规律可循的。以人的学习来类比,预训练大模型是解决AI模型的通识教育,得以更高效地从现实世界井喷式产生的数据中进行学习。
“我们设计多种任务,让模型可以在海量的数据当中进行自监督学习。”吴甜说,这种机制带来的最大好处,就是找到了一种有效的数据建模方法,把天然存在的大量数据利用起来,打破了原来一定要精标数据才能学习的瓶颈。
在这样一套机制之下,很多无标注数据都可以用来学习,而且模型学习的数据越来越大,模型也就相应越来越大,形成通用的基础模型。应用时,只要针对场景进行一些少量的数据标注,交给大模型再进行一次学习,可以得到适合自己场景的一个好的AI模型,大幅度降低了应用AI的门槛。
超大规模深度学习模型训练中,存在诸多难题。两年多来,文心在与飞桨深度学习平台融合发展过程中,攻克了不少技术难关。
大模型训练,一个主要挑战就是数据量非常大,模型也非常大。在算力有限情况下,要在给定的资源上,高效地存储、训练计算,还要保证模型最后是收敛的,保证模型可用。
据吴甜介绍,在解决如何在给定资源上进行存储训练方面,文心采用了飞桨发布的4D混合并行训练技术。“在鹏城-百度·文心大模型的项目里,我们训练过程中,使用60台服务器作为混合并行的一组单元机器训练,训练过程中可以采用多组机器做数据并行,进行并行能力扩展,加速训练进度。”
为解决大模型应用落地难题,为产业大规模应用打开新窗口,百度团队的大模型在线蒸馏技术,千亿模型参数压缩率可达99.98%,压缩版模型仅保留0.02%参数规模就能与原有模型效果相当。
此外,知识无时无刻不在产生,如何让知识和深度学习更好融合,百度仍在不断创新探索。
海量的数据中蕴含着丰富的知识,怎样使用无监督的方法自动提炼可用的知识?知识源源不断动态产生,怎样能够学了新知识不忘旧知识?百度知识图谱已经有高达5500亿的知识,面对如此大规模知识,怎样把已经结构化表示的知识和数据中的非结构化的隐式知识进行统一?面对上述世界性难题,文心大模型仍在做各种融合方法的创新。
落地应用 从产业实践中来到产业实践中去
文心定位于产业级知识增强大模型。“产业级”是其鲜明特征,可以说它来源于产业实践,服务于产业实践,在实践中建设、发展、壮大。
透过一组数据,可以折射文心驱动AI规模化落地应用的巨大价值。目前,文心大模型已支持数百家企业与机构,开发者数量超过6万,已在数百个场景中落地应用,产业应用数量居业界首位。文心开放调用量也超过5000万次。
在吴甜看来,文心产业级的定位有两重含义,一方面是模型产生的过程,与产业应用紧密相关;另一方面,使用模型的时候,搭配一系列面向产业应用的配套工具和平台。
具体来说,文心的数据来源是产业当中的数据,在做任务设计时,结合大量的产业应用,借助任务构建器不断提炼任务、挖掘任务,让模型持续进行学习。在服务于产业的时候,不是单单只有模型提供调用,还结合文心大模型特点,建设了一系列的工具和平台。用户可以非常方便、简单,甚至可以不写代码就可以使用。通过这样的方式,能够促使更广泛的场景、行业运用起来。
时至今日,中国的产业数字化水平仍有待提升,文心大模型的这种机制恰恰是解决方法之一。由于文心通过集中的建模形成了基础通用能力,使得行业企业不必从头开始做。
事实上,人工智能和产业结合,呈现出宽场景、长周期特点,获取场景数据有时非常困难。“当AI真正跟各行各业、各种企业场景结合的时候,难度其实是挺高的,而且结合的复杂度也很高。”吴甜认为,必须要有更好、更高效在场景上定义问题、获取场景小样本的工作,这项工作本身也存在一定门槛和复杂度。
而在文心全景图中,以金融和医疗为代表的两个行业场景模型,显示出文心在特定场景赋能行业转型的成效。
通过对海量医学文献、医学教科书、药典等引入给文心大模型学习,再通过进一步针对临床数据的持续学习,文心实现了每份病案秒级别完成智能扫描分析,而过去医生抽检一份病案通常耗费30多分钟时间。
基于文心,保险合同实现了智能解析。对于合同相关的30个规则,文心大模型能够高效、准确识别出来。以中国人寿为例,以前员工分析一份合同需要花费二三十分钟,现在只需不到1分钟就能完成对保险合同条款文本的解析识别。
吴甜表示,金融和医疗两个行业模型,就是百度在金融行业、医疗行业开展大量工作过程当中积累的实践。
降低门槛 让更多企业“站在巨人肩膀上”创新
只有具备很强的通用性,AI才能成为产业革命的通用力量。大模型的出现,大幅降低了AI应用门槛,让大多数企业能够“站在巨人肩膀上”,加速产业智能化升级。
今年1月,《“十四五”数字经济发展规划》发布,促进数字经济发展得到国家和各地政府部门高度重视。作为智能科技底层技术,大模型在推动数字经济发展中也贡献了力量。
AI芯片+AI框架+大模型,形成支撑数字经济发展的人工智能基础设施。基于百度飞桨平台与百舸集群,文心大模型在算法、框架、算力层面实现完全自主创新,百度通过大模型与国产深度学习框架融合发展,为中国产业智能化转型打造AI大底座。
据吴甜介绍,今年是文心大模型产业落地关键年。文心还会发布新技术和模型,包含模型能力提升,包括平台工具的能力提升。
文心大模型用AI为创意插上腾飞羽翼,尤其在AIGC(人工智能创造内容)领域已经开始大放异彩。
图为基于文心大模型生成的歌词和艺术画
元宇宙虚拟人生、AI版“反诈App”、续写一本小说……4月16日,2021百度认知AI创意赛“AI创意派”决赛上,这些案例都是参赛选手基于百度飞桨文心大模型开发创造的。在现场互动区,观众也可亲身体验到大模型在歌词生成、画作生成和对话机器人等应用,同时文创集市上也展现了基于大模型能力生成的T恤、马克杯、帆布袋、画册、明信片等创意周边。
一位参赛代表表示,百度飞桨开放了ERNIE 3.0知识增强大模型能力,不仅让我们体会到了大模型的真正实力,也让每一位对AI感兴趣的人都可以充分发挥创造力,去实现关于文字、语言的创意想法。
“这个世界上有技术背景的开发人员还是少数,AI跟场景结合巨大的空间,在于更为广泛的人群也把AI用起来。”吴甜认为,只有技术门槛低到所有人都可以用,创意才会真正大规模爆发。
据了解,目前文心大模型已通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信、媒体、教育等各行各业。
今天的大模型,以学习人类的经验、规律、知识为主;未来,AI也有可能学到一些人类还没有学到的一些经验或者知识。
谈到大模型下一步的发展趋势,吴甜认为,一方面大模型技术本身还有创新空间,百度也在不断研究怎样让这些模型有更强的能力表现。另一方面,大模型的实用性将是接下来重点关注的问题。百度并不是以迅速发布一个更大的模型为目标,而是做出一款模型之后,在落地应用中检验效果,并在使用的过程当中调整模型设计。
锻造AI利器,方可赋能产业创新。中国工程院院士高文曾把预训练模型比作“人工智能发展的福音”。作为深耕产业级的大模型,期待文心以技术创新、落地应用上的领先性为契机,让人工智能技术普惠到更多人、更多行业。