Google 在 2023 年 7 月为甫在同年 3 月开放的互动式大型语言模型 Bard 升级支援包括中文语系在内 40 种以上的语言,使台湾的使用者亦可体验 Google 这项创新的 AI 服务与应用;台湾 Google 请到参与 Bard 开发的Google DeepMind 的杰出科学家纪怀新博士针对 Bard 进行解密,自 Bard 的来由到展望进行说明,同时也解释 Bard 的基本原则与 Google 当前赋予他的任务。
Bard 是 Google AI First 旅程中的重要一环,也是 Google 深耕大型语言模型十年来的最新应用
▲ Google 的 AI 技术早已深入服务,不过多是为单一应用目的开发
▲纪博士与其团队自 2013 年以来为 Google 产品带来超过 720 项改进
目前市场上大型语言模型的热潮是由 ChatGPT 引起,也使得外界认为较晚发表的 Bard 是 Google 急就章的成果,不过事实真是如此?纪怀新博士表示, Bard 是 Google 宣布 AI First 战略以来长达 10 年的成果之一,若要追溯 Google 的 AI 应用,早已落地到各种 Google 的服务与产品,从 Google Brain 计画,到消费者随手可及的智慧镜头、地图的 AR 导航、 Workspace 的增强应用到 Pixel 手机的即时翻译、魔术橡皮擦等,都是与 AI 密不可分的一部分,纪博士的团队自 2013 年至今已经在 Google 推动超过 720 项结合 AI 的技术与服务,也包括如 YouTube 推荐系统、 App Store 的搜寻与推荐至无人自驾车 Waymo 与 Android Auto 。
▲ Google 赋予大型语言的目的可说是搜寻服务的延伸
然而 Bard 是一项与早先 AI 概念截然不同的新形态服务,不同於 Bard 之前 Google 的 AI 应用属於针对单一项目的服务, Bard 则是汇整多元应用、跨语言的互动式 AI 服务;以往的 AI 应用由於仅针对特定服务,故能够以较小的 AI 模型实现,而 Bard 则是活用称为大型语言模型的技术,使其能广泛的自语言翻译、语意识别、资料蒐集、资料汇整以及转化为具互动性的一种搜寻类型延伸服务。
▲ Google 自 2014 年就开始针对大型语言模型等Bard 的基础理论与技术钻研
不过 Bard 也非 Google 在遇到 ChatGPT 後才匆忙推出的服务, Google 在 2014 年前就由内部科学家发表大型语言模型的理论,在 2015 年所公布的 A Neural Conversation Model 则成为当前 Bard 推出时的 LaMDA 语言模型的概念基础, 2017 年发表的论文则揭开AI 发展相当重要的 Transformer 技术,以AI 预训练技术加速 AI 技术发展,在 2021年 Google IO 大会则首次向外界展示 LaMDA 大型语言模型,後续於 2022 年提供 AI 的参考指引微调,从 Bard 的前世到今生,实际上已累计近 10 年的发展历程。
▲大型语言模型使 AI 模型自独立任务迈向多工化,也使得参数较单一任务模型更为庞大
Bard 的突破与难处即是其功能不再是单一特定领域的 AI 技术,而是具备多元功能的多工模型:在使用者透过自然语言赋予Bard 命令後, Bard 先需理解语句的意思,而後再从 Google 庞大的资料库找出具有价值且具参考性(注:然而无法确保 100% 正确)的内容後,再将答案转化为自然的语言并予润饰,其中牵涉的工作类型错综复杂,故势必需要以大型语言模型 LLM 作为基础。
▲ LaMDA 的参数高达 1,370 亿个,也是作为 Bard 背後重要的大型语言模型
Bard 初期所使用的 LLM 为 Google 利用 TPU 训练的 LaMDA ,LaMDA 具备 1,370 亿个参数,远大於一般用於翻译与语言理解的模型,并针对包括合理性、具体性、趣味性、安全性、真实性、工具整合与多点跳跃问答进行微调,使 Bard 不仅可理解自然语言,也能以自然语言的方式进行互动式问答,同时Bard 已在 2023 年 5 月转移到功能更强大 PaLM 2 模型。
Bard 受惠预训练模型与微调技术得以透过单一模型理解多种语言
▲ Bard 能够理解多种语言并自 Google 的资料库找寻具引用来源的资讯
Bard 在2023年公布作为 Google AI 旅程的一部分後,在同年 3 月先提供英语系国家服务,旋即在 7月宣布一口气支援包括繁体中文在内高达 40 种以上的语言与多项功能更新,已进展而言相当迅速;至於 Bard 是如何在短时间从单一语言到理解达 40 种语言,关键即是 Transformer 技术、亦即结合预训练模型後的微调程序(注:以笔者个人的认知应是属於迁徙式学习/转移学习)。
▲传统的对话式 AI 追求提供精确且绝对的答案,每个对话不具连贯性
▲ Bard 的目的是希望追求精确与互动性
纪怀新博士表示, Bard 等现代大型语言模型将以三步骤进行发展,先完成作为基础能力的预训练模型,而後针对特定任务、语言进行的微调,最终再透过能够能唤醒关键能力的提示/提问实现服务;作为 Google Bard 理解多元语言的关键,就是处於第二阶段的微调。
▲ Bard 在短短半年内由单一语言扩大到支援 40 多种语言,功能也越来越广泛
简单解释即是透过迁徙式学习技术, Google 先培育出一个具备高性能、高精准度的基础模型,而後再导入不同语言的资讯进行针对不同语言的学习项目,最终使 Bard 能透过单一语言模型同时理解混合语言; Bard 与翻译最大的不同不仅止於提供参考资料,同时还进一步提供引述的来源,同时针对特定的俚语也能进行理解与转化,使利用 Bard 翻译内容与整理资料时,相较 Google Translate 能够反映原始想传达的意义。
▲ LLM 大型语言模型的主流运作方式
此外,目前与 Bard 互动时,除了提供语言模型判断的最佳解答以外, Bard 还会额外提供两种不同的回答,使用者可从这三项草稿进行参考,同时使用者选择的回答也会持续影响 Bard 的发展方向。
对话式 AI 与大型语言模型仍於发展初期、许多挑战仍待厘清与解决
虽然目前对话式 AI 与大型语言模型有着飞跃性的成长,不过纪怀新博士强调目前仍处在技术的萌芽期,除了许多牵涉到道德、隐私的挑战以外,也有许多定义上的未解问题,也希望目前使用 Bard 的使用者能够理解 Google 在 Bard 服务冠上「 Beta 」象徵的意义。
▲目前大型语言模型认定的五大发展限制
纪怀新博士指出,当前大型语言的限制来自五大面向,第一是容易产生幻觉的错误回答的精确性问题,其次是由於引述资料与学习素材产生的偏差性,以及特定资料来自同一着作人产生的人格化,还有对於特定问题不回答或提供不适合回应的伪阳/伪阴回答,以及防范部分使用者刻意挑战模型的恶意提示攻击。这也是基於搜寻服务的 Bard 当前所遇到的问题,故 Bard 当前的回应都会强调引述来源,使操作者能从来源进一步查证真伪。
Google 目前还无法担保问题能瞬间迎刃而解,然而 Google 在以大胆而负责人的前提下持续进行发展, Bard 与 Google 所有的服务将以七大方针善尽责任,其一是对社会有益,免制造与加强不公平偏见,第三是建立并测试安全性,第四是对使用的人们负责,第五是纳入隐私设计原则,第六是坚持科学上卓越的最高标准,最後是依循主要目的与用途、通用与独特的是应用、规模、 Google 扮演的角色作为应用基准。
▲对於难以判断何谓正确的内容,以提供引述资料来源的方式呈现
纪怀新博士表示,虽然从科学的角度, Bard 答案的正确性相当重要,然而在广泛的问题当中,何谓正确答案已经属於哲学范畴, Google 团队只能从学术的角度以「引述」的方式提供可信度较高的回答。
▲ Google 对於 AI 的准则
此外, Google 开发团队也意识到大型语言模型的潜力,着手开发各式的应用与不同大小的模型,使大型语言模型也能在各式装置执行,不过这些都属於还在研究中的项目,但最终的目标是如何在模型缩小後仍能维持与标准语言模型同等的品质。