× 快速导航
新闻资讯
分类
CQ9电子AI 应用路线图:可控性是最强路标
发布日期:2023-06-12 21:20:56

  Stable Diffusion、ChatGPT 等生成式 AI 技术(Generative AI)在 2023 年上半年吸引了 IT 创投圈的最多注意力。当我们稍稍从波澜壮阔的新技术浪潮中回过神来,开始认真思考到底什么样的应用场景才是生成式 AI 的最佳落地方向时,很多人还是会发现,科技与市场之间的关系错综复杂,很难梳理出生成式 AI 落地的最佳路径:

  某投资人:这几个月来,一线风投机构全体动员,忙得昏天黑地,结果发现除了四五家头部大模型创业项目被大家追捧外,其他 AIGC 项目都看不清,不敢投,不知道未来 AI 应用会向哪里发展。

  某分析师:几家头部大模型项目投入大,风险也高;所有 B 端、政府端应用受限于私有部署和私有数据的制约,周期长,难落地;C 端应用大部分都太浅太薄,文本和图像生成项目同质化严重;有一两篇好论文就出来创业的现象很普遍,但团队自己也想不清具体应用落地方向……

  大多数人还是在潜意识里把生成式 AI 看成是一组生成对话、文章、图片的工具。按这样的刻板印象:这东西只能帮文案工作者、设计师提高提高效率,哪里称得上颠覆式的变革?

  虽然有许多迹象表明,生成式 AI 显露出通用人工智能(AGI)的曙光,但受限于短期价值判断的人总会说:曙光又怎样?眼见为实。今天的 AI 不还是在聊天儿、写文章、画画儿吗?

  显然,仅停留在单一视角或单一时间节点来分析生成式 AI 的应用前景是不可取的。有没有串联起生成式 AI 的发展脉络,简明易用的思考模型呢?

  我们认为,生成式 AI 是可以与桌面计算、移动计算相提并论甚至更具颠覆效应的信息产业革命。颠覆式变革从来都不是一蹴而就,而要随着生成式 AI 的不断发展、不断进步逐渐实现。如果想看清、看透生成式 AI 即将带来哪些新产品、新平台、新市场、新机会,我们觉得,有一条简明易懂,也易于指导产品选型、项目选型的思维路径:

  src=随着生成式 AI 对生成内容的可控性不断提高,生成式 AI 适用的应用场景也会不断扩展和深化。量变引起质变。一旦突破领域阈值,生成式 AI 就可以彻底改造现有的产品生态,为产品赋予真正的智能元素。

  演进过程中,生成式 AI 的可控性大致会经历六个阶段。以最基本的文本生成为例:

  20 多年前,基于 N-grams 算法的统计语言模型也可以生成连续的文本内容。只不过,生成的结果基本不可控。如此早期形态的 生成式 AI 几乎没有转化到产品的可能性,更谈不上颠覆已有市场了。

  从基于 LSTM 或 RNN 的文本生成,到早期 GPT(如 GPT-2)的文本生成,生成式 AI 逐渐拥有了描摹一段类似人类语言文字的能力。这一阶段的描摹能力,基本可以达到文句通顺,内容大致符合人类给出的提示,但因为细节、结构或逻辑不可控,还是很难转化成真正有用的产品。

  从 GPT-3 到 ChatGPT(GPT-3.5),生成式 AI 第一次拥有了对生成内容的结构和局部逻辑的控制力。文字创作和多轮会话是这个时期的两种典型应用生态。前者可以支持自动文章摘要,法律文书生成,营销文案生成等实用场景,后者则可以满足会话式搜索,语言学习,智能客服,虚拟人,智能游戏角色的部分需要。

  从 GPT-3.5 到 GPT-4,生成式 AI 的逻辑推理能力显著提高。生成式 AI 第一次拥有了强大的分析能力(如从新闻报道中提取数据,总结趋势),控制能力(如将人类语言转化成复杂系统控制指令)和初步的逻辑推理能力(如解答简单的数学、逻辑题)。可生成的文本内容也扩展到数据、表格、代码、指令序列、工作流或工具链等结构化、半结构化文本。这直接引发了今天一大批以 Copilot(直译为 副驾驶 )为特征的新工具、新系统。

  当然,今天的 GPT-4 生成文本时,可以控制的逻辑思维链还处在初级阶段。如果一切顺利,人类有望在不太远的将来研发出可精确控制复杂逻辑推理的下一代生成式 AI。这样的 AI 具备记忆、学习、规划、决策等高级逻辑推理能力。这些能力足以在效率工具、内容平台、商业流程自动化、机器人、操作系统、智能设备等场景里,彻底颠覆过去数十年的人机交互形态,重新定义人类与计算机的关系。

  更前瞻一些看,人类思维的最高阶表现是:一、基于归纳思维发现原理、制定规则;二、基于演绎思维将原理或规则应用到具体场景中。生成式 AI 的理想进化形态是接近人类思维方式,生成与人类思维水平相当的规则或原理,并加以应用。一旦达到规则或原理可控的 自由王国 ,生成式 AI 必将拥有强大的自我迭代、自我改进的能力,可以像人类一样设计系统规则、世界规则,甚至与人类科学家一道开展科学研究。

  生成式 AI 可控性的提升带来适用领域的大幅扩展。我们用下图概括生成式 AI 在不同发展阶段,可控性与最佳应用方向之间的关系:

  src=以可控性为脉络,生成式 AI 在每个发展阶段,支持的应用方向不断扩展、深化,从满足简单、局部需求,逐步发展到满足领域、平台需求,并最终积累到产品和商业模式的颠覆性变革。思维链、逻辑推理是否可控,在多大程度上可以精准控制,是这个量变到质变过程里最关键的因素。

  以生成式 AI 的可控性为脉络,我们将今天和近未来的生成式 AI 最适合的应用方向分成四个大类,并用下图将每个大类中的典型应用案例与生成式 AI 的不同发展阶段关联起来:

  内容创建工具是生成式 AI 落地最直接也最快捷的场景。随着生成式 AI 可控性的提升,内容创建任务会从简单的文本、图片创建,过渡到复杂的视频、3D、动画、游戏、影视、虚拟世界等CQ9电子的自动创建。借助 AI,每个普通人都将拥有原本只属于专业团队、专业工具的能力。普通人的创作欲一旦得到大幅释放,有关新内容形式的分享、观赏、购买、社交等更高层级的需求就必将带动新一代内容平台的诞生、发展和壮大。

  限于数据安全、私有部署、内容准确性及合规性等原因,商业流程对生成式 AI 的可控性要求非常高。今天的生成式 AI 最适合落地的商业领域可能包括市场营销中的内容创建和电商的用户界面。此外,生成式 AI 也可以通过自动生成 SQL 等中间代码,自动采集分析数据,自动生成报表,自动连接业务流程等,大幅提高商业效率。未来,随着生成式 AI 可控性的提高,商业流程中的规划、决策、优化等关键过程,一定会吸纳更多的前沿 AI 技术。

  个人生活和办公场景中,生成式 AI 将逐渐以各类不同形态的 助理 身份,在数年内建立起人与 AI 相互协作的新生态。生成式 AI 的可控性有多强,从根本上决定了我们生活或工作中的 AI 助理有多聪明,可以帮我们解决哪些问题。一旦生成式 AI 在一部分工作中具备与人类文秘、司机、译员、律师等角色相当的水平,AI 助理就会成为替代计算机、手机的新一代大众电子产品。

  生成式 AI 的编程能力,数据处理能力,系统设计能力,知识处理能力等,将为开发工具、数据库、搜索引擎、操作系统提供全新的设计理念和跨时代的新功能。未来是否能真正诞生 AI 为核心的操作系统,AI 为核心的智能计算平台,完全取决于生成式 AI 的复杂逻辑推理能力到底能达到怎样的高度。

  与简单的文本生成、图片生成相比,包含声音、视频、3D 场景、动画、复杂故事线的多模态系统与人类的常识感受和本源需求更加契合,明显拥有更宽广和深远的应用前景。有关多模态 AI 的技术现状和前景展望,可以参见本文作者的另一篇文章:后 GPT 时代,多模态是最大的机会。

  在多模态领域,我们认为,今天和未来的生成式 AI 会大致按照下图所示的脉络演进积累,不断催生有革命意义的新应用、新平台甚至颠覆性的新商业模式:

  以上所有应用路线图的图片和文字内容,均由 SeedV 实验室以 CC BY 4.0 协议发布。大家在注明原始出处(SeedV 实验室)的基础上,可自由使用、修改、再发布。