编者按:正如20年前互联网技术的兴起一样,人工智能(AI)技术正以前所未有的速度深刻地影响与改变着各个行业,并重塑我们的未来图景。为了深入探讨这一变革,本公众号将推出一系列文章,专注于分析人工智能技术在临床试验领域的应用、探索与挑战以及其对未来的深远影响。我们希望这些内容能够为读者提供有价值的见解和信息。在本系列的首篇文章中,我们将深入介绍AI智能体技术的基础知识和应用框架,为读者提供一个坚实的理解基础。后续我们将逐步展开对其他相关话题的深入讨论和分享,敬请关注。
前言
在人工智能(AI)技术的浪潮席卷全球的今天,特别是随着大语言模型(LLM)与人工智能生成内容(AIGC)的崛起,AI及其在各个领域的创新应用已成为各大行业关注的焦点。在临床试验领域,在行业各大盛会(如DIA年会, PharmaSUG年会、CDISC Interchange、SCDM, PhUSE SDE等)上AI亦已成为不可或缺的议题焦点,并且正深刻影响与改变着临床试验众多领域。
AI智能体(AI Agent)作为一种前沿的超级AI应用形态,凭借其卓越的感知能力、精准的推理机制、智能的决策系统及高效的执行能力,为临床试验的方案设计、数据采集、深度分析、精细管理及高效运营开辟了前所未有的新方法、新思路与新方向。这些智能体不仅精通自然语言的理解与生成,更能在不断的学习与推理中自我进化,实现性能的持续优化。以AutoGPT框架为例,它将大模型的核心优势——自然语言理解、内容创作、逻辑推理等,巧妙融入具体应用场景,结合先进的感知与行动技术,展现出解决复杂问题、实现端到端自动化的强大潜力。
本文旨在深入剖析AI智能体的核心理念与应用框架,通过理论阐述与实例分析相结合的方式,为读者揭开这一前沿技术的神秘面纱。尤为值得一提的是,我们还将借助目前备受瞩目的AI智能体应用框架“扣子”(Coze)为例,分享构建一个定制化临床试验超级助手——临床试验信息专员智能体的全过程(该部分将另行详述)。让我们携手探索AI智能体在临床试验领域的无限可能,共同见证这场由技术驱动的行业变革。
AI智能体基本概念与框架
AI智能体定义
AI智能体,亦称AI代理或智能体,是一种高度自治的计算机系统或实体,具备自主行动、环境感知、智能决策以及与外界环境交互的能力。其核心在于以大型语言模型(LLM)为决策引擎,不仅继承了LLM在自然语言处理、逻辑推理等方面的卓越能力,更在此基础上赋予了独立思考、策略规划及工具调用的综合能力,旨在高效、灵活地达成预设目标或应对复杂任务挑战。简而言之,AI智能体是LLM技术进化的高级形态,能够在更广泛的场景中展现出强大的问题解决与自主执行能力。
AI智能体基本结构与工作原理
AI智能体,就像我们人类一样,拥有聪明的大脑与双手,并可具备长期或短期记忆,能够理解用户的意图,做出决策,并采取行动。必要时的时候,创造或结合使用一些内、外部工具或插件,去完成某一些特定的任务。从某种意义上来讲,AI智能体可以想象为模拟或者说仿真人类的一个工作模式。
AI智能体通常包含三大核心模块:感知(Perception)、大脑(Brain)和行动(Action)及知识库、记忆库、工具与计划等辅助手段来优化和提升其工作效率与质量。
- 感知(Perception):这是AI智能体对周围环境进行认知的第一步。智能体通过传感器或其他输入设备获取外界信息。这些输入可以是图像、声音、文本数据、环境数据等等。感知模块的任务是将这些原始数据转换为智能体可以理解和处理的形式。
- 大脑(Brain)或推理与决策(Reasoning and Decision Making):作为AI智能体的核心部分,大脑模块基于大语言模型、机器学习、深度学习等技术,负责对收集到的信息进行处理、分析和推理,进而生成相应的决策和策略。
- 行动(Action):基于智能体内部决策机制和策略,所采取的一系列动作或行为。这些行动旨在实现智能体设定的既定目标或应对环境的变化。
- 计划(Planning):指智能体为了达成特定目标或完成特定任务而制定一系列行动步骤的过程。通过计划,可以有效的根据任务的复杂程度,合理的安排任务的执行顺序,调用合适的内、外部资源,并确保每一步任务的执行准确性、依次完成;另外计划功能和学习(Learning)功能是紧密相连的,它们共同作用以提高智能体的性能和适应性。
- 工具(Tools):智能体中可访问或调用的具备特定功能的外部或内部模块与插件,以完成某些特定场景下的具体任务,比如实现联网检索、图像识别、语音转换、PDF文档摘要与关键词提取、文本翻译等。
- 知识库或记忆(Knowledge Base, Memory): 负责存储和组织智能体所需具备的知识或记忆。除了通用大模型所拥有的基本能力之外,AI智能体用户可轻松构建特定领域知识库,用于创建专属智能体或主题专家(SME),比如公司标准操作流程与工作规范、临床试验数据标准与实施指南、行业大会论文等知识库。通过知识库的构建与应用,可较大程度地解决目前通用大语言模型信息滞后、幻觉等被大家广为诟病的不足或缺陷;另外通过记忆功能,可根据用户以前的对话记录和用户偏好,提供更具有个性化的服务,提高和用户交互时的效率与准确性等。
AI智能体基本框架与工作原理
图片来源:https://commons.wikimedia.org/wiki/File:AI_Agent_Overview.png
AI智能体应用框架
目前市场上可用于构建AI智能体的框架种类繁多,涵盖了从通用大平台到专用细分领域的各种选择。这些框架既有商业化的闭源产品,也有许多受欢迎的开源解决方案。
国外AI智能体平台框架摘选
国内AI智能体平台框架摘选
AI智能体与Copiloit
Copilot,是微软办公室 Office365套件里面的一个新增功能,它也是一个非常重要的一个日常办公辅助工具,它和 AI Agent智能体的主要区别体现在其核心功能、决策流程、应用范围、开发聚焦等几方面的不同(见下表1)。
表1:AI智能体与Copilot的异同
Copilot更多的是与人的一种简单交互,可以辅助完成日常工作中一些比较简单的常规任务,比如邮件撰写、文章内容总结、会议记要、表格数据分析、通用查询回复等,它的主要优势在于与Offfice办公套件的无缝集成,可以极大的方便或提升我们实现日常办公自动化的能力。AI智能体,则除了可以完成与人类交互、获取用户反馈等基本功能服务外,还可以在不同的AI智能体之间来进行通讯、交流,结合工作流的编排与条件判断,可以更精准的、自主完成更复杂的任务。
AI智能体框架——扣子(Coze)介绍
本文以字节跳动旗下的扣子平台(www.coze.cn)作为具体示例,介绍AI智能体(扣子中又称为AI Bot)中包含的核心功能模块与组件构成,其它智能体平台功能尽管可能在应用场景、用户交互体验等方面各有千秋,但整体上功能模块大同小异。
表2:AI智能体核心功能模块与组件
下面将对AI智能体搭建中比较重要的几个常用功能与组件进行详细的介绍说明。
人设(Role Assignment)
AI智能体,究其本质,可视为一种高度结构化的提示词体系与强大外挂功能模块的精妙融合,类似于为LLM(大型语言模型)披上了一众超级应用的华丽外衣。在LLM现今发展阶段,由于其回复的不确定性、不稳定性、甚至不时的幻觉等,掌握人设技巧或者更专业的说法——“提示词工程学”(Prompt Engineering)这一关键技能尤为重要,它使得大语言模型能够更深刻地洞悉人类意图,精准无误地执行各项指令。
以下是一个简明生动的人设示例,展现了如何通过精心设计的角色设定、技能配置及回复逻辑,来构建AI智能体的基础框架:
- 角色定义:首先,为AI智能体赋予明确的角色身份,比如一位熟悉临床试验的信息专员、一位专业严谨的科研分析助手,或是一位精通临床试验设计的方案撰写者等。这一角色设定将引导智能体在交互中保持特定的语调和风格。
- 技能集成:接着,根据角色需求,集成多样化的技能模块。这些技能可能包括但不限于自然语言处理、知识图谱查询、逻辑推理、代码运行、文本翻译以及特定领域的知识库等,共同构建起智能体强大的能力体系。
- 回复逻辑优化:最后,通过精细的回复逻辑设计,确保AI智能体在接收到用户指令后,能够迅速分析语境、调用相应技能,并生成既符合角色设定又满足用户期望的回复。这一过程不仅考验着智能体的智能水平,也体现了其人性化的交互体验。
技能
在扣子中,常用的技能形式包括插件、工作流、图像流与触发器等,参见前述表2。
插件(Plugin)
扣子支持用户创建自定义插件。每个插件可添加多个工具,同一个插件内的不同工具必须使用相同的域名。插件中的每个工具都是一个独立的 API。AI智能体调用插件时,实际上是调用插件中的某个工具,也就是调用某个 API。
例如,一个天气查询的 API Service 可能会包含以下两个 API:
查询当前天气:http://api.weather.com/current
查询未来天气:http://api.weather.com/forecast
那么在创建插件时,每个 API 就是一个插件下的一个工具。
图片来源:https://www.coze.cn/docs/guides/create_plugin
内置插件:目前扣子平台已经集成了近百款各类型的插件,包括资讯阅读、旅游出行、效率办公、图片理解等 API 及多模态模型供用户调用。
工作流(Workflow)
工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能进行组合,从而实现复杂、稳定的业务流程编排,例如旅行规划、报告分析、文章摘要与关键词提取与翻译等。当目标任务场景包含较多的步骤,且对输出结果的准确性、格式有严格要求时,适合配置工作流来实现。下图为对文档进行摘要与关键词提取并进行翻译的工作流示例。
应用程序接口(API)
应用程序接口(Application Programming Interface, API)并非AI领域的专属概念,而是软件与信息技术领域中一个极为基础且重要的组成部分。简而言之,API是连接不同软件应用程序之间的桥梁,它定义了一套规则和方法,使得软件之间能够高效、安全地进行数据交换和通信。
在AI智能体的构建与运行中,API发挥着至关重要的作用。AI智能体作为集成了先进AI技术的复杂系统,需要与多个外部数据源、服务或应用程序进行交互,以获取必要的信息、执行指令或提供服务。这时,API便成为了AI智能体与外部世界沟通的关键接口。
图片来源: https://media.geeksforgeeks.org/wp-content/uploads/20230216170349/What-is-an-API.png
通过API,AI智能体能够:
- 数据获取:从各种数据源(如数据库、第三方SaaS服务商、网站、其他应用系统等)中检索和获取所需的数据,这些数据是AI智能体进行推理、决策和学习的基石。
- 指令执行:接收来自用户或其他系统的指令,并通过调用相应的API接口来执行这些指令,如返回指定查询数据、调用特定功能服务、调整系统参数等。
- 服务集成:当AI智能体以API的方式部署时,可以便捷的将AI智能体功能与其他服务或应用程序集成,实现更广泛的功能覆盖和更高效的业务流程。例如,将标准操作流程与规范专家智能体集成到企业员工资源与培训系统中,以提高相关信息快速检索与查询的准确性和效率。
- 安全通信:通过API的认证、授权和加密机制,确保AI智能体与外部系统之间的数据传输过程安全可靠,防止数据泄露和非法访问。
总之,API在AI智能体中的应用极大地拓展了其功能和应用范围,使得AI智能体能够更加灵活地与外部环境交互,实现更高级别的智能化和自动化。随着技术的不断发展,API将在AI智能体的构建和运行中扮演更加重要的角色。在实际应用中,API通常以Json格式的数据返回:
知识库与记忆(Knowledge Base and Memory)
扣子的知识库功能,或者更专业的说法RAG(Retrieval-augmentedGeneration,检索增强生成),是一种通过使LLM能够访问外部数据源来提高其响应准确性的方法。因为很多情况下LLM并不具备针对我们具体的业务、行业或用户的特定上下文。RAG则补充了这一关键的信息层。该功能支持上传和存储外部知识内容,并提供了多种检索能力。该能力可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。其工作原理见下示意图。
图片来源:https://codingscape.com/blog/rag-101-what-is-rag-and-why-does-it-matter
另外,扣子提供了数据库、变量、长期记忆等记忆功能。通常这些数据通常是终端用户在使用AI Bot或智能体时产生的动态数据。下表是Coze官网上以一个租房平台的Bot 为例,下表展示了哪些数据是需要通过知识功能来维护的,哪些数据是通过记忆功能来维护的。
AI智能体与传统工具软件
AI智能体相较于传统工具软件,其变革之深远,犹如智能手机颠覆了老式电话的单一功能,跃升为集自主思考、持续学习及高度适应性于一体的智能伙伴。传统工具软件侧重于用户的学习成本、操作熟练度以及对既定流程的严格遵循,以实现特定目标;而AI智能体则以其卓越的自主学习能力、灵活的工作流适应性和任务执行能力,展现了前所未有的自主性与智能化水平。
这一变革还预示着编程思维的未来深刻转型,特别是以AutoGPT为代表的AI技术展现出的强大自我编程能力,预示着未来软件服务的重大转变。我们可以预见,用户将逐渐摆脱庞大而冗余的全家桶式软件服务束缚,如Office365、Adobe等,这些软件往往包含大量用户并不常用的功能模块,转而拥抱更加精准、个性化的按需服务模式。这一转变不仅将显著提升开发与部署效率,还有望大幅降低不必要的软件许可费用和资源消耗。
展望未来,AI智能体极有可能引领一个全新的时代,成为我们日常生活与工作的不可或缺的一部分。然而,值得注意的是,当前AI技术正处于高速发展阶段,正如芯片领域的摩尔定律所示,技术革新日新月异。因此,AI智能体的未来发展路径、其生命力、市场接受度以及能否真正融入并优化我们的日常工作流程,仍需时间的验证与市场的考验。让我们保持期待,共同见证这一场由LLM、AI智能体引领的变革浪潮