2025 年多模态 AI:从医疗保健到电子商务及更多领域的应用

7个月前 科技 40观看
摘要 多模态技术将在 2025 年重新定义企业如何利用 AI。想象一下,一个不仅能理解文本,还能理解图像、音频和其他传感器数据的 AI。人类天生就是多模态的,但我们处理输入信息的能力有限。以医疗保健为

多模态技术将在 2025 年重新定义企业如何利用 AI。想象一下,一个不仅能理解文本,还能理解图像、音频和其他传感器数据的 AI。人类天生就是多模态的,但我们处理输入信息的能力有限。以医疗保健为例,在我在 Google Health 工作期间,我听到许多病人用大量数据压垮医生的故事:sJv喜好网-记录每日喜好的科技时尚娱乐生活

想象一个患有心房颤动 (AFIB) 的病人带着五年来从智能手表收集的详细睡眠数据就诊。或者一个癌症患者带着 20 磅重的医疗记录,记录了他们接受过的每一次治疗。这两种情况都是非常真实的。对医生来说,挑战是相同的:从噪音中分离出有用信息。sJv喜好网-记录每日喜好的科技时尚娱乐生活

我们需要的是一个能够总结和突出关键点的 AI。像 ChatGPT 这样的大语言模型已经可以对文本进行这样的处理,提取出最相关的信息。但如果我们能教会 AI 对其他类型的数据 —— 如图像、时间序列或实验室结果 —— 做同样的事情呢?sJv喜好网-记录每日喜好的科技时尚娱乐生活

多模态 AI 是如何工作的?sJv喜好网-记录每日喜好的科技时尚娱乐生活

要理解多模态如何工作,我们首先要明白 AI 需要数据来进行训练和做出预测。多模态 AI 被设计用来同时处理多种数据源 —— 文本、图像、音频、视频,甚至时间序列数据。通过结合这些输入,多模态 AI 能够对所处理的问题提供更丰富、更全面的理解。sJv喜好网-记录每日喜好的科技时尚娱乐生活

多模态 AI 更像是一种发现工具。不同的数据模态被 AI 存储。当输入新的数据点时,AI 会找到相近的主题。例如,通过输入某人智能手表的睡眠数据以及他们心房颤动 (AFIB) 发作的信息,医生可能会发现睡眠呼吸暂停的迹象。sJv喜好网-记录每日喜好的科技时尚娱乐生活

注意,这是基于"相似性",而不是相关性。这是 Amazon 曾经popularized的方法的升级版:"购买这件商品的人也购买了那件商品"。在这种情况下,它更像是:"具有这种睡眠模式的人也被诊断出患有 AFIB"。sJv喜好网-记录每日喜好的科技时尚娱乐生活

多模态解释:编码器、融合和解码器sJv喜好网-记录每日喜好的科技时尚娱乐生活

多模态 AI 系统由三个主要组件组成:编码器、融合和解码器。sJv喜好网-记录每日喜好的科技时尚娱乐生活

编码任何模态sJv喜好网-记录每日喜好的科技时尚娱乐生活

编码器将原始数据(如文本、图像、声音、日志文件等)转换为 AI 可以处理的表示。这些表示被称为向量,存储在潜在空间中。简单来说,可以将这个过程想象成在仓库(潜在空间)中存储一件物品,每件物品都有一个特定的位置(向量)。编码器几乎可以处理任何东西:图像、文本、声音、视频、日志文件、物联网(传感器)信息、时间序列 —— 应有尽有。sJv喜好网-记录每日喜好的科技时尚娱乐生活

融合机制:结合模态sJv喜好网-记录每日喜好的科技时尚娱乐生活

当只处理一种类型的数据(如图像)时,编码就足够了。但是当处理多种类型的数据 —— 图像、声音、文本或时间序列数据 —— 时,我们需要融合信息以找出最相关的内容。sJv喜好网-记录每日喜好的科技时尚娱乐生活

解码器:生成我们能理解的输出sJv喜好网-记录每日喜好的科技时尚娱乐生活

解码器从潜在空间(即仓库)中"解码"信息,并将其传递给我们。它将原始、抽象的信息转化为我们能理解的东西。例如,找到一张"房子"的图像。sJv喜好网-记录每日喜好的科技时尚娱乐生活

如果你想了解更多关于编码、解码和重新排序的知识,可以参加我的 eCornell 在线证书课程"设计和构建 AI 解决方案"。这是一个无需编程的课程,探讨了 AI 解决方案的各个方面。sJv喜好网-记录每日喜好的科技时尚娱乐生活

用多模态技术改造电子商务sJv喜好网-记录每日喜好的科技时尚娱乐生活

让我们看另一个例子:电子商务。Amazon 的界面 25 年来几乎没有变化 —— 你输入关键词,滚动浏览结果,希望找到你需要的东西。多模态技术可以通过让你描述产品、上传照片或提供上下文来找到最适合你的匹配,从而彻底改变这种体验。sJv喜好网-记录每日喜好的科技时尚娱乐生活

用多模态 AI 修复搜索sJv喜好网-记录每日喜好的科技时尚娱乐生活

在 r2decide,一家由我和几个康奈尔校友创立的公司,我们正在使用多模态技术将搜索、浏览和聊天合并为一个无缝的流程。我们的客户是那些厌倦了因为用户找不到他们需要的东西而损失收入的电子商务公司。我们解决方案的核心是多模态 AI。sJv喜好网-记录每日喜好的科技时尚娱乐生活

例如,在一个在线珠宝商店,用户搜索"绿色"时,过去只有当"绿色"这个词出现在产品文本中时,才会看到绿色珠宝。由于 r2decide 的 AI 还将图像编码到共享的潜在空间(即仓库)中,它可以在所有模态中找到"绿色"。然后,根据用户过去的搜索和点击重新排序这些项目,确保他们收到最相关的"绿色"选项。sJv喜好网-记录每日喜好的科技时尚娱乐生活

用户还可以搜索更广泛的上下文,如"婚礼"、"红裙子"或"哥特风"。AI 将这些输入编码到潜在空间中,匹配合适的产品,并显示最相关的结果。这种能力甚至延伸到像"Swarovski"这样的品牌名称,即使商店并不正式销售 Swarovski 产品,也能显示相关的商品。sJv喜好网-记录每日喜好的科技时尚娱乐生活

AI 生成的提示以提供类似聊天的建议sJv喜好网-记录每日喜好的科技时尚娱乐生活

除了搜索结果,R2Decide 还生成 AI 驱动的提示 —— 旨在增强用户体验的上下文推荐或提示。这些提示由 AI 代理驱动,正如我昨天在关于代理型 AI 的文章中所描述的。它们的目的是轻松地引导用户找到最相关的选项,使搜索过程变得直观、引人入胜且高效。sJv喜好网-记录每日喜好的科技时尚娱乐生活

2025 年的多模态技术:企业的无限可能sJv喜好网-记录每日喜好的科技时尚娱乐生活

多模态技术正在改变各个行业,从医疗保健到电子商务。而这还远不是终点。像 TC Labs 这样的初创公司使用多模态 AI 来简化工程工作流程,提高效率和质量,而丰田则使用它来提供互动的、个性化的客户协助。sJv喜好网-记录每日喜好的科技时尚娱乐生活

2025 年将是多模态 AI 改变企业工作方式的一年。在 Forbes 或 LinkedIn 上关注我,了解更多我对 2025 年 AI 的预测。sJv喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小米手机下次相机版本更新增加水印颜色选项,老机型也会版本迭代

小米手机下次相机版本更新增加水

11 月

11-19 113阅读
焦虑的开发者,涌向“纯血鸿蒙”培训班

焦虑的开发者,涌向“纯血鸿蒙”培

有两

11-19 106阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 108阅读
国家级基金、江苏省级母基金押注人形机器人

国家级基金、江苏省级母基金押注

近日,

11-19 120阅读
点名小杨哥、贾乃亮,美邦创始人不走寻常路

点名小杨哥、贾乃亮,美邦创始人不

11月1

11-19 131阅读
戈壁和江百丽结局,男方不爱女方,女生到最后一无所有

戈壁和江百丽结局,男方不爱

《暗恋橘生淮南》中江百丽和戈壁

11-19 211阅读
《老舅》官宣开机,郭京飞、王佳佳领衔主演,重绘时代浪潮下的经典温暖记忆

《老舅》官宣开机,郭京飞、

  11月14日,由腾讯视频、鸣涧影业出

11-19 105阅读
浪胃仙IP创始人“游絮”犯职务侵占罪被判8年:罚100万 归还账号

浪胃仙IP创始人“游絮”犯

11月13日消息,据

11-19 104阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 108阅读
扎导又拍新片

扎导又拍新片

扎克·施

11-19 106阅读
《ENDER MAGNOLIA: Bloom in the Mist》将于2025年1月23日上市

《ENDER MAGNOLIA: Bloom

云豹娱乐股份有限公司(董事长兼社长:陈云

11-19 113阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 112阅读
原子之心武器蓝图攻略_全武器蓝图获取方法详细介绍

原子之心武器蓝图攻略_全

原子之心游戏里面玩家可以通过获取武器

11-19 112阅读
饥荒存档在哪个文件夹?饥荒存档位置一览

饥荒存档在哪个文件夹?饥

饥荒存档在哪个文件夹?饥荒游戏里面玩家

11-19 233阅读
原神痼疾任务图文攻略|原神痼疾全流程攻略

原神痼疾任务图文攻略|原

痼疾是原神须弥地区魔神主线任务的第三

11-19 103阅读