知识图谱:企业 AI 中的关键纽带

3个月前 科技 23观看
摘要 大语言模型 (LLM) 擅长从非结构化数据中学习。但企业所拥有的大量专有价值被锁在关系数据库、电子表格和其他结构化文件类型中。大型企业长期以来一直使用知识图谱来更好地理解数据点之间的

大语言模型 (LLM) 擅长从非结构化数据中学习。但企业所拥有的大量专有价值被锁在关系数据库、电子表格和其他结构化文件类型中。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

大型企业长期以来一直使用知识图谱来更好地理解数据点之间的潜在关系,但这些图谱难以构建和维护,需要开发人员、数据工程师和了解数据实际含义的领域专家付出努力。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

知识图谱是位于原始数据存储之上的连接层,将信息转化为具有上下文意义的知识。因此理论上,它们是帮助 LLM 理解企业数据集含义的绝佳方式,使公司更容易、更高效地找到相关数据嵌入查询中,同时使 LLM 本身更快速、更准确。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

2023 年 6 月,Gartner 研究人员表示,数据和分析领导者必须利用 LLM 的力量和知识图谱的稳健性来构建容错 AI 应用。供应商们迅速采取行动。第一个重大公告是图数据库公司 NebulaGraph 在 2023 年 9 月发布的。他们的工具 Graph RAG 使企业更容易将知识图谱作为检索增强生成 (RAG) 实现的一部分。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

RAG 是指不仅仅向 LLM 发送简单问题,公司还通过从向量数据库嵌入相关文档或信息来为问题添加上下文。没有 RAG,LLM 只知道它们被训练的内容。有了 RAG,公司可以添加最新信息或公司特有的信息。例如,如果要求 LLM 提供公司产品信息,该产品的手册和其他参考资料将非常有帮助。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Microsoft 在 2 月宣布了其 GraphRAG 项目,并在 7 月开源。图数据库公司 Neo4j 也构建了 LLM Graph Transformer 工具,并在 3 月捐赠给开源 LangChain 项目。4 月,该工具作为 Google 的 GraphRAG 实现的一部分集成到 Google Cloud 和 Vertex AI 中。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

最近,在 12 月初,Amazon 也宣布通过 Amazon Neptune Analytics 支持 GraphRAG,作为 Amazon Bedrock Knowledge Bases 的一部分。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

在这些活动的推动下,Gartner 在 11 月将 GraphRAG 列入其 2024 年生成式 AI 炒作周期,位于夸大期望峰值的半山腰。Gartner 表示 GraphRAG 需要 2-5 年才能达到成熟。相比之下,位于 GraphRAG 下方的自主代理需要 5-10 年。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Gartner 表示,GraphRAG 提高了 RAG 系统的准确性、可靠性和可解释性,但缺点是将知识图谱与生成式 AI 模型集成在技术上复杂且计算成本高。更不用说知识图谱本身就不是一件容易的事。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

ISG Research 的数据和分析研究总监 Matt Aslett 说:"我在数据领域工作了 20 年,至少有一半时间,人们一直在尝试推广知识图谱。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

他补充说,一些组织已经投资了这项技术,比如大型媒体和出版公司,或从事药物研发的制药公司。例如,诺华使用图数据库将其内部数据与外部研究摘要数据库链接起来,目标是链接基因、疾病和化合物以加速药物研发。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Intuit 使用 Neo4j 技术在知识图谱上构建了其安全知识平台,每小时有 7500 万次数据库更新被输入图谱。但 Aslett 说,大多数企业并不使用知识图谱。需要整合数据的公司通常只进行一次性的数据集成项目。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

他补充说:"如果你已经经历了知识图谱的过程,那么让这些信息也可用于你的 AI 项目是有意义的。但如果你还没有,那么你首先需要完成这个大项目,将信息转化为知识图谱。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

在过去,这将是一个令人生畏的提议。但现在生成式 AI 正被用来帮助创建这些知识图谱,加速将企业数据转化为可行洞察的良性循环,同时提高 LLM 的准确性,降低成本和延迟。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

更好供应的需求Tw9喜好网-记录每日喜好的科技时尚娱乐生活

知识图谱可以内置于数据库中,位于数据库之上,链接多个数据库,甚至可以从其他来源获取信息,所有这些都无需更改底层数据结构。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

在传统关系数据库中,数据点之间的关系是数据库结构本身的一部分,通常仅限于关键信息。例如,客户记录可能通过共同的客户识别号与个别交易链接。而这些交易又可以通过共同的产品 ID 链接到产品数据库。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

但要发现特定群体的客户都有相同的偏好会稍微复杂一些,当关系更加微妙时,事情会变得更加复杂。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

通过知识图谱明确所有这些关系,可以在需要为 LLM 提供回答问题所需的上下文时更容易提取所有相关信息,从而产生更准确的结果。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

企业通常使用 RAG 嵌入来用其专有知识增强 LLM 查询,但专家估计准确率通常高达 70%。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Data2(一家致力于解决准确性问题的软件创业公司)的 CTO Daniel Bukowski 说:"传统的检索增强生成等方法通常无法达到 80% 以上的准确率。虽然这对某些用途可能足够,但许多行业和情况需要达到或接近 99%。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Neo4j 的 COO Sudhir Hasbe 补充说,LLM 针对非结构化数据进行了优化。"但很多企业数据也是结构化的。那么如何将结构化和非结构化数据结合起来回答问题呢?你希望能够获得答案,更重要的是,解释为什么你得到这个答案。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

他说,知识图谱减少了幻觉,但它们也有助于解决可解释性挑战。Infosys 的 EVP Anant Adya 表示,知识图谱位于传统数据库之上,提供连接和更深入理解的层面。他说:"你可以进行更好的上下文搜索,这有助于你获得更好的洞察。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

Infosys 现在正在运行概念验证,使用知识图谱将公司多年积累的知识与生成式 AI 工具结合起来。他说:"我们正在识别那些可以产生更大影响的用例。"这些包括自动知识提取、预算编制、采购和企业规划。他补充说:"但这还很早期,还没有投入生产。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

LinkedIn 是一家部署知识图谱来提高生成式 AI 性能并撰写相关文章的公司。在 4 月发表的一篇论文中,LinkedIn 报告称,将 RAG 与知识图谱结合帮助其提高客户服务生成式 AI 应用的准确率达 78%。在此前的六个月里,这种组合被 LinkedIn 的客户服务团队使用,将每个问题的中位数解决时间减少了 29%。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

降低成本和延迟Tw9喜好网-记录每日喜好的科技时尚娱乐生活

当将生成式 AI 功能添加到企业工作流程中时,查询通常会增加相关信息,通常来自向量数据库。可以添加到查询中的信息越多,LLM 就有更多上下文来生成响应。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

EY 的技术、媒体、娱乐和电信 AI 负责人 Vamsi Duvvuri 说:"但我提供的上下文和文档越多,RAG 就变得越来越大,我的系统也变得越来越慢。"此外,生成式 AI 供应商通常按 token 收费;他们的模型处理的信息越多,成本就越高。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

根据 Microsoft 4 月的研究论文,GraphRAG 所需的 token 减少了高达 97%,同时仍然提供比标准 RAG 更全面的答案。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

当知识图谱作为 RAG 基础设施的一部分使用时,可以使用显式连接快速锁定最相关的信息。Duvvuri 说:"它变得非常高效。"他说公司正在利用这一点。"棘手的问题是有多少这样的解决方案在生产中看到,这是相当罕见的。但这对许多生成式 AI 应用来说都是如此。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

利用 LLMTw9喜好网-记录每日喜好的科技时尚娱乐生活

创建知识图谱的挑战在于需要真正的专业知识。对于大型复杂数据集来说,这尤其困难,而这恰恰是最需要知识图谱的地方。创建知识图谱的大部分硬工作是建立本体,如定义术语、决定分类,以及找出两个不同数据之间的某种关联。ISG 的 Aslett 说:"这是生成式 AI 可以擅长的领域。"他说,一些供应商已经在尝试提供这种功能,但工具仍处于早期开发阶段。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

在生成式 AI 之前,公司曾试图用机器学习创建知识图谱。Duvvuri 说:"我们过去使用自然语言处理来创建知识图谱,使用命名实体识别并使用共现创建关系。创建过程非常耗时,因为 NLP 管道需要训练。这是一种高投入的方式。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

今天,LLM 显著减少了创建知识图谱所需的时间。Tw9喜好网-记录每日喜好的科技时尚娱乐生活

他说:"我个人使用大语言模型创建过知识图谱。这是提取关系的绝佳方式。使用大语言模型加速了知识图谱的力量,将知识图谱添加到 LLM 中加速了其性能并改善了成本。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

卡内基梅隆大学泰珀商学院会计学教授 Pierre Liang 说,生成式 AI 有一种不可思议的方式来生成以前不可能生成的知识。他说:"我在实验室里看到过这样的例子。企业使用 LLM 帮助我们生成和使用知识图谱的机会非常有前途。"Tw9喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
努比亚 Z70 Ultra 手机更多参数曝光,后置 50Mp 35mm 大底主摄

努比亚 Z70 Ultra 手机更多参数

11 月

11-19 67阅读
华为强机皇!Mate 70系列关键信息汇总:外观/性能/影像揭秘

华为强机皇!Mate 70系列关键信息

华为Mate

11-19 64阅读
‌华为、OPPO、vivo、小米联手打造统一链接平台:简化App下载流程‌

‌华为、OPPO、vivo、小米联手打

11-19 70阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 67阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

图片来源:由无界AI生成2024年下半

11-19 68阅读
让赵露思摇来肖战鹿晗打call的《珠帘玉幕》,好看不?|Talk剧评

让赵露思摇来肖战鹿晗打ca

作者 / 张   特编辑 / 阿   笔运

11-19 72阅读
被审判的麦琳和妖魔化的小红书

被审判的麦琳和妖魔化的小

作者 / 张   特编辑 / 朱   婷运

11-19 68阅读
中国电影出海专业书刊《走向世界:华语电影的跨国流通与市场策略》正式发布

中国电影出海专业书刊《走

  在首届广州电影产业博览交易会上

11-19 61阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 65阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 67阅读
《最终幻想7》重制版最终章剧情已敲定 已开始制作

《最终幻想7》重制版最终

在韩国举行的G-STAR讨论会上,《最终幻

11-19 66阅读
经典游戏重制合集《FATE: Reawakened》将登陆主机

经典游戏重制合集《FATE:

游戏发行商gamigo、WildTangent以及开

11-19 65阅读
卧龙苍天陨落前期快速获取情谊酒杯的技巧分享

卧龙苍天陨落前期快速获取

情谊酒杯是卧龙苍天陨落游戏里面的特殊

11-19 64阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 86阅读
饥荒制作刷肉机快速刷肉的详细操作方法

饥荒制作刷肉机快速刷肉的

大肉是饥荒游戏里面的重要食物,主要是猪

11-19 65阅读