关键字: [亚马逊云科技, 生成式AI, DynamoDB配资炒股网址, Génération Intelligence Artificielle, Données Non Structurées, Traitement Données, Stockage Données, Modèles Langage]
在这场演讲中,演讲者介绍了亚马逊云科技的NoSQL数据库产品在生成式人工智能应用中的应用。他解释了生成式AI应用中涉及的多种数据类型,包括结构化数据、非结构化数据、向量数据和原始数据,以及这些数据的特点,如海量数据、多样化和实时处理需求。他指出,NoSQL数据库能够满足这些需求,具有无固定模式结构、灵活数据模型、高访问性能和可扩展性等优势。他重点介绍了亚马逊的两款NoSQL数据库产品DynamoDB和DocumentDB,分别适用于向量数据检索、对话消息存储等场景。总的来说,NoSQL数据库能够支撑生成式AI应用的神经系统,高效存储和处理海量多样化数据。
以下是小编为您整理的本次演讲的精华。
在当今时代,生成式人工智能应用已经成为一种不可或缺的技术,它能够模拟人类的思维过程,生成自然语言、图像、视频等多种形式的内容。然而,支撑这一切的核心在于海量的数据流动,就像人体的神经系统一样,由整体大模型来指挥、分散、发送和反馈。这些数据流在某些阶段需要暂时停留并存储,亚马逊云科技的NoSQL数据库便可以为此提供强有力的支持。
展开剩余83%生成式人工智能应用中包含多种数据类型,从高层次上可分为结构化数据、非结构化数据、向量数据和原数据四大类。结构化数据包括用户个人资料、注册信息、兴趣爱好等;非结构化数据则包括文本、图片、声音等无固定格式的数据;向量数据是将图片、文本、视频等切分并嵌入高维度向量,用于基于向量的搜索和相似性匹配;原数据则包含大模型参数、数据来源、创建时间、标签、分类等长期存在且可能变化的信息。
这些生成式人工智能数据具有规模海量、多样化、需要实时处理等特点。以对话AI助手为例,想象一下有多少人同时在线对话,每天都会产生大量新的对话数据需要存储,加之新用户的注册信息,每天积累的数据量可能高达TB级别。此外,数据种类繁多,既有结构化数据,也有非结构化数据如文本、图像、视频等。另一方面,用户对AI助手的回复需要实时处理,任何延迟都可能导致用户体验下降。除此之外,这些数据中还包含用户的个人信息和隐私,需要进行安全审计保护。
为了高效处理和存储如此庞大和复杂的数据,对数据库提出了诸多要求。首先,需要高扩展性以支持海量数据存储和大并发访问;其次,需要低延迟以实现实时查询反馈,希望在几十毫秒内就能获取数据;第三,需要灵活的表结构模式,能够适应表结构的频繁变化,尤其是在非结构化数据的场景下;第四,需要支持向量数据的检索存储,将私域知识或业务数据嵌入高维向量进行快速准确的检索;第五,需要支持多模态数据;最后,需要保证数据的安全性和隐私。
最初,许多创业公司会选择使用关系型数据库如MySQL或PostgreSQL,因为开发人员更熟悉这些数据库。然而,随着数据量的激增,关系型数据库在写入和查询海量数据时会遇到严重的性能瓶颈。以对话消息为例,如果一天新增5000万至6000万条数据,一张表很快就会存储10亿条以上的数据,此时写入和查询的性能都将大幅下降。由于关系型数据库本身的特性,它并不适合处理这种场景。
为了解决这一问题,亚马逊云科技等公司推出了NoSQL数据库解决方案。NoSQL数据库具有无固定模式结构、灵活的数据模型、高访问性能、良好的可扩展性等特点,可以很好地满足生成式人工智能应用对数据处理和存储的需求。
其中,亚马逊云科技提供了两种主要的NoSQL数据库产品:DynamoDB和DocumentDB。
DynamoDB是一种以JSON格式存储数据的NoSQL数据库,具有强大的查询能力,不仅支持普通的聚合查询和统计分析查询,还支持向量查询和全文检索查询。它与MongoDB API兼容,客户可以无缝地将数据迁移到DynamoDB或从DynamoDB迁移出去,避免了云厂商锁定的问题。作为一种全托管服务,DynamoDB的所有备份、扩展、安全管理等都由亚马逊云科技负责,客户只需关注应用开发即可。
在生成式人工智能应用的核心场景中,DynamoDB可以用于向量数据的检索存储、对话消息历史的存储、非结构化内容的管理等。它的优势在于无固定模式的表结构非常灵活,可以适应不断变化的数据需求,允许深层次的嵌套;同时,它还可以对数据向量化,构建高维索引,实现快速响应和准确结果。
一位客户就利用DynamoDB存储了对话历史消息,数据格式采用JSON格式,包含对话ID、用户ID、对话内容、时间戳等字段。在该客户的生成式AI应用中,用户输入后,系统会获取对话历史和情景上下文,然后从DynamoDB中检索预存的向量数据,结合提示词工程调用大语言模型,最终返回结果并更新对话状态信息。在这个过程中,DynamoDB不仅用于向量检索,还负责存储对话历史等业务数据,使得应用开发更加简单高效。
另一款NoSQL数据库产品DocumentDB则是一种JSON文档数据库,最初应用于亚马逊的电商业务。它采用Serverless架构,可以根据流量自动调整资源分配,存储空间实际上是无上限的。DocumentDB的写入延迟保持在10毫秒以内,即使数据量增加到亿级别,写入性能也不会下降。
DocumentDB通常被建议用于存储对话消息,因为它的读写性能非常高,而对话消息存储通常不需要复杂的查询操作,只需按照时间或ID号进行点查询即可。在生成式AI应用中,DocumentDB可以存储情景、上下文、对话历史状态等数据,通过专属数据存储API获取这些数据,为大模型提供支持。
总的来说,亚马逊云科技的这两种NoSQL数据库产品都可以在生成式人工智能应用中发挥重要作用,满足不同的数据处理和存储需求。DynamoDB更适合处理复杂查询、向量检索等场景,而DocumentDB则擅长高吞吐的读写操作。通过合理选择和利用这些产品,生成式AI应用可以高效地管理海量多样的数据,为用户提供卓越的体验。
下面是一些演讲现场的精彩瞬间:
The speaker thanks the audience for attending the sharing session on NoSQL databases and introduces the topic of how NoSQL supports the neural system in generative AI, which will be presented jointly with his colleague Cassy.
The speaker highlights the flexibility of the table structure schema, which allows frequent changes to accommodate unstructured data and rapid iterations, especially during the initial stages of AI development when the table structure is not yet finalized.
当数据量达到十亿级别时,关系型数据库在写入和查询性能上会遇到瓶颈问题,无法充分利用其优势。
亚马逊云科技的NoSQL数据库在生成式人工智能应用中扮演着关键角色。这些应用产生了海量、多样化的数据,包括结构化、非结构化、向量和原始数据。NoSQL数据库能够高效存储和处理这些数据,满足实时处理、高扩展性、低延迟查询和灵活模式等需求。
亚马逊云科技提供了两种主要的NoSQL数据库产品:DynamoDB和DocumentDB。DynamoDB擅长存储和检索向量数据、对话历史消息等,支持高维向量索引和快速响应。DocumentDB则适合存储大规模对话消息,具有极致的写入性能和自动扩展能力。这两种数据库在生成式AI应用中发挥着不同的作用,为神经网络般的数据流提供了强大支撑。
通过NoSQL数据库的支持,生成式AI应用能够实现个性化体验、上下文连贯性、模型优化训练和合规审计等功能。亚马逊云科技的NoSQL数据库产品为生成式AI应用的发展提供了坚实的数据基础,助力人工智能技术的不断创新。
我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验配资炒股网址,助力企业在AI时代突破。
发布于:新加坡嘉正网提示:文章来自网络,不代表本站观点。