AI基建再获3000万融资:Daft如何破解多模态数据困局?| AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)飞速发展的今天,一个令人尴尬的现实是:许多顶尖的AI工程师,本应是推动创新的核心力量,却将高达80%的时间耗费在修复和维护脆弱的数据基础设施上。这个普遍存在的痛点,正是AI基础设施初创公司Eventual诞生的根源。近日,Eventual宣布完成3000万美元A轮融资,再次将市场的目光聚焦于AI infra这一关键赛道。当数据处理遇上AI,尤其是复杂的多模态数据,我们正处在一个重新定义行业未来的十字路口。想要获取更多前沿的AI资讯和深度分析,欢迎访问AI门户网站 AIGC.Bar

多模态时代的“数据鸿沟”:传统工具为何力不从心?

随着ChatGPT等生成式AI应用的爆发,图像、文本、音频、视频等多模态数据已成为构建现代AI应用的基础原料。然而,支撑这些应用的数据处理工具,大多仍是为处理结构化数据(如网页点击、银行交易)而设计的传统系统,如Apache Spark。
这种技术与需求的错配,导致了严重的“数据鸿沟”:
  1. 根本性不兼容:让为表格数据设计的Spark去处理一张图像或一段视频,就像让一辆轿车去攀登珠穆朗玛峰。工程师需要编写大量繁琐且脆弱的“胶水代码”进行数据格式转换,效率低下且极易出错。
  1. 资源浪费惊人:Eventual创始人亲身经历的“80%时间陷阱”并非个例。顶尖人才的时间被浪费在基础设施维护上,而非核心应用开发,这是对整个行业创新能力的巨大扼杀。
  1. 生产环境的灾难:在测试环境中0.1%的失败率或许可以接受,但在生产环境中处理数百万个文件时,这意味着成千上万次失败,足以让整个系统崩溃。现代AI工作流对自定义模型、外部API调用的需求,更是远超传统工具的设计范畴。
这个问题的严重性,随着大模型LLM)的普及而指数级增长,一个专门为多模态AI工作负载设计的解决方案已是刻不容缓。

Daft横空出世:为多模态AI而生的数据引擎

面对这一挑战,Eventual没有选择在旧有工具上修修补补,而是从零开始构建了一个全新的、专为多模态AI设计的开源数据处理引擎——Daft。其核心创新在于设计哲学上的颠覆性转变:从“数据适应工具”转变为“工具适应数据”
Daft的核心优势体现在以下几个方面:
  • 原生多模态支持:Daft将图像、视频、音频等复杂数据类型视为一等公民,原生理解并高效处理,无需繁琐的格式转换。其目标是成为非结构化数据领域的“SQL”,极大降低多模态数据处理的门槛。
  • 极致性能与扩展性:Daft底层使用Rust构建,确保了在单机上媲美DuckDB和Polars的顶级性能。同时,它能无缝扩展到大规模分布式集群,开发者无需修改任何代码,即可将笔记本上的开发成果直接部署到处理PB级数据的生产环境。
  • 为AI工作流深度优化:Daft不仅支持传统的分组、连接等操作,更允许开发者编写任意Python代码作为用户定义函数(UDF)。这意味着数据清洗、特征提取、模型推理和结果分析可以在一个统一的流水线中完成,彻底解决了工具链碎片化的问题。
这种一体化的设计,使得Daft不仅仅是一个数据处理工具,更像是一个构建AI应用的集成平台,为实现真正的AGI奠定了坚实的数据基础。

性能与效率革命:Daft如何将数周工作缩短至数小时?

理论的强大最终需要实践来检验。在一个演示案例中,Eventual的工程师仅用两天时间就构建了一个复杂的AI招聘平台,其处理效率令人惊叹:
他们处理了15000个GitHub仓库、3300万次代码提交,并对25万名开发者进行了AI代码审查。在传统工具下,这可能需要数周甚至数月的时间。
Daft之所以能实现如此高的效率,关键在于其独特的技术实现:
  • 智能的并发与错误处理:在数据收集阶段,Daft的UDF自动处理了GitHub API的速率限制、并发请求和错误重试,将复杂的工程问题简化为简单的函数调用。
  • 简洁高效的数据清洗:面对开发者使用多个邮箱导致身份重复的典型实体解析问题,Daft仅用几行简单的分组和聚合代码就轻松解决,远比复杂的MapReduce作业高效。
  • 革命性的异步推理:在最耗时的AI代码审查阶段,Daft的异步UDF发挥了决定性作用。通过允许GPU在等待网络I/O时处理其他请求,它将GPU推理的吞吐量提高了5-6倍。对25万名开发者的评估,调用大语言模型数十万次,整个过程仅耗时3小时。这种优化对于成本高昂的GPU资源来说,意味着直接节省数百万美元的潜力。
这个案例完美展示了Daft如何将复杂的AI工程问题抽象化、自动化,让开发者能真正专注于业务逻辑和Prompt设计。

商业模式与未来版图:开源核心与云平台的双轮驱动

Eventual的商业策略同样明智。他们通过强大的开源核心Daft,已经在Amazon、CloudKitchens等头部企业处理PB级的关键任务,建立了坚实的技术护城河和活跃的开发者社区。
在此基础上,他们正在构建商业化产品Eventual Cloud——一个为多模态AI工作负载构建的生产就绪平台。这种“开源+云服务”的模式,让用户可以先免费体验核心功能,再根据需求自然过渡到提供更多企业级服务的付费版本,极大地降低了市场准入门槛。
展望未来,Daft的路线图清晰而宏大: 扩展对视频等更多模态的支持。 提供流式UDF,为实时AI应用赋能。 深度集成Iceberg等数据目录,无缝对接企业现有数据资产。 构建下一代分布式执行引擎"Flotilla",追求更大的性能突破。

结论

Eventual和其核心引擎Daft的成功,标志着AI基础设施正在经历一场深刻的革命:从让AI适应旧有基础设施,转向构建原生支持AI的新一代基础设施。这不仅解决了当前多模态数据处理的巨大痛点,更将释放人工智能的真正潜力,让构建强大、复杂的AI应用不再是少数巨头的专利。
我们正处在一个数据性质发生根本性转变的时代,能够高效处理多模态数据的能力,正从一个技术优势转变为企业的核心竞争力。Eventual的探索,无疑为整个行业的未来发展指明了方向。
想了解更多关于AI技术、AI变现案例和每日AI日报的最新动态,请持续关注AI门户网站 AIGC.Bar
Loading...

没有找到文章