• 首页
  • 时政
  • 财经
  • 社会
  • 股票
  • 信用
  • 视频
  • 图片
  • 品牌
  • 发改动态
  • 中宏研究
  • 营商环境
  • 新质生产力
logo 公司
  • 中宏网首页 >
  • 商业管理 >
  • 公司 >
  • 正文

Kimi首发“上下文缓存”技术,助推长文本大模型降本90%

2024-07-02 16:46:08 来源:河北网络广播电视台
分享到:
用微信扫描二维码

      近日,月之暗面宣布Kimi开放平台正式公测新技术——上下文缓存(ContextCaching),该技术在API价格不变的前提下,可为开发者降低最高90%的长文本大模型使用成本,并且显著提升模型的响应速度。

  据了解,月之暗面是国内首家面向开发者推出上下文缓存(ContextCaching)技术的大模型公司。

  上下文缓存(ContextCaching)技术的基本原理是,系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当用户再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

  上下文缓存(ContextCaching)技术可以带来降本和提速两大价值。首先,通过缓存重复性输入的大量数据,对于公共上下文仅收取一次费用,上下文缓存(ContextCaching)技术大大降低了开发者使用长文本旗舰大模型的成本,最高可降本达90%。其次,上下文缓存(ContextCaching)技术还有助于提升大模型API的响应速度,实测可将128K长文本大模型的首token延迟降低83%左右,从平均30秒左右降低到平均5秒内。

  在长上下文和高负载的业务场景上,上下文缓存带来的降本和提速效果尤为显著。常见场景包括提供大量预设内容的问答机器人,例如KimiAPI小助手;针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具;对静态代码库或知识库的周期性分析,例如各类CopilotAgent;瞬时流量巨大的爆款AI应用,例如哄哄模拟器;交互规则复杂的Agent类应用,例如什么值得买的Kimi+等。

  以常见的固定文档大量提问场景为例。某硬件产品说明书大概9万字,换算Tokens长度大概64K,该产品售前支持人员需要在10分钟内,密集对产品的功能/使用方式进行40次问答,每次的问题大概100个字,要求模型的输出需要基于产品说明书来回答,回答问题在120字以内。

  按照大模型问答的Tokens计算逻辑,售前支持人员需要每次向模型输入的Tokens=文档Tokens+问题Tokens,10分钟内40次的问答共计需要消耗Tokens2.56M,128k模型价格为60元/M,预计原始花费需要153.84元。若该场景接入上下文缓存(ContextCaching)技术:9万字的文档只收取一次创建Cache和存储10分钟Cache的费用,10分钟内的40次提问,将只收取问题的100字+回答的120字的费用,预计花费11.88元。节省了141.95元,相当于费用降低90%左右。

  响应速度方面,以128k模型的一次4万字(约30ktokens)的推理请求为例。通常向模型提问,平均要30秒返回首Token。接入上下文缓存技术后,最快可1秒内完成首Token返回。经过大量测试,接入上下文缓存功能后,128k模型的首Token延迟平均可降至5秒内,降低了83%左右。

  需要注意的是,上述测试效果基于1token=1~1.5个文字和字符,使用128k模型进行测算。具体的效果根据业务情况/模型选择不同,会有略微差别。

  上下文缓存(ContextCaching)技术在公测期间将首先提供给Kimi开放平台的Tier5等级开发者,后续陆续增大开发者公开测试范围。

  Kimi大模型目前已接入了钉钉、扣子等平台,用户或开发者可以在这些平台选用Kimi大模型,借助出色的长文本和指令遵循能力搭建个性化的智能体应用。Kimi开放平台的开发者注册量自从今年2月份以来复合增长率超过175%,在投研服务、法律尽调、企业知识库问答、辅助软件开发等场景获得广泛应用。近期,Kimi开放平台陆续上线了工具调用(ToolUse)、PartialMode、上下文缓存(ContextCaching)等能力,持续帮助开发者高效打造更有想象力的AI应用。


编辑:徐霞
审核:吴娜

免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。

  • 微信
  • 微博
  • 手机中宏网

互联网新闻信息服务许可证10120230012 信息网络传播视听节目许可证0121673 增值电信业务经营许可证京B2-20171219 广播电视节目制作经营许可证(京)字第10250号

关于我们 中宏网动态 广告服务 中宏网版权所有 京ICP备2023030128号-1 举报电话:010-63359623

Copyright © 2016-2025 by www.zhonghongwang.com. all rights reserved 运营管理:国家发展和改革委员会宏观经济杂志社