AIC算力解决方案

承载 AI 大模型,越用 ROI 越高,越用越安全

解决方案概述

基础设施层深度兼容英伟达和国内厂商 GPU,通过统一管理实现大模型在异构算力上的平滑迁移调度,同时支持 GPU 按照算力和显存声明式细粒度切分,提升 GPU 资源利用率。持续兼容 DeepSeek-R1、Qwen 等主流开源大模型,自定义模型功能支持部署垂域 AI 大模型及传统小模型,实现大小 AI 模型混合部署,并通过对并行调度器、推理缓存、负载均衡的性能优化、昇腾 NPU 定向优化,大幅提升大模型推理并发吞吐性能,让大模型越用 ROI 越高。支持模型服务 API 多 Key 管理、token 级别监控、服务限流能力及用量观测看板。支持模型微调训练等能力,降低大模型使用门槛,并通过模型动态加密保障专属模型的知识产权,越用越安全。

AICP算力平台架构图

核心优势

模型安全

模型动态加密技术和自适应加密算法保障模型运行安全

ROI 提升 2-5 倍

自研自适应架构层,检索投机推理技术与多实例智能负载大幅提升推理性能

开放性

向下解耦显卡,向上广泛兼容模型

易于管理

vGPU 技术可按显存大小快速调整 GPU 资源分配,解决只能整卡调用难题,实现大小 AI 模型混合部署,优化算力资源利用率

应用场景

01

企业

AI 物料选型,工程设计知识库,设备维修 AI 助手

02

金融

知识问答( 投研领域、产品投教 ),保险销售机器人,智能风控

03

ISV

应用 Copilot 化, 代码自动生成, 专业知识库

技术规格

蒸馏模型名称
承载最小配置
并发
DeepSeek-R1-671B(FP8)
1 台 H20*8( 总显存 1152GB)
256
DeepSeek-R1-671B(混合精度)
4090D*8(总显存 192GB)(CPU 架构为 AMD)
8
Qwen3-235B-A22B(FP8)
1 台 H20*4( 总显存 576GB)
256
DeepSeek-R1-Distill-LLama-70B(BF16)
4090D*8(总显存 192GB)
128
DeepSeek-R1-Distill-Qwen-32B(BF16)
4090D*4(总显存 96GB)
256
Qwen3-32B(BF16)
4090D*4(总显存 96GB)
256
DeepSeek-R1-Distill-Qwen-14B(BF16)
4090D*2(总显存 48GB)
256
DeepSeek-R1-Distill-Qwen-7B(BF16)
4090D*1(总显存 24GB)
256