Language / 语言
Currency / 货币
立即使用
Since 2024 — Beijing, China

超高速
大模型
推理云
Inference at the Speed of Thought

灵犀云算搭载自研低延迟推理芯片,为全球开发者提供毫秒级语言模型 API 接入能力——支持 DeepSeek、Qwen、GPT-OSS、Llama 及灵犀专属模型系列,定价透明,按量计费。

0T/s
Peak Token Throughput
峰值生成速率
0.9%
Monthly Uptime SLA
月度可用性承诺
<0ms
Time to First Token
首字节响应时延
DeepSeek-R2 NOW AVAILABLE
Qwen3-72B NEW
GPT-OSS-120B JUST ADDED
LingXi-Turbo-7B 250% FASTER
灵犀 API v3 RELEASED
Llama-4-Maverick LIVE
北京数据中心 ONLINE
DeepSeek-R2 NOW AVAILABLE
Qwen3-72B NEW
GPT-OSS-120B JUST ADDED
LingXi-Turbo-7B 250% FASTER
灵犀 API v3 RELEASED
Llama-4-Maverick LIVE
北京数据中心 ONLINE
Model Catalog

可用模型 / Available Models

Prices per million tokens. Toggle ¥ CNY / $ USD using the switcher. 按 Token 精确计费,支持货币切换。
1 USD = 7.25 CNY
Model Context Input Price Output Price Latency Status
LingXi-Turbo-7B灵犀快速版 · 7 Billion Parameters
128K
¥0.08 / 1M ¥0.22 / 1M
Ultra-Fast
Production
LingXi-Pro-32B灵犀专业版 · 32 Billion Parameters
256K
¥0.45 / 1M ¥1.20 / 1M
Fast
New
GPT-OSS-120BOpen-Source · 120 Billion Parameters · OpenAI-compatible
200K
¥0.98 / 1M ¥3.63 / 1M
Fast
OSS
DeepSeek-V3-0324深度求索 · 671B MoE · Hosted on LingXi
128K
¥0.58 / 1M ¥1.75 / 1M
Ultra-Fast
Popular
Qwen3-72B-Instruct通义千问 · Alibaba · 72 Billion Parameters
1M
¥0.70 / 1M ¥2.10 / 1M
Fast
New
Llama-4-Maverick-17BMeta AI · 17B Active / 400B Total MoE
1M
¥0.35 / 1M ¥1.05 / 1M
Ultra-Fast
Popular
LingXi-Ultra-405B灵犀旗舰版 · 405 Billion Parameters
512K
¥3.50 / 1M ¥10.80 / 1M
Standard
Flagship
Model Dimensions Price Max Input Status
Embedding ProOpenAI · High Performance
1536 ¥0.08 / 1M 8192 tkPopular
LingXi-Embed-Large灵犀嵌入大模型 · 1024-dim
1024 ¥0.05 / 1M 8192 tkProduction
Qwen3-Embedding-0.6B通义千问嵌入 · Multilingual
2048 ¥0.04 / 1M 32K tkNew
LingXi-Embed-Lite灵犀嵌入精简版 · Low latency
512 ¥0.02 / 1M 4096 tkProduction
Model Context Input Price Output Price Reasoning Tokens Status
DeepSeek-R2深度求索推理版 · Chain-of-Thought
128K
¥1.20 / 1M ¥4.80 / 1M ¥2.40 / 1M Popular
LingXi-Thinker-32B灵犀推理版 · Extended Thinking
256K
¥2.00 / 1M ¥8.00 / 1M ¥4.00 / 1M New
Qwen3-235B-A22B-Thinking通义千问推理旗舰版 · MoE · Thinking Mode
1M
¥5.50 / 1M ¥22.00 / 1M ¥11.00 / 1M Flagship
01
极速推理
Extreme-Speed Inference
自研 LingChip-X3 推理加速芯片,专为 Transformer 架构优化,单卡峰值吞吐量领先业界同类产品 3.8 倍。
02
高可用集群
High-Availability Clusters
双活数据中心架构,三地容灾部署,99.9% 月度 SLA 承诺,毫秒级自动故障切换,无感知恢复。
03
数据安全
Data Security & Compliance
全链路 TLS 1.3 加密传输,数据不留存承诺,通过等保三级认证,满足 PIPL 及 GDPR 合规要求。
04
一行集成
OpenAI-Compatible API
完全兼容 OpenAI SDK,仅需修改一行 base_url,即可将现有应用迁移至灵犀平台,无需改造代码。
"Intelligence should flow as naturally as water — without friction, without latency, without compromise."
智能的流动应如水般自然——无阻力,无延迟,无妥协。这是灵犀云算成立时的初心,也是我们每一次迭代的准则。

灵犀云算创立于2024年,总部位于北京,是中国首家专注于大语言模型超低延迟推理的云服务平台。

我们的使命并非训练模型,而是将全球最优秀的开源及专有模型,以最快的速度、最低的成本、最高的稳定性交付给开发者。

我们深信,推理基础设施将成为未来 AI 应用栈中最关键的一层。灵犀正在为这一层构建中国最坚实的底座。

已有超过 12,000 家企业和独立开发者通过灵犀 API 构建产品,日均处理 Token 量超过 4,000 亿