Since 2024 — Beijing, China

超高速
大模型
推理云
Inference at the Speed of Thought

灵犀云算搭载自研低延迟推理芯片，为全球开发者提供毫秒级语言模型 API 接入能力——支持 DeepSeek、Qwen、GPT-OSS、Llama 及灵犀专属模型系列，定价透明，按量计费。

0T/s

Peak Token Throughput

峰值生成速率

0.9%

Monthly Uptime SLA

月度可用性承诺

<0ms

Time to First Token

首字节响应时延

Model Catalog

可用模型 / Available Models

Prices per million tokens. Toggle ¥ CNY / $ USD using the switcher. 按 Token 精确计费，支持货币切换。

1 USD = 7.25 CNY

Model	Context	Input Price	Output Price	Latency	Status
GPT-OSS-20B 128kgpt-oss-20 · openai	128K	¥0.18 / 1M	¥1.81 / 1M	Ultra-Fast	OSS
GPT-OSS-120B 128kgpt-oss-120 · openai	128K	¥1.01 / 1M	¥3.63 / 1M	Fast	OSS
Chatterbox TTSchatterbox-tts · lingxi	TTS	¥1.01 / 1M	¥181.50 / 1M	Real-time	TTS
Llama 4 Scout (17B×16E) 128kmeta-llama/llama-4-scout-17b-16e-instruct · lingxi	131K	¥0.40 / 1M	¥1.23 / 1M	Ultra-Fast	Production
Qwen3 32B 131kqwen/qwen3-32b · lingxi	131K	¥1.05 / 1M	¥2.14 / 1M	Fast	Production
Llama 3.3 70B Versatile 128kllama-3.3-70b-versatile · lingxi	131K	¥2.14 / 1M	¥2.86 / 1M	Fast	Production
Llama 3.1 8B Instant 128kllama-3.1-8b-instant · lingxi	131K	¥0.18 / 1M	¥0.29 / 1M	Ultra-Fast	Production

Model	Dimensions	Price	Max Input	Status
Embedding ProOpenAI · High Performance	1536	¥0.08 / 1M	8192 tk	Popular
LingXi-Embed-Large灵犀嵌入大模型 · 1024-dim	1024	¥0.05 / 1M	8192 tk	Production
Qwen3-Embedding-0.6B通义千问嵌入 · Multilingual	2048	¥0.04 / 1M	32K tk	New
LingXi-Embed-Lite灵犀嵌入精简版 · Low latency	512	¥0.02 / 1M	4096 tk	Production

Model	Context	Input Price	Output Price	Reasoning Tokens	Status
DeepSeek-R2深度求索推理版 · Chain-of-Thought	128K	¥1.20 / 1M	¥4.80 / 1M	¥2.40 / 1M	Popular
LingXi-Thinker-32B灵犀推理版 · Extended Thinking	256K	¥2.00 / 1M	¥8.00 / 1M	¥4.00 / 1M	New
Qwen3-235B-A22B-Thinking通义千问推理旗舰版 · MoE · Thinking Mode	1M	¥5.50 / 1M	¥22.00 / 1M	¥11.00 / 1M	Flagship

速

极速推理

Extreme-Speed Inference

自研 LingChip-X3 推理加速芯片，专为 Transformer 架构优化，单卡峰值吞吐量领先业界同类产品 3.8 倍。

稳

高可用集群

High-Availability Clusters

双活数据中心架构，三地容灾部署，99.9% 月度 SLA 承诺，毫秒级自动故障切换，无感知恢复。

安

数据安全

Data Security & Compliance

全链路 TLS 1.3 加密传输，数据不留存承诺，通过等保三级认证，满足 PIPL 及 GDPR 合规要求。

简

一行集成

OpenAI-Compatible API

完全兼容 OpenAI SDK，仅需修改一行 base_url，即可将现有应用迁移至灵犀平台，无需改造代码。

"Intelligence should flow as naturally as water — without friction, without latency, without compromise."

智能的流动应如水般自然——无阻力，无延迟，无妥协。这是灵犀云算成立时的初心，也是我们每一次迭代的准则。

灵犀云算创立于2024年，总部位于北京，是中国首家专注于大语言模型超低延迟推理的云服务平台。

我们的使命并非训练模型，而是将全球最优秀的开源及专有模型，以最快的速度、最低的成本、最高的稳定性交付给开发者。

我们深信，推理基础设施将成为未来 AI 应用栈中最关键的一层。灵犀正在为这一层构建中国最坚实的底座。

已有超过 12,000 家企业和独立开发者通过灵犀 API 构建产品，日均处理 Token 量超过 4,000 亿。