模板化实例
基于版本化模板启动长生命周期的 SSH、Jupyter 或自定义入口环境。
大多数团队都在重复造轮子——一次写在脚本里,一次留在工单里。SciFlow 替你把这两层都做掉。
缺少真正的准入层时,谁声音大谁就抢到资源,排队全靠 Slack 群里催。
科研工作需要长生命周期的 SSH 或 Jupyter 工作空间,而非绑定 Pod 规约的短命容器。
把当前可用环境留给下一次实验,往往意味着一堆脚本、Registry 操作和复制粘贴的命令。
组织配额、成员配额和 GPU 用量统计散落在表格和各种监控面板里,难以汇总。
六大产品能力,替代当下大多数集群依赖的脚本、面板和人工审批的拼凑方案。
基于版本化模板启动长生命周期的 SSH、Jupyter 或自定义入口环境。
用户可选择计费的组织,管理员负责管理成员配额和按 GPU 类型分配的整数预算。
拒绝非法请求,对暂时无容量的合法请求进行排队,避免用空 Pod 抢占 GPU。
把已配置好的工作负载保存为可复用镜像,作为后续模板和可复现实验的基础。
SSH 密钥与 API 密钥归属于账户,在启动时注入实例,而不是埋藏在模板里。
为集群管理员和财务提供用量记录、计费摘要、GPU 核算与定时汇总。
从挑选模板到保存可复用镜像的稳定路径——研究者本来就在走这条流程,只是从未被产品化。
选择一个版本化模板——镜像、启动模式、启动脚本、端口与环境变量。
确定 GPU 类型与切分粒度,并选择本次启动要计费到哪个组织。
准入层实时计算配额。容量充足则立即启动,否则按公平规则排队。
把当前运行中的工作负载提交回镜像,给下一个实验直接复用。
管理员 · 配额
集群概览
GPU 总数
24
使用中
11
排队中
3
| 组织 | H100 | A100 | 队列 |
|---|---|---|---|
| 视觉实验室 | 4 / 6 | 2 / 4 | 1 |
| NLP 组 | 1 / 2 | 3 / 3 | 0 |
| 机器人组 | 0 / 1 | 1 / 2 | 2 |
SciFlow 让平台管理员获得所需的控制权和可观测性,同时不强制底层集群采取僵化的部署结构。
五个职责清晰的服务。Authentik 在边缘负责登录,SciFlow 负责授权、配额与运行时。
本地用户投影、配额账本与准入决策都在这里。
模板、实例生命周期、队列状态与运行时状态。
镜像元数据、提交操作以及 Registry 元数据归属。
持久化 Worker、重试、对账与节点本地执行。
用量记录、计费摘要与 GPU 核算汇总。
SciFlow 范围之外
Authentik、oauth2-proxy 和集群基础设施由独立的 FluxCD 仓库管理——SciFlow 只关注应用层。
在学生与项目之间共享 GPU,并保留合理的配额边界。
用自助式产品替代漫长的工单流程。
组织与成员配额一目了然,不需要再用空 Pod 占位。
每个实验都有可复现的模板和保存好的镜像。
通过显式排队与租约实现组织级公平。