华体会最新首页登录

当前位置: 首页 > 新闻中心 > 行业新闻
强化算力、语料等基础底座能力 上海为大模型创新“加注”燃料

日期: 2025-04-29   类型:行业新闻

  DeepSeek火爆出圈之后,国产大模型产业风起云涌。作为大模型产业创新的重要燃料,算力和语料必然的联系着大模型产业落地的进展。上海积极通过强化算力、语料等基础底座能力,构建开放多元的产业生态。在全球开发者先锋大会举办前夕,上海两家参会企业表示,今年将在公共服务平台持续深耕,顺应垂类应用蒸蒸日上的趋势,为企业创新提供高性价比、高质量的算力与语料支持。

  智能算力是大模型创新和AI应用的动力引擎。在上海仪电集团建设推动下,上海已拥有多个国内领先的“大规模、高等级”万卡智算集群,为上海重要大模型企业和研究机构提供了低成本算力服务,支撑了阶跃星辰Step、书生浦语、商汤日日新、MiniMax ABAB、DeepSeek、Llama3、通义千问等大模型的高效部署和加速。

  作为上海市智能算力公共服务平台,上海仪电发挥国产智算产业链生态链接和引领作用,通过国产芯片软硬件和解决方案适配来降低国产芯片的使用门槛,为上海重要大模型企业和研究机构提供了低成本算力服务,并建设了国产化AI算力适配测试中心、AI产业研究等一系列公共服务功能。目前,已完成十余款国产芯片的适配测试,并开展国产软硬件平台的适配和新技术验证。

  为降低人工智能中小企业创新成本,上海仪电邀请相关企业共建上海市智能算力资源统筹调度服务平台,建设算力超市,通过统筹调度,让算力资源与AI开发者、创业者、应用者精准匹配。

  此外,由仪电旗下云赛智联建设的智算中心连续六年承建上海市大数据中心数据运营项目,在政务、商务多个行业实现 AI 垂类大模型应用场景落地和推广,逐步建立起智能算力基础设施、人工智能垂类模型应用和大数据运营能力。

  上海明白准确地提出建设智能算力集群、语料供给体系等目标,并通过五大公共服务平台(算力、语料、评测等)的建设,夯实基础底座。到2025年底,上海将建成世界级AI产业生态,力争全市智能算力规模突破100EFLOPS(EFLOPS指每秒百亿亿次浮点运算次数)。

  “这次DeepSeek横空出世,让我们这些AI从业者既兴奋又焦虑。我们团队从年初四开始就没有休息了,要抓紧做一些研究,DeepSeek的启发在于,通过技术创新,为中国大模型公司和产业的发展提供了一个较好的‘换道超车’路径,算法创新+高质量数据集是赶超国际的主要路径。”上海库帕思科技有限公司CEO黄海清认为,高质量语料数据集决定大模型能力的上限。

  库帕思作为中国首家由政府主导成立的人工智能语料公司,以“功能性语料服务专业化平台”定位,推动行业从“乱炖式”数据管理向标准化、体系化转型。

  “对语料数据的管理过去是没有方法论的,我们要从无到有搭建语料方法论,通过技术方法将原始数据转化为可直接训练的高质量语料,推动语料数据向‘鲜活性、真实性、大样本、完整性、多样性、高知识密度‘的方向发展。今年将重点加强自动清洁洗涤算子及自动标注算法等研发技术,到今年年底,团队计划各建300个智能清洗算子和智能标注算子,取代传统劳动密集型人工标注,降低语料成本。”

  库帕思正在建设大模型语料超级工厂,该公司的AI机器人正以每天最高1000GB的速度进行语料加工。预计到年底,其语料库的总容量有望达到2PB(1PB约等于100万GB),不仅有文本,还有图片、音频、视频等,“我们为整个大模型产业不断加注高质量的燃料,助推更多创新应用落地”。

  记者获悉,库帕思已经全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设,按照储备一批、转化一批、应用一批,稳步推进数据语料化工作,并对外提供市场化服务。“按照‘一业一方法、一业一指引’,形成了语料库建设导则和系列技术白皮书,链接了超过50家的语料生态合作伙伴,大模型语料数据联盟真正的完成了‘提质扩容’。”

文章推送