字:
关灯 护眼
零三小说 > 高二分科,我选校花也选亿万身家 > 第896章 天问

第896章 天问

    七月八号,雅安。

    九章算力基地的大门口,顾屿从比亚迪上下来,山里的空气比绵阳凉快不少。

    徐静提前清了路线,保安核验完身份之后,电动栏杆往上一抬,车直接开到了核心机房楼下。

    任少卿和安德烈已经在楼门口等着了。

    任少卿今天难得换了一件新T恤,头发也明显梳过。

    安德烈倒是老样子,松垮垮的格子衬衫,下巴上的胡茬比上次见面又浓了一圈。

    “走吧,带我看。”顾屿没寒暄,径直往里走。

    三人刷卡进入B区地下一层。

    走廊尽头的恒温玻璃门一推开,整排液冷机柜的嗡鸣声扑面而来。

    和以前那种暴力风冷的噪音完全不同,这批新部署的设备安静了太多。

    冷却液在透明管路里循环流动,带着淡淡的蓝绿色荧光。

    顾屿目光扫过去,这一排全是新到的K80,比之前那批K40的密度高了一倍不止。

    机柜顶部的状态灯亮着均匀的绿色,散热数据稳定在设计值以内。

    “这批是上个月从海外走的货。”任少卿跟在旁边,压低声音说,

    “一共一千二百张,全部部署完毕。InfiniBand的组网也跑通了,延迟压到了微秒级。”

    顾屿点头,没说话,继续往里走。

    穿过两道安全门之后,才到了九天实验室真正的核心区域。

    几十台工作站的屏幕上滚动着训练日志和损失函数曲线。

    楼天城坐在最里面那个角落,面前摊着三块屏幕,头也没抬。

    “说正事。”顾屿拉了把椅子坐下,

    “TranSfOrmer跑通了?”

    “完全跑通。”任少卿语气里带着克制的兴奋,

    “自注意力机制、多头注意力、位置编码,所有组件的数学验证零误差。我们在WMT翻译数据集上的实验结果,BLEU分数比当前最优的Seq2Seq加注意力模型高了四个点。”

    安德烈在旁边补了一句,俄语口音很重:

    “训练稳定性也解决了。Pre-LN加上WarmUp学习率调度,六层EnCOder加六层DeCOder堆叠,一次都没崩过。”

    顾屿看了一眼墙上贴着的手写实验记录,密麻全是安德烈的笔迹。

    数字和公式之间还画了些只有他自己看得懂的俄文批注。

    “论文呢?”

    “初稿完成了百分之七十。”任少卿说,

    “实验数据收尾大概还要两周。我的计划是八月底之前定稿,投NIPS。”

    “好。”顾屿靠在椅背上,双手交叉放在胸前,

    “论文的事你俩盯着,按你们的节奏来就行。但今天我来,是要跟你们说下一步的事。”

    他停顿了两秒。

    任少卿和安德烈同时看过来。

    连角落里的楼天城都终于抬起了头。

    “TranSfOrmer论文是武器,但不是终点。”

    “从今天起,全面转向大语言模型。”顾屿直接定调,

    “方向只有一个。不搞任何花里胡哨的修补,纯靠海量数据硬喂,只让它做一件事:猜下一个词。”

    房间里安静了几秒。

    任少卿反应极快:

    “不搞复杂的理解框架,直接暴力灌文本让它自己学?”

    “对。”

    “规模准备做多大?”

    “第一阶段,一亿五千万。”顾屿竖起一根手指,

    “先证明这条路能走通。等框架和管线成熟了,第二阶段直接拉到十五亿。”

    安德烈倒吸了口气。

    十五亿参数,按照现在的算力水平,这个数字几乎是在挑战物理极限。

    楼天城从他那三块屏幕后面探出半个脑袋,推了推眼镜。

    “一亿五千万倒是轻松。”楼天城语速很快,

    “就外面那一千两百张K80,如果火力全开,算上分布式通信的损耗,跑一个一亿五千万参数的模型顶多一到两周就能出结果,现有的数据并行完全吃得消。但十五亿这个量级,单卡显存绝对会当场撑爆。我得把张量并行那套东西从论文阶段直接拉到工程化落地,把巨大的矩阵计算硬切分到不同显卡上。”

    “你有多久能搞定张量并行?”顾屿问。

    “给我四个月。”

    “三个月。”

    楼天城嘴唇动了动,最终没反驳。

    顾屿看着他紧绷的脸,语气稍缓:

    “K80的显存墙确实是物理硬伤,这三个月你权当是用极限环境做系统演习。我已经让人带着现金飞去硅谷,跟黄仁勋签明年PaSCal架构超算卡的独家包销协议了。等你框架写完,我保证有更暴力的玩具送到你手上。”

    听到下一代超算卡,楼天城镜片后的眼睛亮了一下,但他紧接着提出了另一个问题。

    “模型架构不是最难的部分。”他站起来,走到白板前,抄起一支马克笔画了个简单的流程图,

    “一亿五千万参数的模型,至少需要几百亿TOken的高质量语料来喂。十五亿参数那个,可能需要上千亿TOken。”

    他在“数据”两个字下面重重画了一道线。

    “我们现在有什么?西红柿小说和引力的内部数据虽然多,但现在的简易脚本根本算不上成体系的清洗管线。”

    楼天城皱着眉头敲了敲白板,

    “咱们这套1.0版本的管线洗出几百GB的语料勉强能用,如果要喂出十五亿参数,重复数据、低质内容全混在里面……直接拿去训练,模型学出来的东西会非常糟糕。”

    “还有一点。”楼天城又补了一笔,

    “如果未来想让模型具备多模态理解能力,光靠文本远不够。图像数据、图文配对数据,这些东西目前完全是空白。”

    他转过身看着顾屿:

    “千亿TOken级别的现代清洗管线、人工标注人力、图像语料来源。这三个缺口,任何一个解决不了,十五亿参数的模型就只是个空壳。”

    顾屿没有回答。

    他看着白板上楼天城画的那个流程图。

    “不急。”

    “数据的事情我已经在安排了。”顾屿语气云淡风轻。

    楼天城点了点头。

    “你现在要做的事情只有一件。”顾屿重新看向楼天城,

    “利用你手上的并行训练框架,在最短时间内把大语言模型的底层架构搭起来。数据接口、分布式训练管线、混合精度支持,全部打通。等语料灌进来的那一天,我不想再等哪怕一个小时。”

    “明白。”楼天城应了一声,已经在脑子里开始拆解任务了。

    “项目从今天起正式立项。既然是改变技术路线的终极兵器,总得有个响亮的代号。”

    顾屿看着面前这三位顶尖大脑,“你们有什么想法?”

    安德烈摸了摸下巴浓密的胡茬,操着带有口音的中文说道:

    “既然是处理语言的模型,叫‘巴别塔’怎么样?打破人类的语言壁垒。”

    “寓意不好,巴别塔最后可是塌了的。”

    任少卿摇摇头,思索着开口,

    “或者叫‘盘古’?开天辟地,比较有咱们的特色。”

    楼天城推了推眼镜,提议道:

    “要不干脆叫‘矩阵’?毕竟底层逻辑全是巨大的矩阵相乘。”

    顾屿听着他们的讨论,笑了笑。

    他站起身,走到白板前,抽出一支黑色马克笔。

    “神话太缥缈,算符又太冰冷。我们要做的,是向这堆硅基芯片和海量数据里,去寻找那一丝涌现的智慧火花。这是一场对未知极限的终极拷问。”

    顾屿拔掉笔帽,在白板右上角用力写下两个大字。

    天问。

    屈原问天,不得其解。而他们,要用算力强行要出一个答案。

    “这个项目,代号天问。”顾屿将笔随手丢回笔槽,转头看向三人,

    “一亿五千万参数只是天问一号。等语料到位,我们要直接冲击十五亿,甚至未来的千亿级别。”

    任少卿看着那两个遒劲的字,低声念了一遍,布满红血丝的双眼中蓦地燃起了一团火光。

    楼天城和安德烈也紧紧盯着白板,一时间无人说话。

    顾屿看着他们,眼神深邃。

    前世类似架构的大语言模型,第一次让全世界见识到“涌现”,是2020年的事。

    一亿五千万参数对标的是OpenAI在2018年发布的GPT-1,而十五亿参数对标的,是2019年让人类首次感到不安的GPT-2。

    别人花了五年摸索的黑暗森林,他要带着这群人,用三年时间彻底凿穿。

    正想着,实验室的恒温门被人从外面急匆匆地推开了。

    “顾总。”

    魏从军的声音从门口传来。

    “老魏。”顾屿转过身,“什么事?”

    魏从军走到近前,压低了声音:

    “市场出事了。A股上周五跌破四千点之后,今天继续千股跌停。两市流动性几乎完全枯竭,大量个股无量封死在跌停板上,连卖都卖不出去。国家队的一千二百亿进场之后只撑了半天,下午又被砸回去了。”

    他顿了顿,看了一眼旁边的任少卿和楼天城。

    顾屿摆了摆手,示意没关系。

    魏从军继续说:“恐慌情绪已经完全失控。融资盘强平踩踏,配资盘连环爆仓。按照现在这个跌法,明天可能还会有一批股票触发强平线。”

    顾屿靠在白板边,双臂抱胸。

    “资金准备得怎么样了?”

    这句话一出口,魏从军的表情从凝重变成了某种复杂的神色。

    “国内回笼的那两百亿现金,前期已经在低点全部分散买入建仓了。”他说,

    “离岸通过QFII和FDI通道过境的三百亿资金,现在也已经全部进来了。全现金,无杠杆,随时可以动用。”

    前前后后合计五百亿的规模。

    顾屿没有多余的表情。他看了看手机上的时间。

    “该我们入场了。”

    “花光它们”
『加入书签,方便阅读』