大模型时代高性能计算推动AI向行业纵深第9版:数智 20241014期中国工业报

    ■ 中国工业报耿鹏飞
   进入AIGC新时代，人工智能应用需要不断夯实算力底座。面对新的科技革命与产业变革，新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是 “新”，更重要的是实现 “生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力，为新质生产力的打造铺就了一条“高速路”。
   在9月24日到26日召开的第20届CCF全国高性能计算学术年会（CCFHPCChina2024）（以下简称“HPC2024大会”）和9月27日至29日召开的2024中国算力大会（以下简称 “算力大会”）上，CCF理事长、中国科学院计算技术研究所学术委员会主任、中国工程院院士孙凝晖，中国工程院院士、中国科学院计算技术研究所研究员李国杰，北京并行科技股份有限公司董事长陈健等行业专家分享了各自的观点。同时在中国信息通信研究院发布的《中国综合算力指数报告（2024）》中明确提到，AI是推动我国算力发展的重要驱动力，反之高性能计算在加速推动AI向各行业融合深入。
我国算力位居世界第二
   9月28日，工业和信息化部总工程师赵志国在算力大会上表示，截至2024年6月底，全国在用算力中心机架总规模超过830万标准机架，算力总规模达246EFLOPS（2460万亿次浮点运算），位居世界前列。算力产业发展不断提质、增效、向新。工业、教育、医疗、能源等多个领域的算力应用项目超过了1.3万个，有力支撑了人工智能的快速发展，为在更大范围、更高水平上共享数字化发展的成果奠定了坚实的基础。
   “打造典型应用场景，加快推进算力赋能新型工业化建设应用，在工业企业研发设计、生产制造、仓储物流、营销服务等重点环节，培养一批典型的应用场景和解决方案，打造算力服务体系，重点面向中小企业培育一批算力应用解决方案提供商，建设一批集成多方资源、开放多项能力的服务平台，在工业、教育、交通、能源等重点领域形成可复制、可推广的发展模式。”赵志国强调。
   据中国信息通信研究院发布的《中国综合算力指数报告（2024）》显示，近年来，全球算力规模持续提升。截至2023年底，全球算力基础设施总规模达到 910EFLOPS，同比增长40%。美国、中国位列前两名。从人工智能的角度，2003-2023年的20年间，智能算力需求增长百亿倍。截至2023年底，我国智能算力规模同比增长65%。人工智能是目前算力增长最主要的驱动力。
   “大模型预训练是目前对算力的主要需求，但广域分布式计算并不适合做大模型的训练，依靠多个小的智算中心，通过分布式计算来训练大模型未必是出路。”李国杰院士在HPC2024大会上表示。
高性能计算发挥 “火车头”作用
   孙凝晖院士在HPC2024大会上表示，“20年来，中国高性能计算产业取得了长足进步，已经达到世界一流水平。展望未来，高性能计算要继续发挥 “火车头”的作用，通过不断加强学术与产业交流，持续提升技术水平，促进对外合作与交流，引领智算时代未来技术的发展。”
   中国工程院院士、华中科技大学教授、国家数字建造技术创新中心首席科学家丁烈云表示，Al将为建筑产业的转型升级带来革命性的变化。建筑设计并不是靠画出来的，而是由模型算出来的，这就要求必须实现数理逻辑与形式逻辑的统一。未来，建筑生产不再是粗放式的建筑施工，而是可以像造汽车那样造房子，即通过模块化、一体化、自动化、智能化，在工厂实现提前预装。据悉，在实践过程中，丁烈云院士不仅将智能技术用于建筑设计领域，还在医疗健康甚至体育等领域进行广泛尝试，并且都取得了非常好的效果。
   陈健告诉中国工业报，大模型训练是超算应用，而超算系统设计需要考虑计算、访存、高速互连等协同设计,避免出现 “木桶”短板，这样才能更好地为大模型训练提供高效的算力支撑。同时，受参数规模、并行方法等多种因素影响，不同的算力模型训练应用运行特征不尽相同，这就要求基于具体的应用运行特征进行设计，选择与之相适应的超算架构算力产品平台，从而更精确、更高效地提升大模型的训练性能。
   腾讯云副总裁、智能制造和智慧能源解决方案负责人蔡毅告诉中国工业报，产业场景是AI与大模型技术应用的主战场，随着大模型的加速落地，企业将面临前所未有的发展机遇。
   据蔡毅介绍，三峡能源借助腾讯云TI平台，打造了云边协同的人工智能体系架构，集合了红外感知识别、风机叶片异常识别、声纹故障识别等30余种算法，实现了偏远地区风机的自动化巡检，让检修人员不必冒着严寒酷暑外出，可以把精力更多地放在创新性工作上，通过平台使得整体效率提升了27%，成本降低30%。
   联想对于大模型未来的应用前景持乐观态度。联想中国基础设施业务群战略管理总监黄山说，我国新型算力建设正走向规模化和多元异构，在此过程中面临的最大挑战主要表现在软硬件兼容性不足、互操作性设计复杂，智算算力利用率低，故障诊断与恢复是提升SLA（服务等级协议）的制约因素，制冷技术还需要持续升级等。
专家建言应对算力发展挑战
   然而，算力基础设施高速发展的同时也面临一些挑战。
   例如在算力优化布局方面，中国信息通信研究院院长余晓晖分析表示，除了通算、智算、超算、东数西算以外，还有很多与需求相匹配的算力部署，但是我国算力芯片生态比较碎片化，以及需求与供给有很多错位，不能完全精准适配，因此算力互联成网，是下一步要重点推动的工作。
   中国工程院院士，国家数字交换系统工程技术研究中心主任，复旦大学大数据研究院院长，教授、博士生导师邬江兴指出，当前先进计算面临的主要挑战，主要是在数据处理、存储、搬移等方面的瓶颈，以及计算系统整体效率低下、能耗不可持续和计算安全问题日益突出的现状。面对全球数据量的指数级增长和对计算性能的需求，传统单一架构已经很难满足多样化的需求，而用电力拼算力的范式也具有不可持续性。
   为有效解决上述问题，邬江兴提出了基于 “必要多样性定律”的变革性策略，强调 “通过多样性应对多样性”，同时提升系统的适应能力。具体来说，就是通过引入领域专用软硬件协同计算（拟态计算）和软件定义晶上系统（SDSoW）的创新路径，同时兼顾高效能、高灵活性和高性能的计算需求；通过软硬件协同与资源池化的动态聚合，实现对多任务、多算法、多资源的动态响应，最终提供一种能够应对未来智能时代需求的绿色、智能和安全的计算新范式。这一创新路径为智能计算时代的系统优化、资源利用和计算安全提供了新的思路与方向。
   当前，制造业企业对于人工智能、深度学习以及大模型都十分关注。但是，制造业企业面临的最大挑战是缺少对基础性问题的深入探究和认知。中国工程院院士、华中科技大学李培根指出，下一代智能制造需要关注以下五个重要问题：第一，明确数据是基础，打造以数据为中心的人工智能，并且企业要增强从海量数据中获取有价值信息的能力；第二，从历史数据中挖掘洞见，不要忽视那些看似影响不大的特征数据，只有这样才能根据各种微弱信号，更好地理解制造的高维空间；第三，在数字智能时代，制造的 “匠心”体现在数据上面，即对数据的敏感、对数据背后本质问题的体悟等；第四，物理空间（车间）需要实现IT与OT的融合；第五，大模型应用的关键之一就是需要智能代理，它有可能颠覆软件开发和应用的模式，从为工程师、管理者建立个人智能代理，到实现工业元宇宙，基于智能代理建立人机协同模式至关重要。
   清华大学计算机系陈文光教授认为：“实践证明，国产超算和智能算力平台可以支持大模型的训练，但也存在局限性，最大瓶颈在于单芯片的峰值算力，虽然通过软件优化可以在一定程度得到缓解，但并不能完全弥补差距。国产平台还需要再接再厉，更上一层楼。”