核心观点
电动化和智能化的跨越式发展,使得汽车在机械属性基础上增加了科技属性和消费属性,成为前沿创新技术的最佳集成器。未来评价汽车主要关注的是其技术创新和产品创新的“价值”,是其能否充分承载大模型的技术特性和优势。另外,汽车的全生命周期包括研发、生产、销售、使用等众多环节,涉及大量数据和复杂决策过程,应用场景丰富,这为大模型的应用落地提供了广阔空间。但仍面临算力、数据商业模式等方面的挑战,需要加强大模型对汽车行业的颠覆性影响的认识,建立适应大模型发展的管理体制,加强算力共享,促进数据共享流通,探索构建开放性合作生态,充分发挥电动智能汽车对创新技术应用的示范性与引领性。
01、大模型对汽车智能化发展的价值正在凸显
大模型将推动汽车成为超级智能体。大模型以算力为基础、数据为资源、算法为放大器的技术范式具有马太倍增效应,已经产生出智能涌现的特性,可以在自动驾驶、智能座舱等多方面提升汽车的智能化水平,且能快速迭代,带来新的价值增量。例如,特斯拉FSD V12率先使用端到端技术并实现数据闭环,人工代码由30万行缩减至3000行,从V12.3.1到V12.3.5的四个版本迭代仅用15天。大模型甚至有可能推动智能驾驶汽车变革为超级智能体,让汽车能够不断从周围环境中积累数据并自主改进和优化自身表现,主动适应各种驾驶环境和交通状况,提高驾驶的舒适性和安全性;也可以帮助汽车理解人类的语言和手势,并通过语音、灯光或屏幕等方式与人类进行高效沟通。
大模型以革命性的方式改写汽车全生命周期的价值创造。以电气化为基础形成的传统汽车制造模式,已经延续将近百年,技术发展已经遇到瓶颈。以大模型为代表的AI的风潮将会颠覆汽车行业原有的生产方式,重塑整车设计研发、生产制造、市场营销、售后服务、供应链等各个环节,推动整个制造链条的产业化、数字化升级。
一方面,拉进用户与车企的关系。大模型会成为车企掌握直面用户的流量入口,帮助车企在需求定义、用户运营、产品升级等各个环节,抓取每一个用户的个性化需求,以提供千人千面的产品迭代和服务拓展。如极越汽车依赖大模型打通了用户用车的问题搜集、数据反馈、工程师处理的自动化闭环,极大提升了组织效率。
另一方面,汽车的设计与生产方式也得到了革新。目前小鹏、极越等车企30%以上的软件依赖于大模型自动生成。此外,大模型还为科技公司赋能汽车产业增加了一条清晰可行的路径,进一步促进了人工智能、信息通信等与汽车产业的融合,加速产业格局重塑。
02、规模取胜大模型在汽车领域应用面临诸多挑战
国内企业面临训练芯片“卡脖子”问题。大模型云端训练需要上万片高端GPU训练芯片,尤其是端到端自动驾驶训练数据量已达到PB级,训练芯片需求更大。特斯拉端到端自动驾驶FSD V12在超过10万块GPU芯片支撑下才实现周级迭代。国内多数车企仅有上千块GPU,很难发挥海量数据的价值并实现较好的训练效果。
大模型在云端提供服务也需要大量算力支撑,以ChatGPT为例,按照每天独立访问量2500万次计算,预计需要3万多片A100芯片。目前,美国对华禁售A100、H100高性能GPU芯片,甚至也限制出售“阉割”版的A800、H800。
同时,国产芯片仍存在制程落后、性能不足等问题,部分芯片在大规模训练时故障率较高,使用体验仍有欠缺,导致我国车企的算力扩展遇到很大阻力。
国内大模型训练数据量少且质量不高。数量方面,据Epoch AI估算,全球用于训练通用大模型的数据中,书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽,大模型训练或将面临无数据可用的窘境。并且符合中文价值观的高质量语料严重不足, Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流数据集都以英文为主,中文语料数据仅占约1.3%。另外,大模型理解和掌握客观世界规律,需要学习大量来自知识和价值观层的数据,此类中文语料短缺严重,甚至无法通过机器翻译弥补。聚焦自动驾驶领域,特斯拉拥有超过1000万个有效视频片段数据,且其在全球有超过600万辆智能汽车在通过影子模式持续采集数据。与之相比,国内车企场景数据普遍不足百万,出于数据合规的考虑,车企之间数据难以共享流通,导致国内车企的高价值场景数据较特斯拉相差超过一个数量级。
质量方面,汽车行业属于传统制造业,国内汽车企业在数据挖掘和数据治理领域的积累不足,数据的沉淀更是差强人意。这使得大模型在汽车行业落地应用过程中,存在明显的训练数据分布不均衡及完备性较差等问题。例如,国内车企的绝大部分数据分布在几个密集的场景里,“头部效应”非常明显,真正需要的极端工况数据却非常少。且国内车企车型多而单一车型存量少,不同车型的传感器配置不一,且采集的数据各有差异。与特斯拉车型相对集中且传感器方案比较统一相比,国内车企数据的复用性很差。
数据问题不解决,大模型可能会形成“偏科”,导致产生严重的“幻觉”问题,由于汽车行业本身对安全性和可靠性的要求极高,这会大大限制大模型的应用落地。
落地商业模式不清晰。一方面,大模型处于发展初期,主要以Token使用量收费。从TO B模式来看,车企每年的预算、成本、营收是固定的,以Token使用量来收费的模式动态性太大,车企难以接受。另一方面,“软件+服务”的模式,在国内很难得到认可。在汽车行业“内卷”越来越严重的当下,纯license模式也难以持续,企业付费意愿不高。此外,大模型商业化的价值,还是以提升车企产品销量的传统方式为主,车企、大模型企业双方还未找到可以合作共赢的路径。
缺乏良性合作生态支撑。一是贯穿实时信息以及垂类信息的数据生态还未形成,导致大模型对实时动态和垂直领域的理解能力比较差。例如,GPT-3.5训练数据集截止到2021年,无法理解和处理2022年的信息。二是大模型上车会对整车软件架构、硬件能力、交互策略产生很大影响。目前国内大模型产品非常多且迭代速度非常快,如何在保证产品竞争力的前提下与大模型企业合作,车企仍存疑惑。
缺乏大模型能力评价标准。行业和消费者对大模型上车的期望都很高,但对其表现的诉求“千人千面”。有些人希望大模型无所不能,对所有的问题都能答复。有些人希望简洁,只要按照指令操作即可。如何评价大模型在具体场景下的能力,仍然没有明确、统一的标准。例如,当前大模型在语音交互的语言理解、逻辑推理、信息归纳等能力方面,已经有很多评价指标,但是在上车评价方面,仍面临识别准确率的评判局限、响应速度评价单一、用户体验受主观性和复杂性拘束、缺乏多场景综合评估等挑战。
03、加快推进大模型在汽车领域应用的建议
加强大模型对汽车行业颠覆性影响的认识。汽车行业的根本是制造业,大模型创新发展的速度远远超出了汽车产业,两个产业融合会对汽车产业产生深刻甚至颠覆性的影响。汽车行业需要从战略上刷新认知,顺应技术发展趋势,加快拥抱和接纳大模型的速度,充分利用大模型加快汽车产业智能化发展的步伐。
建立适应大模型发展的管理机制。智能汽车的快速发展是多部门共同推进的结果,大模型在汽车行业的落地应用是一个系统性工程,需要算力、算法、信息传输等多层面能力的共同支持,更需要政府部门统筹推进,建立一个适应大模型发展的管理机制。在技术相对落后的情况下,发挥我国多系统协同的能力和优势,从而探索出差异化的发展道路。
加强试点示范。目前,国内通过备案的大模型达117个,但真正实现商业变现的很少,关键是没有找到核心的应用场景。建议选择具有代表性的车企和大模型企业,开展试点示范项目,通过应用驱动的方式,探索大模型在汽车领域的高价值应用场景,形成可复制、可推广的经验模式,促进大模型的可持续健康发展。
加快推动算力共享。以美国为代表的发达国家的AI和芯片,已经形成软硬件相互促进的合力。为弥补算力短板,建议政府部门和行业机构推动建立算力联盟,把部分公共属性的算力统筹起来。或者鼓励企业揭榜挂帅,将国内各公司分散的算力集中起来,推动算力资源共享,解决AI基建不足的问题。
促进汽车数据共享与流通。一方面,加快制定汽车数据定价、权责划分、流通交易等基础制度,消除相关法规壁垒,促进汽车数据大规模流通,增加可供大模型训练的数据量。
另一方面,借鉴北京市政府开放市区级单位高质量政务数据的做法,在合法、保证隐私的前提下逐步放开部委、地方政府的政务数据并积极引导行业机构释放部分高质量数据,形成通用型数据集并对外公开,比如地理信息涉密等级、AI内容生成涉及的道德、伦理、法规等相关信息。
此外,加大对数据合成、仿真数据方面的支持力度,适当鼓励并推动合成数据的应用,弥补国内车企数据不足的短板。
构建开放性合作生态。发挥好车企的链主角色,推动形成面向全行业的开放平台。车企把握数据入口,供应商提供算法、算力,共同打造能力共享、灵活组合的开放性生态,协同推动汽车行业大模型的发展。
加快建立大模型上车与评价标准体系。在行业机构的牵头下,根据差异化落地场景,分步骤推动大模型上车评价标准和宣传体系的建立。可优先推动进展较快的人机交互等应用场景。
执笔人:贾浩
本文转自: 智能汽车与智慧城市协同发展联盟,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。