人工智能：未来近在眼前

demi 在周四, 02/22/2024 - 17:31 提交

作者：管文明
来源：创意世界

当前，人工智能的研究热点领域有大语言模型、计算能力、生成式人工智能应用等。这些研究，让人工智能真正具有了“智能”，让我们看到了幻想中的未来的曙光。

在2022年底ChatGPT横空出世之后，人们开始感知到，一个新的时代已经来临了——继个人电脑、互联网之后，人类即将迎来人工智能（AI）时代。甚至有人认为，人工智能可能是人类在学会用火之后最重要的技术变革，其重要程度甚至超过蒸汽机和互联网的发明，因为人工智能意味着未来人类的生产和生存模式将发生翻天覆地的变革。

正因如此，2023年被很多人称为“生成式人工智能元年”。在这一年里，各种基于人工智能的应用和服务层出不穷，教育、医疗、娱乐、交通、金融、安全等各个领域都涌现出许多创新和突破。

例如，微软推出了基于ChatGPT的聊天模式，让用户可以与一个智能而有趣的对话伙伴进行沟通和交流；百度发布了全球首个量子计算云平台“百度量子”，让用户可以利用量子计算机进行高效和复杂的计算任务；阿里巴巴开发了基于神经网络的阿里云语音合成技术，让用户可以自由地生成任何语言和声音的语音内容；腾讯推出了基于深度学习的微信的图像识别功能，让用户可以通过拍照或扫描识别任何物体和场景的信息；字节跳动推出了基于自然语言处理的视频生成技术，让用户可以通过输入文字或语音生成任何主题和风格的视频内容……回顾过去、展望未来，人工智能究竟意味着什么？

1、人工智能，不算新鲜

虽然在过去的一年里，人工智能让无数人兴奋不已，但说起来人工智能也不算是新鲜事物了。

图片芯片、计算能力对人工智能的发展至关重要。图/摄图网
人工智能是一门研究如何让计算机模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的科学。20世纪五六十年代是人工智能的萌芽期，此时，人工智能概念被提出，并出现了符号主义和联结主义两大学派，取得了一些突破性的成果，如机器定理证明、跳棋程序、人机对话等。

但由于技术限制，人工智能在那个时代并没有得到很好的发展，随后便进入了停滞和反思发展期。当时，人工智能遇到了一些技术瓶颈和应用障碍，如无法处理常识性知识、自然语言理解、非结构化数据等，导致人工智能发展进入低谷。

至上世纪七八十年代，专家系统作为人工智能的一种应用形式，实现了从理论研究到实际应用的转化，在医疗、化学、地质等领域取得了成功，推动了人工智能的第二次高潮。但是，计算能力等问题还是限制了人工智能的发展，这次高潮并没有取得突破性的进展——专家系统暴露出了一些问题，如知识获取困难、推理方法单一、缺乏学习能力等，导致人工智能再次陷入低谷，进入低迷发展期。

当互联网技术于上世纪末出现并在本世纪初普及之后，人工智能也随之进入稳步发展期。互联网技术的发展为人工智能提供了新的数据源和计算平台，促进了人工智能的创新研究和实用化应用。例如，IBM的深蓝超级计算机战胜国际象棋冠军，IBM提出“智慧地球”的概念等。

从此之后，人工智能开始蓬勃发展，出现了大数据、云计算、物联网等人们耳熟能详的技术，这些技术共同推动了以深度神经网络为代表的人工智能技术飞速发展，在图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域实现了从“不能用”到“可以用”的技术突破，迎来爆发式增长的新高潮。

2、生成式人工智能大变革

此次人工智能热潮之所以能引起广泛关注，主要是因为生成式人工智能飞跃式的进步。

生成式人工智能（AIGC）是一种利用深度生成模型，从数据中学习潜在分布，并根据给定条件生成新的数据或内容的技术。其技术原理主要有变分自编码器（VAE）、生成对抗网络（GAN）、变换器（Transformer）等几种。生成式人工智能目前主要用于图像生成、视频生成、文本生成、音乐生成等场景。

图像生成是利用生成模型从噪声或文本等条件中生成逼真的图像，或对图像进行编辑、修复、上色等操作。例如，人脸生成、风格迁移、图像超分辨率等。在过去的一年中，最热的图像生成人工智能工具大概是MidJourney，这个人工智能平台可以根据用户输入的一些提示词（prompt）生成图像，而且很多图像极具想象力，可以超乎用户的期待。MidJourney在2023年春天发布V5版本后，更可以生成照片级图像，达到了以假乱真的水平。除了MidJourney之外，还有DALL-E 2、DALL-E 3以及其他一些图像生成人工智能，它们共同把图像生成人工智能推向了高水平发展。

图片图片生成平台DALL·E在2023年推出了第3代版本。
视频生成是利用生成模型从噪声或文本等条件中生成动态的视频，或对视频进行插帧、去模糊、增强等操作。例如，视频合成、视频插值、视频补全等。视频生成人工智能可以用于各种场景和领域，如教育、娱乐、广告、新闻等。

Synthesia是一款知名的视频生成人工智能平台。这是一个基于变换器模型的视频生成平台，可以根据用户的输入文本生成与之相关的视频。Synthesia提供了多种语言和口音的虚拟演讲者，以及多种风格和主题的视频模板。Synthesia可以用于制作教程、演示、广告、新闻等类型的视频。Pictory则是一个基于深度学习的视频生成平台，可以根据用户的输入文章或脚本生成与之相关的视频。Pictory可以自动提取关键信息，并为视频匹配合适的图片、音乐和字幕。

文本生成是利用生成模型从噪声或文本等条件中生成连贯的文本，或对文本进行摘要、翻译、改写等操作。例如，文章写作、对话系统、机器翻译等。文本生成领域里，名头最响的当然非ChatGPT莫属了。

作为本轮人工智能热潮的开启者，OpenAI公司旗下的ChatGPT不仅可以和用户进行像真人一样的对话，还可以进行特定主题或场景的对话，如旅游、购物、咨询等，也可以根据用户的需求进行写作。在ChatGPT爆火之后，众多企业进行跟进研发，比如百度发布了文心一言、谷歌发布了Bard等，这些文本生成平台都具有类似的功能，只不过能力各有差异。目前来看，能力最强的还是ChatGPT的最新版本GPT-4。

音乐生成是利用生成模型从噪声或文本等条件中生成旋律和节奏的音乐，或对音乐进行变调、混音、合成等操作。例如，音乐作曲、歌声合成、音乐风格转换等。Jukebox是一个基于变换器模型的音乐生成系统，可以根据用户的输入文本或音频生成与之相关的音乐。

Jukebox不仅可生成不同风格和类型的音乐，还可以生成不同歌手和语言的歌声，如“周杰伦唱英文歌”“TaylorSwift唱中文歌”等。Jukebox可以用于制作音乐、歌曲、广告等类型的音乐。据说，音乐可能会是第一个被人工智能彻底颠覆的艺术形式，因为人工智能学习音乐要比学习语言、图像都更容易。

生成式人工智能之所以能够引起人们的广泛关注，甚至被当作人工智能的代名词，主要是因为它有着非常显著的优势。首先就是生成式人工智能可以明显提高创造力，它可以根据不同的条件和需求，产生多样化和个性化的内容，为人类提供了无限的灵感和想象空间。同时，生成式人工智能可以帮助人类降低成本，它可以在不依赖真实数据的情况下，快速地生成大量的高质量的内容，节省了人力和物力的投入。此外，生成式人工智能还扩展了人类的知识和视野，它可以跨越不同的领域和场景，实现内容的融合和转换。

不过，当下还没有一个统一和客观的标准来评估人工智能生成内容的质量和效果，往往需要依赖人工或主观的指标来判断，也没有一个清晰和有效的方法来解释生成模型的内部机制和逻辑，往往需要依赖黑盒或启发式的方法来推测。

目前，生成式人工智能的未来趋势之一是利用多种类型的数据，如图像、视频、文本、音频等，实现不同模态之间的互相生成和转换，提高生成内容的丰富性和多样性的多模态生成。

交互式生成也是生成式人工智能的趋势，这种内容会利用人机交互的方式，如语音、手势、触摸等，实现对生成内容的实时控制和调整，提高生成内容的灵活性和可定制性。此外，利用情感分析的技术，如面部表情、语音语调、文本情绪等生成的情感式生成，可以实现对生成内容的情感识别和表达，提高生成内容的真实性和逼真性，是生成式人工智能的研究方向。

3、大语言模型为未来铺路

2023年人工智能领域最出圈的词汇之一是“大语言模型”。

大型语言模型是一种利用大规模文本数据训练出具有强大表达能力和泛化能力的预训练语言模型，为人类提供了丰富的语言服务和智能交互。

大型语言模型通常采用深层的神经网络结构，如变换器（Transformer）、循环神经网络（RNN）、卷积神经网络（CNN）等，来捕捉文本中的复杂和隐含的语义和逻辑关系。在此基础上，大型语言模型通常采用自监督学习的方法，如掩码语言模型（MLM）、下一句预测（NSP）、自回归语言模型（ARLM）等，来从无标注的文本数据中自动学习有效的特征表示。在学习方法层面，大型语言模型通常采用迁移学习的方法，如微调（Fine-tuning）、零样本学习（Zero-shot Learning）、少样本学习（Few-shot Learning）等，来将预训练好的语言模型应用到不同的下游任务中。

目前，大型语言模型的应用领域主要是自然语言理解，比如利用大型语言模型对输入的自然语言进行分析和理解，如词性标注、命名实体识别、句法分析、语义角色标注、情感分析、文本分类等；对话系统，也就是利用大型语言模型与用户进行自然和流畅的对话交互，如问答系统、闲聊系统、任务导向系统、知识导向系统等；知识图谱，即利用大型语言模型从文本中抽取和构建结构化的知识表示，如实体、关系、属性、事件等，并利用知识图谱进行推理和查询。

大型语言模型的性能主要取决于数据规模、模型规模和训练方法。数据规模越大，越能覆盖更多的领域和场景，提高语言模型的泛化能力和鲁棒性；模型规模越大，越能增加更多的参数和层次，提高语言模型的表达能力和复杂度；训练方法越优化，越能降低训练时间和成本，提高语言模型的效率和稳定性。

2023年是充满创新和变革的一年，大型语言模型在这一年中也取得了一些令人惊叹的成果，其中最知名的就是GPT-4。

GPT-4是一个基于变换器模型的大型语言模型，由OpenAI开发和发布，其拥有超过1000亿个参数，使用了超过1000万个文本数据源进行预训练。GPT-4可以实现多种自然语言处理任务，如文本生成、文本摘要、文本分类等，并且可以根据不同的输入条件和输出格式进行灵活的调整。

由Facebook母公司Meta发布的LLaMa也是一个基于变换器模型的大型语言模型。LLaMa拥有超过500亿个参数，使用了超过1000万个知识图谱数据源进行预训练，可以实现多种知识图谱任务，如实体链接、关系抽取、属性填充等，并且可以根据不同的查询条件和答案格式进行灵活的推理。

大语言模型的诞生与发展，意义非常重大，它改变了AI模型的开发模式，将模型的生产由“作坊式”升级为“流水线”。与传统的小模型生成模式相比，大语言模型能够大幅缩减特定模型训练所需要的算力和数据量，缩短模型的开发周期，并得到更好的模型训练效果。大语言模型还展示了AI模型的强大创造力和想象力，实现了多种类型的内容的生成和转换，如文本、图像、音乐等。例如，DALL-E可以根据用户的输入文本生成与之相关的图像，Jukebox可以根据用户的输入文本或音频生成与之相关的音乐。大语言模型更是增强了AI模型与人类的对齐和协作，使模型更加符合人类的偏好和需求。

例如，ChatGPT可以与用户进行自然和流畅的对话交互，InstructGPT可以遵循用户的指令完成不同的任务。可以说，大语言模型打开了人类通向未来超级人工智能的大门。

4、在更广阔领域的应用

在经历最初的狂热之后，人工智能领域在2023年下半年冷静了下来。此时，更多人开始考虑如何将这一技术应用到更多领域，毕竟技术是为人类服务的。导航就运用了大量的人工智能技术。人工智能可以实现实时路况更新、语音交互和景点推荐等功能，提高出行效率、丰富旅游体验和促进旅游发展。例如，Google Maps可以根据用户的出发时间、目的地、交通方式等，实时地显示不同路线的预计耗时、拥堵情况、收费信息等，并根据路况变化及时提供导航提示。

利用人工智能算法，导航软件可以实现与旅行者的自然语言对话，通过语音识别、语义理解、语音合成等技术，为旅行者提供便捷的语音控制和反馈。例如，百度地图可以通过语音识别用户的出行需求，并通过语音合成给出相应的路线规划和导航指令。导航软件还可以利用人工智能算法，根据旅行者的兴趣、偏好、历史行为等，为旅行者推荐适合的景点、餐厅、酒店等。例如，TripAdvisor可以根据用户的评价、收藏、浏览等数据，为用户推荐最受欢迎或最符合用户口味的旅游目的地和服务。

在天气预报领域，人工智能可以实现数据处理、模式识别和预测优化等功能，提高数据的质量和效率、提高预报的准确性和可靠性和提高预报的精度和灵敏度。例如，IBM的GRAF天气预报系统可以利用机器学习技术，对来自卫星、雷达、飞机、手机等多种数据源的数据进行实时处理，并生成高分辨率的全球天气预报。利用人工智能算法，对复杂的气象现象进行特征提取、分类、识别等操作，提高预报的准确性和可靠性。例如，谷歌的Nowcasting天气预报系统可以利用深度学习技术，对雷达图像中的降水模式进行识别，并给出未来一小时内的降水预报。

自动驾驶汽车是指利用传感器、计算机、控制系统等技术，实现无人或辅助驾驶的汽车。人工智能可以实现环境感知、路径规划和决策控制等功能，提高交通效率、降低交通成本和增加出行乐趣。例如，Waymo、特斯拉、Uber对于自动驾驶汽车的研发都已进行多年。大语言模型对自动驾驶技术有着极大的提升，甚至将带来革命性变化，它可以帮助自动驾驶系统实现更智能、更安全、更人性化的驾驶体验。具体来说，大语言模型可以在提高环境感知能力、增强决策推理能力、优化人机交互能力等几个方面为自动驾驶技术提供帮助和变化。

大语言模型可以利用海量的数据和强大的计算能力，识别出道路上的各种物体、事件、关系和规则，为后续的决策和规划提供准确的信息，它还可以帮助自动驾驶优化车端感知模型，进而能够识别更多道路场景要素。大语言模型可以利用自身的生成和推理能力，对复杂的驾驶场景进行合理的决策和推理，处理各种突发情况和异常事件，保证车辆的安全和效率。此外，大语言模型还可以利用自身的语言生成和理解能力，与车内乘客进行自然和流畅的对话交互，提供各种信息咨询、娱乐服务、紧急求助等功能。

当然，人工智能的应用场景绝不仅限于这些领域，我们将逐渐感受到，人工智能会在方方面面改变我们的生活甚至思维方式。

5、计算能力：人工智能领域的新生产力

人工智能是一门致力于让机器具有智能行为的科学，它涉及了计算机科学、数学、心理学、语言学等多个学科。人工智能的发展需要大量的数据、算法和计算能力，其中计算能力是指计算机或其他设备进行数据处理的速度和效率，通常用每秒浮点运算次数（FLOPS）来衡量。计算能力是信息时代的新生产力，也是人工智能的三大要素之一，它决定了人工智能模型的规模、性能和功能。

随着人工智能技术的不断进步，人工智能模型变得越来越复杂和精确，需要处理的数据量也呈指数级增长。例如，目前最先进的自然语言处理（NLP）模型GPT-4包含了1750亿个参数，比其前代GPT-3增加了10倍，训练它需要消耗超过1000亿次的浮点运算。只有拥有强大的计算能力，才能支持这样的大规模模型的训练和应用，从而推动AI领域的创新和突破。

计算能力是人工智能应用的保障。人工智能技术已经广泛应用于各个行业和领域，如医疗、教育、金融、交通、娱乐等，为人们提供了更高效、更便捷、更智能的服务和体验。这些人工智能应用往往需要实时地处理海量的数据，如图像、视频、语音、文本等，以及进行复杂的推理、分析、决策等，因此对计算能力有着极高的要求。只有拥有充足的计算能力，才能保证人工智能应用的稳定性、可靠性和安全性。

人工智能技术不仅可以利用计算能力来提升自身的水平，也可以反过来优化计算能力本身。计算能力作为人工智能领域的核心资源，已经引起全球各国和各大科技公司的高度重视和竞争。目前，计算能力主要依赖于CPU（中央处理器）、GPU（图形处理器）和AI芯片（人工智能芯片）。目前，GPU的主要生产商有英伟达（NVIDIA）、AMD、英特尔等，其中英伟达在GPU市场占据主导地位，但AMD和英特尔也在不断推出新的产品和技术。人工智能芯片是专门为人工智能应用而设计的处理器，可以根据不同的场景和需求进行定制化和优化，从而提高计算性能和效率，降低能耗和成本。

计算能力对人工智能领域产生了深远的影响，随着计算能力的提升，人工智能模型可以变得更大、更深、更复杂，从而实现更高的性能和功能。

6、迎接人工智能的未来

人工智能的爆发式发展让所有人都对其充满了好奇、不安和期待。2023年，诸多国家都对人工智能的发展给予了充分的关注，并出台了相应的政策。中国国家互联网信息办公室等七部门就于7月10日联合发布了《生成式人工智能服务管理暂行办法》，首次明确了生成式人工智能服务提供者和使用者的法律责任和义务，规定了生成式人工智能服务的技术发展、服务规范、监督检查和法律责任等方面的具体要求。

此外，北京市公布了《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025年）》和《北京市促进通用人工智能创新发展的若干措施》，提出打造拓展人工智能应用场景、加强相关领域人才高地建设等方面的目标和措施；安徽省科学技术厅印发了《加快场景创新构建全省应用场景一体化大市场行动方案（2023-2025年）》，提出在下一代人工智能领域优先探索深度学习、脑机接口、图像识别、语音识别、语音合成、机器翻译等场景的目标和措施；上海市发布了《上海市加大力度支持民间投资发展若干政策措施》，提出充分发挥人工智能创新发展专项等引导作用，支持民营企业广泛参与数据、算力等人工智能基础设施建设的政策；深圳市发布了《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023-2024年）》，提出在重点领域和重点行业推进人工智能应用示范、打造一批具有国际影响力的人工智能企业等方面的目标和措施。

人工智能驱动的科学研究专项部署也提上了日程，科技部启动了“人工智能驱动的科学研究”专项部署工作，提出了推进面向重大科学问题的人工智能模型和算法创新、发展一批针对典型科研领域的“人工智能驱动的科学研究”专用平台等方面的任务和要求。

在国外，欧盟委员会发布了《关于欧洲适合人类的人工智能法规框架草案》，提出了对不同风险等级的人工智能系统实施不同程度的监管要求，包括禁止或限制某些高风险或违背欧盟价值观的人工智能应用。美国各级政府和各部门也开始加强对于涉及歧视、欺诈、数据滥用等问题的人工智能系统的监管规则制定和执行。

比尔•盖茨曾说：“对于新技术，我们总是短期高估，长期低估。”对于人工智能来说，目前肯定是被高估了——虽然大模型和生成式人工智能让我们感到震惊，但其在应用领域还不成熟，自身也还有很多问题需要解决。但是，从长远来看，人工智能对我们的改变可能会远远超乎人类的想象，甚至有想象力的科幻作家也无法想象未来的人工智能世界会是什么样的。

有幸的是，我们见证了“生成式人工智能元年”的样子。

文章来源：《创意世界》2023年12月号

人工智能

量子计算如何改变人工智能的发展	第三届中国人工智能产业大会Imagination分享GPU+NNA高效灵活解决方案	液体神经网络如何解决从机器人到自动驾驶汽车的人工智能问题
人工智能在日常生活中的10种用途	关于人工智能的四大误区	Forbes \| 未来10年的10项人工智能预测

最新文章

最新文章