文章转自「首席数字官」ID:ChiefDigitalOfficer
2022年9月6日,一幅由AI生成的画作《太空歌剧院》点燃了AIGC星星之火;ChatGPT的横空出世使AIGC浪潮以燎原之势席卷全球。AIGC开始融入数字化转型浪潮,并重塑各个行业乃至全球的“数字化转型”。
什么是AIGC呢?
AIGC ( AI Generated Content)指人工智能生成内容。它像人类一样具有创造力,不过得经过训练模型和大量数据的学习,并接收一定的指令才能生成指令发出者想要的内容。它可以生成文本、图片、视频、音乐等各种形式的内容,为内容创作者、设计师、工程师等行业人员提供了极大便利。
那么常见的AIGC模型有哪些呢?
国内
1. 清华大学——ChatGLM
号称“比ChatGPT更懂你的清华水木ChatGLM”,在国内受到了广泛关注和好评。
此对话语言模型由清华大学 KEG 实验室和智谱AI基于千亿基座模型 GLM-130B 进行文本和代码预训练开发而成,兼具文案写作、信息抽取、角色扮演、问答、对话等能力。据斯坦福报告研究,其基座模型GLM-130B 是全球唯一性能上可与 GPT-3 原版基座对标的双语开源千亿模型。
2. 百度——文心一言
具备跨模态、跨语言的深度语义理解与生成能力,拥有文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五大能力,其在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。
3. 阿里巴巴——通义千问
号称“世界首个突破 10万亿参数的 AI 大模型”。2023年8月4日,阿里宣布通义千问开源。通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat上架魔搭,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,还可写邮件、电影脚本、短文等。
阿里的通义千文大模型是一款基于Transformer架构的自然语言处理模型,由阿里巴巴自然语言处理实验室开发。该模型是目前国内最大的中文预训练模型之一,包含1000亿个参数。通义千文大模型通过在大规模语料库上进行预训练,可以实现多种自然语言处理任务,如文本分类、命名实体识别、情感分析等。此外,该模型还具有较强的迁移学习能力,可以在不同领域的数据上进行微调,适用于各种实际应用场景。
4. 腾讯——混元AI大模型
覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业与领域模型,还推出了万亿中文NLP预训练模型。采用热启动降低训练成本,文字视频等多领域表现优异,已在广告游戏等多场景落地。具体功能上,混元AI大模型除了有对话模块,还设置了灵感发现模块,可生成文案、视频脚本以及各种风格的绘画;场景上,分为工作、编程、生活等。
5. 华为——盘古
盘古系列AI大模型,包括NLP大模型、CV大模型、科学计算大模型。从 2020 年启动研发,2021 年 4 月正式发布,到 2022 年聚焦行业应用落地, 其进化路径可分为 L0-L1-L2 三个阶段,上层是在下层的基础上演化而来。L0 是指基础大模型,包括 NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型、科学计算大模 型以及 Graph(图网络)大模型。自然语言处理(NLP)系列是业界首个千亿级生成与理解中文 NLP 大模型,由华为云、循 环智能和鹏城实验室联合开发,在训练过程中使用了 40TB 的中文文本数据,其中包含大 量的通用知识与行业经验,具备领先的语言理解和模型生成能力,并通过行业数据的小样 本调优提升模型在场景中的应用性能。在中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新了三项榜单世界历史纪录,总 排行榜得分 83.046(人类水平为 85.61),多项子任务得分业界领先。
6. 360——360智脑
360版GPT——认知智能通用大模型“360智慧大脑”(简称“360智脑”)多项能力位列国产大模型第一。在多轮对话测试中“360智脑”表现出优秀的上下文理解能力,代表着人工智能从感知进化到认知,是大模型真正智能的体现。
基于“360智脑”打造四大场景,具体包括:推出专有大模型,打造城市智能中枢和政府级、企业级GPT;携手行业伙伴打造金融、教育、医疗等产业级大模型;针对中小微企业推出AI垂直应用,打造生产力工具;结合搜索引擎和浏览器,推出针对个人用户的AI助理等。
7. 字节跳动——My AI
字节跳动专属智能助手「My AI」。从演示来看,My AI 的定位更类似微软推出的 Office Copilot,用户可以通过 My AI 总结生成会议纪要,并可根据会议纪要创建对应的待办事项,辅助用户规划后续工作。
同时,该 AI 能够根据文档数据,生成报告等内容;并能够根据用户的编辑内容,进一步续写文档内容,大大提升了工作效率。此外,My AI 还能够协助用户创建会议、查询案例参考、进行头脑风暴、规划项目进程等,在各方面为用户提供帮助。可以说,虽然在「智能性」上,My AI 可能无法与能够自由对话的生成式人工智能出色,但在现阶段,它能够为工作提供更多,更为实际的帮助。
8. 知乎——知海图AI
“知海图AI”大模型,由面壁智能与知乎共同训练完成。“知海图AI”的训练基于面壁智能自主研发的CPM企业级大模型与ModelForce大模型系统。
基于“知海图AI”大模型,双方一起尝试探索将大模型能力应用到知乎热榜。针对知乎热榜问题中的所有回答,“知海图AI”能够快速进行要素抽取、观点梳理和内容聚合,最终将所有回答的梗概展现给知乎用户,让大家更快、更全面地了解知友们讨论的热点与焦点。据称,在这个特定场景中,把“知海图AI”大模型的效果与GPT-4进行了比较,两个模型几乎是持平的。
9. 商汤科技——日日新
商汤以AI大装置SenseCore打造AGI(通用人工智能)时代的基础设施,并基于此将大模型体系命名为“日日新SenseNova”,希望在模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI的更多可能。日日新模型体系包含了自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。
10. 澜舟科技——孟子MChat
孟子语言模型作为语言编码的核心组件,不仅可独立应用于语言理解,也是其他三个模型的基石—作为核心的语言编码模块。为确保通用性并方便应用于下游系统,孟子模型与BERT 保持一致的模型结构,侧重于预训练目标和训练策略上的改进,研究更精巧、更有效、更鲁棒的预训练模型。相较于其他中文预训练模型,孟子模型使用针对中文优化的切分器,可包含更多的中文词汇,处理更长的文本,更少地使用显存,并具有更快的推理速度。数据上,精选高质量、书面风格的语料用于训练,可用于文本分类、实体识别、关系抽取、阅读理解等任务。在CLUE评测上,孟子语言理解模型相比开源的RoBERTa模型体现出了明显的优势。
11. 毫末智行——雪湖·海若
毫末打造的自动驾驶生成式大模型 DriveGPT 雪湖·海若重磅发布,成为大模型技术落地自动驾驶新范式。它通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,终极目标是实现端到端自动驾驶。
12. 达观数据——曹植
作为垂直、专用、自主可控的国产版GPT模型,不仅能实现专业领域的AIGC智能化应用,且可内置在客户各类业务系统中提供专用服务。
产品应用层面,达观数据以“曹植”大模型作为支撑,为达观全栈AIGC智能产品带来革命性效果提升。目前AIGC已经能实现超高还原度的图像生成效果,而AIGC+NLP的相结合,应用最广,主要包含撰写报告、自动翻译、自动审核、自动回答,难度最大,影响也最深。
“曹植”大语言模型,是国内大规模语言模型中首批可落地的产业应用级模型,目前已在金融领域AIGC多场景投入应用。未来可持续赋能金融、政务、制造等多个垂直领域和通用场景人工智能的落地和发展。
13. 昆仑万维——天工
天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。天工基于千亿预训练基座模型和千亿RLHF模型,具有超强记忆能力、能够支持1万字以上文本对话、20轮交互。
14. 网易——玉言
"玉言“是网易伏羲自主研发的中文文本预训练大模型系列,这次登顶CLUE分类任务榜单的模型参数达到110亿,结构由深层 Encoder 和浅层 Decoder 组成,这种结构可以使得大模型具有优秀理解能力的同时,也有着较为优秀的生成能力。除此之外,Encoder-Decoder结构方便训练任务的设计,不需要复杂的掩码策略。
其预训练数据包括网易自有高质量数据、各类百科、新闻、社区问答、wiki、小说等等;网易伏羲对收集到的数据进行去重,清洗,产出了大量高质量数据,并采用这些数据训练模型,使得模型具有良好的泛化性,在各类任务上都有着出色的性能。
15. 中科院——紫东太初
紫东.太初是中科院自动化所在探索通用人工智能路上的重要成果。千亿级参数的超大模型,能够实现视觉、文本、语音三个模态间的高效协同,性能全球领先。紫东太初大模型将文本 + 视觉 + 语音 各个模态高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。
16. 复旦——MOSS
MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
17. 讯飞——星火
讯飞星火是科大讯飞的大模型,它与ChatGPT的最大不同在于,它不仅是一个文本生成器,而是一个能够从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环的认知智能系统。从外部资料上看,讯飞星火具有七大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。
18. 珍岛集团大语言模型--教育政策智慧决策大脑
建设教育现代化监测评估体系的决策支持大脑,符合新时代加快推进教育现代化建设教育强国的宏伟蓝图目标,教育政策研究领域存在着迫切的需求,对教育政策的科学、准确的研究和分析有重要意义。基于对教育政策研究行业的市场需求分析,珍岛集团的大语言模型--教育政策智慧决策大脑拥有自然语言处理和文本分析、数据可视化和报告生成、智能决策支持三大功能,能够提供高效、准确的教育政策文本分析和决策支持,满足政府机构、研究机构和决策者的需求。
19. APUS——天燕大模型AiLMe
APUS自研的多模态人工智能大模型“天燕大模型AiLMe”,参数规模为1000亿,具备对文本、图像、视频、音频的理解和生成能力。针对具体应用场景,APUS从AiLMe内蒸馏出文本模型“异雀八”、图像模型“异雀三”、视频模型“异雀四”、音频模型“异雀六”四个垂直领域精炼模型,并基于此创新研发出“墨染、简笔成画、智能问答大师、Daily Astro、Star Night、KJV Bible Now、PicPik”等系列AI产品。
20. 百融云创——百融云创智能语音机器人
伴随着AIGC技术逐渐走向台前,百融云创人工智能实验室基于智能语音识别、NLP、自动化机器学习(AutoML)、深度学习、隐私计算等技术以及Transformer、模型性能调优、复杂神经网络等底层算法的研发布局,将生成式AI赋能到智能客服、智能营销、贷后管理等业务领域,百融云创智能语音机器人在多种技术的组合下每日能够进行超过亿级规模的自动交互,交互频次规模业内首屈一指。
21. 即时设计——即时AI
“即时AI”是一款能够让用户体验到通过自然语言描述快速生成可编辑的UI设计稿功能的设计工具。 在内测期间,即时AI共向用户发出超6万个内测码,产生了上百万条的生成结果。在官方的测试报告当中,即时AI的生成能力已经相当于初级设计师水平。而在最近的一次更新当中,JS-UIbotics模型正式上线,用户只需30秒即可生成4个可编辑页面,相较于设计师做一个UI设计界面需要30分钟,即时AI将生产速度提升了60倍。
22. 蜜度——“AI小画家”蜜小豆
“AI小画家”蜜小豆以多模态融合生成为核心,通过MiduNLP、MiduCMR、MiduCV等自主研发引擎,根据用户输入的主题文本生成图像作品,并采用区块链技术将用户与蜜小豆的联名作品生成数字藏品,实现版权保护。蜜小豆还拥有AI修图、AI超分、AI修复3种功能,能够利用AI技术对照片进行调色、合成、明暗修改、彩度和色度的修改、添加特殊效果、编辑、修复;可以将一幅低分辨率图像或图像序列恢复出高分辨率图像;还可以增强图像中的有用信息,对数字图像修复起到良好作用。
23. 硅基智能——炎帝大模型
硅基智能发布将私有域知识用LLM大模型技术训练而成并叠加硅基AIGC数字人技术的多模态行业脑炎帝大模型,炎帝大模型加持下的数字人,支持根据文本内容调整自己的表演情绪,可以根据视频学习别人的动作。搭载了炎帝大模型的数字人,已经实现了多种场景的商业化,如短视频生成、直播生成、电影及电视剧生成等。
24. 金山办公——WPS AI
用户通过在办公软件中接入WPS AI,可快速生成文档、嵌入多轮对话,并根据及时满足用户更个人的需求,大幅提高办公效率。WPS AI不仅具备内容创作、归纳总结的能力,还拥有强大的智能助手功能,可以通过对话式交互帮助用户更好地应对办公中的各种挑战。这种智慧助手的引入,能够让办公软件不再只是简单的工具,而是成为用户新的智能助手,从而提高工作效率和体验。
25. 杭州超节点信息科技——无界AI
无界AI一款AIGC内容创作平台,可以为用户提供简洁易用、模型丰富的AIGC绘画工具。无界AI平台现已培育出一批优秀的AIGC创作者,为实现AIGC产业化落地,扩大AI艺术受众人群,推动AI与艺术的融合发展贡献中坚力量。无界AI在AIGC领域有着成熟的技术,使用前沿的AI模型,并部署了大量高性能机器持续优化供用户体验。
26. 出门问问——序列猴子
序列猴子大模型是一个具有长序列、多模态、单模型、大数据等特点的超大规模语言模型。基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验,极大地提高了生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。
27. 一览科技——一览运营宝
视频AIGC工作流一览运营宝由AI编剧、AI绘图、AI分镜、数字人等构成,能够为内容创作者提供一个完整的闭环生成流程。一览运营宝以完整的AI创作流程完成了从编剧到分镜的工作,能够大大提升导演和制片人判断他们是否需要继续深度创作剧本的效率,这是AI参与创作的一个非常典型的降本增效案例。
国外
1. ChatGPT
ChatGPT 是一款由 OpenAI 开发的人工智能技术驱动的语言模型应用。ChatGPT 可以识别和理解自然语言,包括英语、法语、德语、西班牙语等多种语言。它可以回答各种问题、提供各种建议,并与人类进行自然的对话。ChatGPT 是一种基于深度学习的语言模型,它使用了大量的语言数据进行训练,可以生成高质量的文本、提供各种各样的人工智能服务。ChatGPT 可以根据用户的反馈和输入不断优化自己的表现,并学习新的知识和技能。
ChatGPT 可以应用于各种领域,例如智能客服、智能写作、自动作文、智能翻译等,为人们提供更多的便利和服务。
2. Midjourney
Midjourney是一款强大的 AI 图像生成工具,具有灵活性高、易使用等特点。只需一些简短的文字描述或相关提示词它便可以将你的想象快速转化为现实,不论多么夸张或抽象。与其它 AI 图像生成器相比,Midjourney 具有更快的生成速度和更低的学习门槛,它不仅可以生成各种风格的艺术作品,还可以作为创作灵感的参考来源。
3. Stable Diffusion
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。
Stable Diffusion 可以通过生成多样化、高质量的图像、修复损坏的图像、提高图像的分辨率和应用特定风格到图像上等方式,辅助视觉创意的实现。它为视觉艺术家、设计师等提供更多的创作工具和素材,促进视觉艺术领域的创新和发展。
4. Bing AI
几个月前,微软更新了 iOS 和 Android 上的 SwiftKey 键盘应用,提供了一项新功能,可以使用 Bing AI 以各种样式重写文本,而类似的功能即将在桌面版 Microsoft Edge 浏览器中推出。
该功能允许用户在输入框中选择一段文本,并使用 Alt + I 快捷键进行重写。Edge 会弹出一个窗口,显示 Bing AI 重写的文本,还有几个按钮可以用来替换选中的文本、调整生成结果,或者尝试重新生成文本。
用户可以选择四种语气:专业、随意、热情和非正式;更改格式:段落、电子邮件、博客文章和想法;以及选择长度:短、中和长。然后点击重写按钮,应用设置并重新生成 Bing AI 的回应。
5. Bard
Bard 是一款类 ChatGPT 产品,Bard 中使用的模型基于谷歌自己的 LaMDA(对话应用程序语言模型)。
致力于将广泛的世界知识与大型语言模型的强大功能和创造力结合起来,它利用来自网络的信息为输入问题提供最新、高质量的回答。在交互上区别较大的,就是 Bard 在创作完成后,会给出 3 个预选答案供你选择。
6. Claude
Claude 是 Anthropic[1] 新推出的一款类似于 ChatGPT[2] 的 AI 助手,后者是从 OpenAI 出走的前员工们集体创建的 AI 初创公司。虽然目前尚未开放公测,但从曝光的内测对比结果来看,Claude 已经可以和 ChatGPT 掰掰手腕:在逻辑和计算方面,Claude 表现出了旗鼓相当的实力,尽管在代码生成和推理问题上存在差距,但在无害性方面表现突出,具体表现为能够更清晰的拒绝不恰当的请求,当面对超出能力范围的问题,能够主动坦白,而不是像 ChatGPT 那样逃避回答。
Claude 开创性引入了“宪法人工智能”(Constitutional AI,CAI)的概念。以 ChatGPT 为代表,现有方法主要通过人类反馈的强化学习(RLHF)算法,即在强化学习阶段,通过拟合大量的人工标注的偏好数据,来对齐大规模语言模型和人类偏好,从而给出令人满意的有用(Helpful)、可靠(Honest)和无害(Harmless)的回答。Claude 在有用性(有用和可靠)方面沿用人类反馈,但在无害方面开创了一条更低成本且有效的路径,仅需要制定“宪法“(少量的自然语言准则或指令),AI 系统会自动输出偏好判断,指导模型对齐 AI 理解的无害化偏好,从而训练出危害更小的系统。因此这种技术也叫 AI 反馈的强化学习(RLAIF)算法。
7. DALL-E2
DALL-E2是DALL-E的升级版,能够根据自然语言的文本描述生成图像和艺术形式。其API可供开发人员直接使用,按用量收费。DALL-E2的核心竞争力在于精确的AI绘画能力,增加了组合概念、属性和样式的功能,生成更生动、更复杂的图像。其图像分辨率提升了4倍,画质更真实,真实度达到88.8%,识别更精确,语义匹配度达到71.7%。
8. Murf ai
Murf ai是一款于2020年10月问世的AI语音生成器,其利用机器学习和深度学习技术,能够将文本转换为自然语音。通过使用Murf ai,用户可以在短时间内获得高质量的语音输出,并且可以使用其AI语音克隆功能来满足对语言情感更多元化的需求。该功能能够通过调整音调、音量、语言和速度,提供栩栩如生的发音和全方位的人类情感,从而提供多方位的服务。
此外,Murf ai还拥有可调用的AI功能,以确保特定术语能够准确无误地传达。该语音生成器提供多合一的功能,操作界面简单便捷,能够与谷歌幻灯片共享编辑,用户可以在AI语音中选择最合适的演示文稿语音。
9. AIVA
AIVA是一款具备作曲家地位的AI软件,成立于2016年,旨在通过AI技术创作个性化的音乐,提升用户的音乐能力。该软件接受了数千份乐谱的训练,具备丰富的音乐素材和数据集。
AIVA提供两种音乐创作方式:一种是使用预先训练的“预设样式”,这些样式基于内部精心制作的各种音乐特征,包括曲调、节奏模式、旋律线等,可以为用户提供多样化的音乐体验;另一种是使用上传的音乐来创作,可以根据用户的需求和喜好,创作出具有相似音乐特征但截然不同的曲目。
10. ynthesia
Synthesia是由来自伦敦大学学院、斯坦福大学、慕尼黑工业大学和剑桥大学的AI研究人员和企业家团队于2017年创建的。该公司推出的AI视频创作产品“Synthesia”已经被数千家公司广泛应用。该产品利用AI技术创建和定制数字孪生模型,从而生成视频。用户可以从现有演员库中选择或上传自己的视频来创建AI形象,并输入脚本让AI配音、拼接素材,从而快速输出视频,从而节省高达80%的时间和预算。Synthesia主要应用于企业传播、数字视频营销和广告本地化等领域。该产品大幅减少真人出镜录制等环节,从而降低制作费用和周期,同时能够轻松生成多国语言视频,方便本土化服务。
11. Wonder Studio
Wonder Studio是一种AI工具,可以自动将CG角色动画、打光并组合成真实场景,无需逐个镜头进行处理。用户只需上传CG角色模型到一个镜头或整个场景,系统会自动检测剪辑并跟踪演员。此外,Wonder Studio还能根据单个镜头自动检测演员表演,并将其传输到所选CG角色,自动执行动画、照明和创作。Wonder Studio支持现有流水线,并自动化了80%-90%“客观”的视觉特效工作,留下剩余的“主观”工作给艺术家完成。同时,Wonder Studio还支持导出到其他软件中使用。
12. Runway Gen-2
Runway是一家先行者,成功地将文本转化为视频。公司成立于2018年,一直在致力于构建多模态人工智能系统,以降低视频创作门槛,帮助人们轻松制作出内容强大且富有创意的视频内容。
在2023年2月6日,Runway推出了基于扩散模型的视频生成模型Gen-1,并在Discord中开启内测。随后在3月20日,Runway发布了升级版Gen-2,该模型已经能够将场景和色调简单的几何体变成酷炫的视频,但对于复杂场景的精细化处理还有待提高。不仅如此,Gen-2还支持仅使用文本提示就能合成任意风格的视频,并且也支持文本+图像生成视频。
13. Jasper
Jasper是早期GPT生态中的最大赢家之一。Dave Rogenmoser、Chris Hull和John Phillip Morgan于2021年创立了Jasper,他们基于GPT-3开发了生成式AI写作助手,人们可以用Jasper AI撰写各类营销文章、社交媒体播客,后续也更新了绘画助手,实际功能与现在的GPT大同小异,只是应用界面更加友好。
Jasper 为用户提供超过 60 个模版,帮助撰写广告文案、标语、网页文案、电子邮件、博客以及社交媒体文章等不同场景的内容,并且还集成了 Grammarly 工具来检查内容中涉及的抄袭和错误修复,从广告工具快速发展成为了 AI 内容平台,支持 29 种语言。
本文基于公开资料整理,仅作分享使用,如有问题或补充可以留言。
本文转自:首席数字官,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。