1/4
OpenAI GPT-4o推出图像生成功能,攻克“生成图像中的文字”难题
第一财经03-26 13:02:43

图像生成领域传来了新进展,OpenAI在攻克“生成图像中的文字”方面的难题。北京时间3月26日凌晨,OpenAI进行了直播,对GTP-4o和Sora进行更新,在ChatGPT和Sora中推出GPT-4o的图像生成功能。OpenAI此次强调了新功能在精准理解文本描述、准确生成文本方面的优势。

据OpenAI介绍,GPT-4o图像生成功能擅长准确呈现文本,并精准遵循提示词,该功能还会将GPT-4o的知识库和聊天上下文作为灵感来源,这有助于使用者与图像生成工具更有效地沟通并提高生成图像的质量。该功能供ChatGPT Plus、Pro、Team和免费用户使用,并计划随后向企业、教育和API使用者推出。

在OpenAI的示例中,要求大模型生成一名女子在一个俯瞰海湾大桥的房间里用笔在白板上写字,衣服上印有OpenAI字样,白板映着摄影师的身影,并描述了白板上所写的文字。GPT-4o生成的图像都体现了以上要求。随后,OpenAI要求摄影师走到镜头前与女子击掌,GPT-4o也呈现了这一画面,且白板上的字不会变得凌乱,女子的身形和发型也与前一张图像呈现的背影一致。

在其他示例中,OpenAI要求大模型生成上世纪中叶一个家庭中冰箱上贴着的诗歌短句,并要求画面中的人手拿着特定的几个词,GPT-4o可以精准还原。GPT-4o还能生成漫画,但需要人准确地描述画面中的情节。OpenAI还展示了这个图像生成功能在科学实验中的用途,该功能可以生成牛顿棱镜实验的示意图。此外,OpenAI还展示了该图像生成功能在生成路牌、菜单、游戏画面时的效果,以及生成鸡尾酒配方、天气信息图像时,大模型生成的专业配方和天气文本描述。

就如何训练GPT-4o图像生成功能,OpenAI解释,OpenAI使用了网络上的图像和文本训练模型,让模型学习图像与文字、图像与图像之间的关系,使模型具有视觉流畅性,生成的图片是有用的、具备上下文连贯性的。

就GPT-4o图像生成功能的特点,OpenAI还表示,用户可以通过自然对话与大模型交流,要求大模型改进图像,在这个过程中图像中的人物等要素会保持一致性。使用者与大模型的交流也更顺畅,可以同时要求大模型处理10到20个不同的对象,以便图像中各要素呈现出相关性。OpenAI对比其他图像生成系统时称,其他系统只能同时处理5到8个对象。

不过,OpenAI也指出,GPT-4o图像生成功能也具备一些限制,例如存在幻觉、难以呈现太多依赖知识库的图像要素(例如元素周期表)、图表准确性不足、呈现非拉丁语言时可能容易出现幻觉、要求修改图像中的错别字时难以精准编辑。

生成图像中的文字,此前是图像生成领域的一个难题。国内,去年豆包升级文生图能力,支持一键生成指定文本。今年3月,智谱AI发布了首个支持生成汉字的开源文生图模型CogView4。不过,记者试用发现,相关模型生成文字的能力还不太稳定。

3月26日,记者使用豆包APP和智谱清言APP生成图像,其中智谱清言用的模型是CogView4。记者输入“生成一张图片,一个人在看墙上歌手演唱会的海报,海报用中文写着演唱会日期、演唱会主题描述、歌曲名称”。智谱清言生成的海报中出现不少乱码。豆包生成的中文文字准确,但理解有所偏差,呈现的是“演唱会日期”“演唱会主题”这些字样。

随后记者将提示词改为“一个人在看墙上歌手演唱会的海报,海报用中文写着演唱会日期为2025年3月29日、演唱会主题为星空旅行、歌曲名称《太空翱翔》”,豆包呈现出了正确的日期和“星空旅行”字样,仍有一些字是乱码,智谱清言也生成了一些乱码。

更新GPT-4o的图像生成功能之后,OpenAI更大的产品更新将是推出GPT-5。今年2月,OpenAI首席执行官山姆·奥尔特曼表示,OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5,GPT-5将集成公司多项技术,包括推理模型o3的技术,GPT-5可能会在未来几个月内推出。

选稿:周玮
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781