语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

2024年8⽉28⽇，在ACM SIGKDD（国际数据挖掘与知识发现⼤会，KDD）上会议现场，智谱AI重磅推出了新⼀代全⾃研基座⼤模型 GLM-4-Plus、图像/视频理解模型 GLM-4V-Plus 和⽂⽣图模型 CogView3-Plus。这些新模型，已经全部上线了智谱的开发者平台，开发者已经可以直接调用API去进行开发了。智谱开源模型累计下载量已突破 2000 万次，为开源社区的发展做出了重要贡献。

BigModel旗舰模型更新如下：

语言基座模型 GLM-4-Plus ：在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。
文生图模型 CogView-3-Plus ：具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
图像/视频理解模型 GLM-4V-Plus ：具备卓越的图像理解能力，并具备基于时间感知的视频理解能力。该模型将上线开放平台（ bigmodel.cn ），并成为国内首个通用视频理解模型 API 。

GLM-4-Plus

在 KDD 国际数据挖掘与知识发现大会上，智谱 GLM 团队发布了新一代基座大模型—GLM-4-Plus。作为智谱全自研 GLM 大模型的最新版本，GLM-4-Plus 标志着智谱AI在通用人工智能领域的持续深耕，推进大模型技术的独立自主创新。

语言能力

GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能，利用PPO有效有效提升模型推理（数学、代码算法题等）表现，更好反映人类偏好。在各项性能指标上，GLM-4-Plus 已达到与 GPT-4o 等第一梯队模型持平的水平。

LCB (LiveCodeBench)
NCB (NaturalCodeBench)
*represents reproduced results

长文本能力

GLM-4-Plus 在长文本处理能力上比肩国际先进水平。通过更精准的长短文本数据混合策略，显著增强了长文本的推理效果。

效果展示

下面来测试下GLM-4-Plus在语言理解和指令遵循等方面的表现。比如输入问题："介绍一下西游记中都有哪些人物，他们使用的武器是什么？”

从上面的回答可以看出GLM-4-Plus精准总结了每一个人物的主要特征、武功技能以及所使用的武器。模型的回答很好的总结了所提问的问题，并没有出现漂移的现象。

在语言文本能力方面，GLM-4-Plus 和 GPT-4o 及 405B 参数量的 Llama3.1 相当。GLM-4-Plus对长文本处理有着非常好的能力，比如输入一段朱自清的短文《背影》让模型描述一下文章的内容并分析文章所表达的情感。

我与父亲不相见已二年余了，我最不能忘记的是他的背影。那年冬天，祖母死了，父亲的差使也交卸了，正是祸不单行的日子。我从北京到徐州，打算跟着父亲奔丧回家。到徐州见着父亲，看见满院狼藉的东西，又想起祖母，不禁簌簌地流下眼泪。父亲说：“事已如此，不必难过，好在天无绝人之路！”回家变卖典质，父亲还了亏空；又借钱办了丧事。这些日子，家中光景很是惨澹，一半为了丧事，一半为了父亲赋闲。丧事完毕，父亲要到南京谋事，我也要回北京念书，我们便同行。到南京时，有朋友约去游逛，勾留了一日；第二日上午便须渡江到浦口，下午上车北去。父亲因为事忙，本已说定不送我，叫旅馆里一个熟识的茶房陪我同去。他再三嘱咐茶房，甚是仔细。但他终于不放心，怕茶房不妥帖；颇踌躇了一会。其实我那年已二十岁，北京已来往过两三次，是没有什么要紧的了。他踌躇了一会，终于决定还是自己送我去。我再三劝他不必去；他只说：“不要紧，他们去不好！”我们过了江，进了车站。我买票，他忙着照看行李。行李太多，得向脚夫行些小费才可过去。他便又忙着和他们讲价钱。我那时真是聪明过分，总觉他说话不大漂亮，非自己插嘴不可，但他终于讲定了价钱；就送我上车。他给我拣定了靠车门的一张椅子；我将他给我做的紫毛大衣铺好座位。他嘱我路上小心，夜里要警醒些，不要受凉。又嘱托茶房好好照应我。我心里暗笑他的迂；他们只认得钱，托他们只是白托！而且我这样大年纪的人，难道还不能料理自己么？我现在想想，我那时真是太聪明了。我说道：“爸爸，你走吧。”他往车外看了看，说：“我买几个橘子去。你就在此地，不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台，须穿过铁道，须跳下去又爬上去。父亲是一个胖子，走过去自然要费事些。我本来要去的，他不肯，只好让他去。我看见他戴着黑布小帽，穿着黑布大马褂，深青布棉袍，蹒跚地走到铁道边，慢慢探身下去，尚不大难。可是他穿过铁道，要爬上那边月台，就不容易了。他用两手攀着上面，两脚再向上缩；他肥胖的身子向左微倾，显出努力的样子。这时我看见他的背影，我的泪很快地流下来了。我赶紧拭干了泪。怕他看见，也怕别人看见。我再向外看时，他已抱了朱红的橘子往回走了。过铁道时，他先将橘子散放在地上，自己慢慢爬下，再抱起橘子走。到这边时，我赶紧去搀他。他和我走到车上，将橘子一股脑儿放在我的皮大衣上。于是扑扑衣上的泥土，心里很轻松似的。过一会儿说：“我走了，到那边来信！”我望着他走出去。他走了几步，回过头看见我，说：“进去吧，里边没人。”等他的背影混入来来往往的人里，再找不着了，我便进来坐下，我的眼泪又来了。

从以上的回答可以看出GLM-4-Plus对于长文本处理以及语言理解的能力非常好。答案不仅精准概括了文章内容，且很好的理解了文章所表达的情感。

调用示例

以下是一个完整的调用示例，可以按此快速上手 GLM-4-Plus 模型。

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4-plus",  # 填写需要调用的模型编码
    messages=[
        {"role": "system", "content": "你是一个乐于解答各种问题的助手，你的任务是为用户提供专业、准确、有见地的建议。"}
        {"role": "user", "content": "农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。"}
    ],
)
print(response.choices[0].message)

GLM-4V-Plus

GLM-4V-Plus是基于CogVLM系列模型的研究经验研发的，它集图像理解与视频理解能力于一体的多模态模型。GLM-4V-Plus在图像和视频理解领域均展现出领先水平，稳居行业前列。

视觉能力

视频分析

GLM-4V-Plus 能够理解并分析复杂的视频内容，同时具备时间感知能力。

效果展示输入一张古代山水画的图像，可以看到GLM-4V-Plus 能够很好的描述图像内容，还具有连续多轮对话能力，从回答效果看也是很好的联系了输入的图像。

视频理解调用示例

上传视频URL

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="YOUR API KEY") # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4v-plus",  # 填写需要调用的模型名称
    messages=[
      {
        "role": "user",
        "content": [
          {
            "type": "video_url",
            "video_url": {
                "url" : "https://sfile.chatglm.cn/testpath/video/b844f8f1-5df9-556c-a515-3d3bfaa736e8_0.mp4"
            }
          },
          {
            "type": "text",
            "text": "请仔细描述这个视频"
          }
        ]
      }
    ]
)
print(response.choices[0].message)

图片理解示例

上传图片URL

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4v-plus",  # 填写需要调用的模型名称
    messages=[
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
                "url" : "https://www.zhipuai.cn/assets/images/aboutus/company.jpeg"
            }
          },
          {
            "type": "text",
            "text": "图里有什么"
          }
        ]
      }
    ]
)
print(response.choices[0].message)

CogView-3-Plus

CogView-3-Plus使用Transformer架构训练扩散模型，优化了效果并验证了参数量提升的效益。我们还构建了高质量图像微调数据集，使模型生成更符合指令且美学评分更高的图像，效果接近MJ-V6和FLUX等一流模型。

用法

CogView-3-Plus能够根据文本提示生成高质量的图像。支持的图像尺寸包括1024x1024、768x1344、864x1152、1344x768、1152x864、1440x720以及720x1440，默认的图像尺寸为1024x1024。

明确清晰的结构化提示词可以帮助 CogView 创造出更高质量的图像。以下是提示词参考，大家可以点击链接阅读。

图像生成模型 Prompt 工程指南

生成示例

CogView-3-Plus的文生图能力有了显著提升。它可以非常准确地生成单词，这在很多文生图应用中都是高频翻车区。

CogView-3-Plus 很好的理解了古诗词含义，不仅画出了所有的元素，还还原了诗词中的意境。

CogView-3-Plus对于人像生成的理解也很到位，生成的内容和提示词高度吻合，同时也不会出现坏脸坏手的情况。

调用示例

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="")

response = client.images.generations(
    model="cogView-3-plus", #填写需要调用的模型编码
    prompt="在干燥的沙漠环境中，一棵孤独的仙人掌在夕阳的余晖中显得格外醒目。这幅油画捕捉了仙人掌坚韧的生命力和沙漠中的壮丽景色，色彩饱满且表现力强烈。",
    size="1440x720"
)
print(response.data[0].url)