谷歌最新模型，把模型能力卷出了新高度，全能且实用！

戳蓝字“彩云译设计”关注我哦！

自从春节期间的deepseek出圈后，各家大模型就开始疯狂内卷，真应了那句话，AI一天，人间一年。尤其是到了近一个月，AI圈更是打的火热，各大AI大厂都在玩命更新，那在这些更新里到底哪个更好用呢？不知道大家能不能清楚，反正我是有点分不清，所以这个假期花了几天时间，实验对比了一圈，最终发现谷歌最新的模型Gemini 2.5 Pro成了最好用的。

先简单介绍下这个模型，Gemini 2.5 Pro是谷歌在3月25号发布的一个多模态模型，它能接受输入音频、图片、视频和文本，是谷歌当前最先进的思考型模型，能够解决各种复杂问题。

它在各种专业评分上几乎都是第一，比如在LMArena排行榜（衡量人类偏好）上就遥遥领先，几乎是全模态第一。

Gemini 2.5 Pro 还在常见的编码、数学和科学基准测试上也表现抢眼。

当然，只看评分其实没啥概念，只知道很强，但我们普通用户其实更关注的是到底能用在哪些地方，好不好用？

怎么用上它？

和上次我写的教程《谷歌新出的生图模型，没想到把comfyUI的学习难度瞬间降低了》一样，它的使用同样简单，最近谷歌确实有点猛啊，快速出了很多好用的模型，而且都给咱们免费用。

先打开官方这个链接（需要科学上网）：

https://aistudio.google.com/prompts/new_chat

然后选择Gemini 2.5Pro Preview 03-25这个模型

到这，你就已经可以免费使用上这个目前地表最强的AI思考模型了。

可以用它做啥？

它的优势有很多：超长记忆能力，目前能记住100万个token，地表最强；它能看懂视频，图片，听懂音频等等，几乎全能。

1、能读懂记住超长文本文件

看下最新的测试结果，谷歌最新的这个模型目前在长文本理解方面，完全没有对手。

它现在能记住100万个Token长度，什么概念呢？

想象一下，传统的 AI 模型像一个记忆力有限的学生，一次只能记住几页书的内容、而 Gemini 2.5 Pro 就像一位博学的智者，能够一口气“读”完并深刻理解一部巨著，比如《战争与和平》全集（约 70 万 Token），甚至还有余力。

这不仅仅是能“装下”更多信息，关键在于理解和关联。

在日常工作中，经常需要同时读懂大量文档，并且每个文档相互之间还需要关联上，这种长文本的能力就非常需要。我们在实际工作中的对话往往是非常长的，聊到后面忘记前面是现在很多AI的通病。

假如你是一个项目经理，接手了一个历史悠久、文档堆积如山的大型软件项目。里面有需求文档、设计稿、会议纪要、邮件往来、甚至几万行历史代码。你想快速了解项目的来龙去脉、关键决策点和潜在风险。

你可以将这些文档（总计可能几十万 Token）一次性“喂”给 Gemini 2.5 Pro。然后你可以直接提问：

“总结一下项目初期最重要的 3 个技术选型决策及其原因。”

“根据所有会议纪要，用户反馈最集中的功能模块是哪个？相关的讨论出现在哪些文档的哪部分？”

它马上就能给你来个总结，我这里就不放示例了，你可以自己去试试看，非常有效。

再比如我把我过往写的部分文章，一次性都丢给Gemini 2.5 Pro，里面有图有文字，希望它帮我分析出我最喜欢用的词语频次，并由此推测我的文风是什么样的？适合写什么类型的内容。

这是它给出的结果，可以说非常准确了。

对比GPT4.5，效果立马高下立判。

2、听懂音频文件，总结录音内容成文字

Gemini 2.5 Pro 不仅擅长处理文本，还能看图，看视频，听声音，并且得益于能记住超长的上下文，这种能力被提升到了新的高度。

我之前就经常苦恼于录了一段长录音，然后找音频转换文本的软件，发现大多数收费都非常贵。现在用谷歌Gemini，不仅免费还能直接帮我总结形成文字给我，非常实用。

上传音频文件，然后直接写提示词：“帮我把这一段录音文件转换为文字稿，并总结出其中的关键内容”

它能基于录音的内容分析出的每一句文字内容，最后还帮我做了总结，整个过程大概就花了3分钟就搞定了，非常效率。

3、看懂视频，找出视频中的关键信息

可以上传一段本地拍的视频，也可以直接用网上的一个视频链接（目前仅支持youtube），它就能直接分析出视频里的所有内容，甚至理解视频中每一帧的画面内容，这个能力真的太有用了。尤其像我习惯看长视频教程的人，对我来说非常实用。

分析完成后，它会告诉我总结之后的结果

对于能解析本地拍的视频，这个能力其实非常有用，比如在平时自己拍的一段视频，希望能分析出视频中自己的情绪变化。

比如还可以把B站的视频下载下来，通过分析弹幕上的文本了解观众对哪个功能的讨论最热烈？主要观点有哪些？针对视频中的哪部分内容，什么画面带来的情绪变化等等。

比如还可以问“发布会上的老板是在哪个时间点开始介绍新产品？他强调了哪些核心卖点？” ，顺便还让它“总结一下 35 分钟到 45 分钟这段 Q&A 环节的主要问题和回答。” ，甚至还能让它总结出视频中人物一共鼓掌了多少次。

它能像人一样“看”视频，理解画面内容、识别语音、定位关键帧，甚至进行一定的情感分析，我们不需要再手动拉进度条或单独做文字记录了。

它还强在哪些地方？

如果以上这些多模态能力，还不足以震撼到你我的话。更强悍的是当你实际用的时候，你就会发现，它真的比其他模型更厉害，没有对比就没有伤害。

比如就单纯在问答这块的能力，我们来对比下试试。

我以星球里一位星友的提问为例

这是deepseek的回答：

这是谷歌Gemini 2.0Pro的回答。对比看的话，Gemini更能抓住问题的重点，它似乎就是能读懂你想问的。

我们在用其他像GPT和deepseek之类的AI，你可能会发现，它们往往会顺着你的意思去回答，但Gemini会有自己的明确见解，能告诉你就要怎么做才好，能给出明确的建议，这是一个很好用的地方。因为我们通常是要找建议，还不只是看它帮我们分析，然后又不给结论。

比如再举一个星友的提问，也是比较常见的问题。

先看下deepseek的回答

再看下Gemini的回答

对比看下来，我发现Gemini的回答是更有人味的，更像是我自己的在回答，和朋友聊天一样。

对于这一点来说，其实如果你自己不去真正用下的话，估计很难体会到，但我自己近段时间在用的时候是真切的体会到它的聪明、理性，对比其他工具来说，更加顺畅好用，关键还免费。

所以，有了一个这样能识别多模态，好用实用的AI工具，赶紧用起来吧。

我在想，在如今的AI时代，最核心的不是去关注到这些AI的发展，关注到它每天的更新变化，更重要的是要真的去把它们用起来，只有真正用到实际生产中，才能让AI给自己带来真正的能量。

谷歌最新模型，把模型能力卷出了新高度，全能且实用！

怎么用上它？

可以用它做啥？