谷歌最新模型,把模型能力卷出了新高度,全能且实用!

     分类 [产品经理]
2025/4/8 15:51:58 浏览量  578 喜欢  40
导读:AI一天,人间一年

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

戳蓝字“彩云译设计”关注我哦!

 

自从春节期间的deepseek出圈后,各家大模型就开始疯狂内卷,真应了那句话,AI一天,人间一年。尤其是到了近一个月,AI圈更是打的火热,各大AI大厂都在玩命更新,那在这些更新里到底哪个更好用呢?不知道大家能不能清楚,反正我是有点分不清,所以这个假期花了几天时间,实验对比了一圈,最终发现谷歌最新的模型Gemini 2.5 Pro成了最好用的。

先简单介绍下这个模型,Gemini 2.5 Pro是谷歌在3月25号发布的一个多模态模型,它能接受输入音频、图片、视频和文本,是谷歌当前最先进的思考型模型,能够解决各种复杂问题。

它在各种专业评分上几乎都是第一,比如在LMArena排行榜(衡量人类偏好)上就遥遥领先,几乎是全模态第一。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

Gemini  2.5 Pro 还在常见的编码、数学和科学基准测试上也表现抢眼。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

当然,只看评分其实没啥概念,只知道很强,但我们普通用户其实更关注的是到底能用在哪些地方,好不好用?

怎么用上它?

和上次我写的教程《谷歌新出的生图模型,没想到把comfyUI的学习难度瞬间降低了》一样,它的使用同样简单,最近谷歌确实有点猛啊,快速出了很多好用的模型,而且都给咱们免费用。

先打开官方这个链接(需要科学上网) :

https://aistudio.google.com/prompts/new_chat 

然后选择Gemini 2.5Pro Preview 03-25这个模型

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

到这,你就已经可以免费使用上这个目前地表最强的AI思考模型了。

可以用它做啥?

它的优势有很多:超长记忆能力,目前能记住100万个token,地表最强;它能看懂视频,图片,听懂音频等等,几乎全能。

1、能读懂记住超长文本文件

看下最新的测试结果,谷歌最新的这个模型目前在长文本理解方面,完全没有对手。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

它现在能记住100万个Token长度,什么概念呢?

想象一下,传统的 AI 模型像一个记忆力有限的学生,一次只能记住几页书的内容、而 Gemini 2.5 Pro 就像一位博学的智者,能够一口气“读”完并深刻理解一部巨著,比如《战争与和平》全集(约 70 万 Token),甚至还有余力。

这不仅仅是能“装下”更多信息,关键在于理解和关联

在日常工作中,经常需要同时读懂大量文档,并且每个文档相互之间还需要关联上,这种长文本的能力就非常需要。我们在实际工作中的对话往往是非常长的,聊到后面忘记前面是现在很多AI的通病。

假如你是一个项目经理,接手了一个历史悠久、文档堆积如山的大型软件项目。里面有需求文档、设计稿、会议纪要、邮件往来、甚至几万行历史代码。你想快速了解项目的来龙去脉、关键决策点和潜在风险。

你可以将这些文档(总计可能几十万 Token)一次性“喂”给 Gemini 2.5 Pro。然后你可以直接提问:

“总结一下项目初期最重要的 3 个技术选型决策及其原因。”

“根据所有会议纪要,用户反馈最集中的功能模块是哪个?相关的讨论出现在哪些文档的哪部分?”

它马上就能给你来个总结,我这里就不放示例了,你可以自己去试试看,非常有效。

再比如我把我过往写的部分文章,一次性都丢给Gemini 2.5 Pro,里面有图有文字,希望它帮我分析出我最喜欢用的词语频次,并由此推测我的文风是什么样的?适合写什么类型的内容。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

这是它给出的结果,可以说非常准确了。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

对比GPT4.5,效果立马高下立判。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

 

2、听懂音频文件,总结录音内容成文字

Gemini 2.5 Pro 不仅擅长处理文本,还能看图,看视频,听声音,并且得益于能记住超长的上下文,这种能力被提升到了新的高度。

我之前就经常苦恼于录了一段长录音,然后找音频转换文本的软件,发现大多数收费都非常贵。现在用谷歌Gemini,不仅免费还能直接帮我总结形成文字给我,非常实用。

上传音频文件,然后直接写提示词:“帮我把这一段录音文件转换为文字稿,并总结出其中的关键内容”

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

 

它能基于录音的内容分析出的每一句文字内容,最后还帮我做了总结,整个过程大概就花了3分钟就搞定了,非常效率。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

 

3、看懂视频,找出视频中的关键信息

可以上传一段本地拍的视频,也可以直接用网上的一个视频链接(目前仅支持youtube),它就能直接分析出视频里的所有内容,甚至理解视频中每一帧的画面内容,这个能力真的太有用了。尤其像我习惯看长视频教程的人,对我来说非常实用。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

 

分析完成后,它会告诉我总结之后的结果

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

对于能解析本地拍的视频,这个能力其实非常有用,比如在平时自己拍的一段视频,希望能分析出视频中自己的情绪变化。

比如还可以把B站的视频下载下来,通过分析弹幕上的文本了解观众对哪个功能的讨论最热烈?主要观点有哪些?针对视频中的哪部分内容,什么画面带来的情绪变化等等。

比如还可以问“发布会上的老板是在哪个时间点开始介绍新产品?他强调了哪些核心卖点?” ,顺便还让它“总结一下 35 分钟到 45 分钟这段 Q&A 环节的主要问题和回答。” ,甚至还能让它总结出视频中人物一共鼓掌了多少次。

它能像人一样“看”视频,理解画面内容、识别语音、定位关键帧,甚至进行一定的情感分析,我们不需要再手动拉进度条或单独做文字记录了。

它还强在哪些地方?

如果以上这些多模态能力,还不足以震撼到你我的话。更强悍的是当你实际用的时候,你就会发现,它真的比其他模型更厉害,没有对比就没有伤害。

比如就单纯在问答这块的能力,我们来对比下试试。

我以星球里一位星友的提问为例

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

这是deepseek的回答:

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

这是谷歌Gemini 2.0Pro的回答。对比看的话,Gemini更能抓住问题的重点,它似乎就是能读懂你想问的。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

我们在用其他像GPT和deepseek之类的AI,你可能会发现,它们往往会顺着你的意思去回答,但Gemini会有自己的明确见解,能告诉你就要怎么做才好,能给出明确的建议,这是一个很好用的地方。因为我们通常是要找建议,还不只是看它帮我们分析,然后又不给结论。

比如再举一个星友的提问,也是比较常见的问题。

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

先看下deepseek的回答

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

再看下Gemini的回答

谷歌最新模型,把模型能力卷出了新高度,全能且实用!

对比看下来,我发现Gemini的回答是更有人味的,更像是我自己的在回答,和朋友聊天一样。

对于这一点来说,其实如果你自己不去真正用下的话,估计很难体会到,但我自己近段时间在用的时候是真切的体会到它的聪明、理性,对比其他工具来说,更加顺畅好用,关键还免费。

所以,有了一个这样能识别多模态,好用实用的AI工具,赶紧用起来吧。

我在想,在如今的AI时代,最核心的不是去关注到这些AI的发展,关注到它每天的更新变化,更重要的是要真的去把它们用起来,只有真正用到实际生产中,才能让AI给自己带来真正的能量。

 

标签

微信扫一扫,分享到朋友圈

微信公众号

相关推荐