AI碎碎念

斗胆预测2024年下半年的AI大事件

这是我用LivePortrait制作的视频,A10 24GB显存,耗时不到1分半钟;完成度非常高,比半年前的效果好太多了。

结合我近期使用Kling(快手开发的可灵视频大模型)和gpt-4o多模态的效果,我斗胆预测下半年的AI大事件:

  1. gpt-5/next发布,解锁更多能力,最重要的是逻辑推理能力进一步增强,智能体(agent)真正成为可能。

  2. 开源文生视频几乎成熟,可以用于生产环节。

  3. 基于1和2,文、音、图、视 集齐“灵珠”,AI原生应用会在春节前出现,符合“2024年是AI应用元年”的说法。

  4. 投资者和创业者耐心蛰伏,等待黎明。

gpt-5发布后,才会有真正的AI native应用

我在一家广告和营销公司做AI,因为广告和营销跟文案直接强相关,所以最先进的文生文大模型(如gpt-4o),都会第一时间试用、评估,拿到一线的真实反馈,比MMLU、GPQA等benchmark更有“体感”。通过与一线人员的频繁沟通,我们达成了共识:gpt-4o还差一口气。

为什么?

以我司为例,很多大模型的真实用户是文科出生的文案人员,ta们的工作是写稿(不是八股文)。尽管我们尝试了各种prompt,但生成的内容始终无法让文案人员100%满意,总觉得太“平”,有点“水”,不够“延伸”。

为什么“平”,为什么“水”,为什么不够“延伸”?

核心在于,ta们写稿时,很多东西无法通过清晰的描述来表达,只可意会不可言传。人可以感受,但gpt-4o感觉不到——gpt-4o理解不了用户背后的意图,推理能力不够强。

而基于OpenAI对大模型阶段的定义(见下图),gpt-4o处于L1.5阶段,仍是聊天机器人;等gpt-5出现后,大模型进入“推理者”阶段,才能理解用户背后的意图,满足我司的刚需。

因此,窥一斑而见全豹,我得出这个结论:gpt-5发布后,才会有真正的AI native应用。

正是这本书把我带来的,我是活跃在一线的硬件服务人员

哪本书?硬件服务人员是指?

哦~

大语言模型端到端的核心逻辑是预测未来发展,本质是习得因果关系

来自万字硬核解读:“端到端”让特斯拉FSD V12迎来质变?

我认为,预测未来发展 ≈ 理解用户背后的意图,最终目的是能像人类一样,可以举一反三

推荐好用的基于大模型的浏览器在线翻译软件

字节跳动开发的豆包,基于豆包大模型,免费;我主要用的是Chrome插件版里的翻译功能。效果如图:

其实还有一个名为沉浸式翻译的浏览器插件,也非常好用;因为只是一个壳,所以可选各种大模型,但需要收费。当然gpt-4o比豆包大模型要好用一丢丢。

近2个月过去了,看看我预测的如何了?

  1. 秋季要发布的不是gpt-5/next,而是代号为Q*/Strawberry/Orion的新一代大模型。虽然名字可能变了,但最核心的功能没变,就是逻辑推理。
  2. 关于文生视频,智谱8月6日开源了CogVideoX-2B文生视频大模型,我试用了一下,效果不敢恭维,肯定不能用于生产环境。但是,Black Forest Labs也正在开发开源文生视频,作为SDXL和FLUX的原班人马,质量预计会比CogVideoX提升一到两个档次。
  3. 视频大模型,智谱开发的闭源CogVideoX和快手开发的可灵都开始提供API了,面向生产环境;后者效果比前者强一个档次,但跟Black Forest Labs相比还是一个未知数。这种你追我赶的态势一旦形成,视频大模型就会加速进展,一旦补齐图生视频、首尾帧和视频延长的功能,短视频行业就变天咯。

为什么现在的AI应用普遍鸡肋(不好用)?

我在一家广告和营销公司做AI,同事时不时会发一个链接给我,让我评估这个产品做的好不好,值不值得学习;目前为止,我评估过的所有产品,得出的结论都是:做的不好,不值得参考。

为什么?

我举一个例子:

这是一款AI文案写作产品,其中的一个功能是上传一份文件,然后AI会基于文件内容给出建议。明眼人基本都看得出来这个“建议”值不值得参考。

为什么会出现这样的问题?因为需求不匹配;我作为用户,只需要你帮我调整一下内容的排版和字体,什么标题、命令行细节,都不需要你来建议。而你作为产品,对我的需求不了解,不管三七二十一就给我提了一堆“建议”,连

命令清晰度:命令行应该更加清晰和详细,例如,“ssh root@iosre.com”后面应该加上说明,告诉读者这是执行SSH操作的命令。

都写,真的是没话找话说。

正确的做法是,先找到真正的用户,把需求梳理清楚,然后根据需求设计产品。但目前的难点之一是教育用户,很多人还没有找到真正的用户,即使找到了,发现用户还不习惯使用AI。这个“爆发期”需要一段时间。

需要多久呢?我认为,在AIGC时代,要等待“天时地利人和”:
用户(需要明确提出需求)←→开发(需要想清楚为什么而做)←→研究(需要解决技术难题)
这三者紧密相关,相辅相成;而现阶段主要是以研究为主导,所以核心就是大模型的进展,即

AI生图的技术选型路线

未命名文件

目前我没有预训练的场景,也没有足够多的数据集和足够牛的硬件,所以此图到fine-tuning和RAG为止。

其中,
简单prompt是指:把AI当人,用自己能理解的方式,与AI对话时说出的话。如:

什么是MVP产品?

Prompt Engineering是指:AI碎碎念 - #2,来自 snakeninny 如:

你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
格式是JSON,形如(XXX是占位符):
{
    "0": "XXX",
    "1": "XXX",
    "2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉

In-Context Learning是指:meta提到的ICL,我感觉就是给些例子让AI自己悟。例如:

你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
3. 古龙风格。
格式是JSON,形如(XXX是占位符):
{
    "0": "XXX",
    "1": "XXX",
    "2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉。
你生成:
{
    "0": "海浪,沙滩。",
    "1": "这辆车主的心灵是否在这片蔚蓝中找到了真正的归属。",
    "2": "他自己都不知道。"
}
以下是文字描述:小明纠结于晚饭是吃肯德基还是刀削面,左右为难。
你生成:

怎么带团队?

节选自 《毛泽东选集第二卷

必须善于识别干部。不但要看干部的一时一事,而且要看干部的全部历史和全部工作,这是识别干部的主要方法。

必须善于使用干部。领导者的责任,归结起来,主要地是出主意、用干部两件事。一切计划、决议、命令、指示等等,都属于“出主意”一类。使这一切主意见之实行,必须团结干部,推动他们去做,属于“用干部”一类。在这个使用干部的问题上,我们民族历史中从来就有两个对立的路线:一个是“任人唯贤”的路线,一个是“任人唯亲”的路线。前者是正派的路线,后者是不正派的路线。共产党的干部政策,应是以能否坚决地执行党的路线,服从党的纪律,和群众有密切的联系,有独立的工作能力,积极肯干,不谋私利为标准,这就是“任人唯贤”的路线。过去张国焘的干部政策与此相反,实行“任人唯亲”,拉拢私党,组织小派别,结果叛党而去,这是一个大教训。鉴于张国焘的和类似张国焘的历史教训,在干部政策问题上坚持正派的公道的作风,反对不正派的不公道的作风,借以巩固党的统一团结,这是中央和各级领导者的重要的责任。

必须善于爱护干部。爱护的办法是:第一,指导他们。这就是让他们放手工作,使他们敢于负责;同时,又适时地给以指示,使他们能在党的政治路线下发挥其创造性。第二,提高他们。这就是给以学习的机会,教育他们,使他们在理论上在工作能力上提高一步。第三,检查他们的工作,帮助他们总结经验,发扬成绩,纠正错误。有委托而无检查,及至犯了严重的错误,方才加以注意,不是爱护干部的办法。第四,对于犯错误的干部,一般地应采取说服的方法,帮助他们改正错误。只有对犯了严重错误而又不接受指导的人们,才应当采取斗争的方法。在这里,耐心是必要的;轻易地给人们戴上“机会主义”的大帽子,轻易地采用“开展斗争”的方法,是不对的。第五,照顾他们的困难。干部有疾病、生活、家庭等项困难问题者,必须在可能限度内用心给以照顾。这些就是爱护干部的方法。

可以用沉浸式翻译结合智谱提供的GLM-4-Flash模型实现免费的目标,而且比豆包要快得多~

订阅ChatGPT Plus的解决方案

因为OpenAI不为一些国家和地区提供服务,在那里生活的人,如果想要使用官网ChatGPT,只能科学上网。
如果想进一步使用ChatGPT Plus,在订阅付费账号时,因为OpenAI会判断付款方式是否位于“被禁”国家和地区,所以如果你用的是国内的信用卡/借记卡,那么即使科学上网,也无法订阅ChatGPT Plus。怎么办呢?
解决方案之一是:通过美区Google Play来付款,从而订阅ChatGPT Plus;而美区Google Play支持国内信用卡/借记卡。具体步骤如下:

本人在北京,用的是小米手机,亲测可行

为Google添加一个付款方式

官方链接是https://payments.google.com/ 。在填写信用卡/借记卡的时候,Google会要求你写地址,你在网上找一个美国地址填进去就可以了。
当然你也可以不用美区,而用其他OpenAI可以服务的国家和地区。

确认一下Payments profile是不是美国


此时你的Google账号就是美区账号了。

安装Google Play

通过ApkPure下载最新的Google Play的apk文件,然后安装。

下载ChatGPT

用刚配置好的美区Google账号,在刚安装的Google Play里下载并安装ChatGPT。

订阅ChatGPT Plus

打开ChatGPT,用刚配置好的美区Google账号登录,然后订阅ChatGPT Plus。此时,OpenAI会通过Google Play的付款渠道来要求你支付$19.99,而Google Play的付款方式就是你第一步添加的国内信用卡/借记卡,从而曲线救国。

2 个赞

轻翻译

我经常使用中英翻译软件。虽然这类软件有很多,但有个核心痛点就是——太重了。

  1. 打开app时需要好几秒。
  2. 除了翻译本身,还可能“附赠”例句、音标、语法等;我不需要。
  3. ​每次使用时,需要指定是中译英,还是英译中。

​为了解决这个“重”的痛点,我制作了“轻翻译”,特点就是——还算轻:

  1. 在网页中使用,不用安装打开app。
  2. 只翻译,不“夹带私货”。
  3. 不用指定中译英还是英译中。你输入英文,就自动翻译成中文;你输入中文,就自动翻译成英文。
  4. 没有广告。

100%免费,点击这里,欢迎使用:grin:

1000120210

2 个赞