斗胆预测2024年下半年的AI大事件
这是我用LivePortrait制作的视频,A10 24GB显存,耗时不到1分半钟;完成度非常高,比半年前的效果好太多了。
结合我近期使用Kling(快手开发的可灵视频大模型)和gpt-4o多模态的效果,我斗胆预测下半年的AI大事件:
-
gpt-5/next发布,解锁更多能力,最重要的是逻辑推理能力进一步增强,智能体(agent)真正成为可能。
-
开源文生视频几乎成熟,可以用于生产环节。
-
基于1和2,文、音、图、视 集齐“灵珠”,AI原生应用会在春节前出现,符合“2024年是AI应用元年”的说法。
-
投资者和创业者耐心蛰伏,等待黎明。
gpt-5发布后,才会有真正的AI native应用
我在一家广告和营销公司做AI,因为广告和营销跟文案直接强相关,所以最先进的文生文大模型(如gpt-4o),都会第一时间试用、评估,拿到一线的真实反馈,比MMLU、GPQA等benchmark更有“体感”。通过与一线人员的频繁沟通,我们达成了共识:gpt-4o还差一口气。
为什么?
以我司为例,很多大模型的真实用户是文科出生的文案人员,ta们的工作是写稿(不是八股文)。尽管我们尝试了各种prompt,但生成的内容始终无法让文案人员100%满意,总觉得太“平”,有点“水”,不够“延伸”。
为什么“平”,为什么“水”,为什么不够“延伸”?
核心在于,ta们写稿时,很多东西无法通过清晰的描述来表达,只可意会不可言传。人可以感受,但gpt-4o感觉不到——gpt-4o理解不了用户背后的意图,推理能力不够强。
而基于OpenAI对大模型阶段的定义(见下图),gpt-4o处于L1.5阶段,仍是聊天机器人;等gpt-5出现后,大模型进入“推理者”阶段,才能理解用户背后的意图,满足我司的刚需。
因此,窥一斑而见全豹,我得出这个结论:gpt-5发布后,才会有真正的AI native应用。
正是这本书把我带来的,我是活跃在一线的硬件服务人员
大语言模型端到端的核心逻辑是预测未来发展,本质是习得因果关系
来自万字硬核解读:“端到端”让特斯拉FSD V12迎来质变?
我认为,预测未来发展 ≈ 理解用户背后的意图,最终目的是能像人类一样,可以举一反三
推荐好用的基于大模型的浏览器在线翻译软件
字节跳动开发的豆包,基于豆包大模型,免费;我主要用的是Chrome插件版里的翻译功能。效果如图:
其实还有一个名为沉浸式翻译的浏览器插件,也非常好用;因为只是一个壳,所以可选各种大模型,但需要收费。当然gpt-4o比豆包大模型要好用一丢丢。
为什么现在的AI应用普遍鸡肋(不好用)?
我在一家广告和营销公司做AI,同事时不时会发一个链接给我,让我评估这个产品做的好不好,值不值得学习;目前为止,我评估过的所有产品,得出的结论都是:做的不好,不值得参考。
为什么?
我举一个例子:
这是一款AI文案写作产品,其中的一个功能是上传一份文件,然后AI会基于文件内容给出建议。明眼人基本都看得出来这个“建议”值不值得参考。
为什么会出现这样的问题?因为需求不匹配;我作为用户,只需要你帮我调整一下内容的排版和字体,什么标题、命令行细节,都不需要你来建议。而你作为产品,对我的需求不了解,不管三七二十一就给我提了一堆“建议”,连
命令清晰度:命令行应该更加清晰和详细,例如,“ssh root@iosre.com”后面应该加上说明,告诉读者这是执行SSH操作的命令。
都写,真的是没话找话说。
正确的做法是,先找到真正的用户,把需求梳理清楚,然后根据需求设计产品。但目前的难点之一是教育用户,很多人还没有找到真正的用户,即使找到了,发现用户还不习惯使用AI。这个“爆发期”需要一段时间。
需要多久呢?我认为,在AIGC时代,要等待“天时地利人和”:
用户(需要明确提出需求)←→开发(需要想清楚为什么而做)←→研究(需要解决技术难题)
这三者紧密相关,相辅相成;而现阶段主要是以研究为主导,所以核心就是大模型的进展,即
AI生图的技术选型路线
目前我没有预训练的场景,也没有足够多的数据集和足够牛的硬件,所以此图到fine-tuning和RAG为止。
其中,
简单prompt是指:把AI当人,用自己能理解的方式,与AI对话时说出的话。如:
什么是MVP产品?
Prompt Engineering是指:AI碎碎念 - #2,来自 snakeninny 如:
你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
格式是JSON,形如(XXX是占位符):
{
"0": "XXX",
"1": "XXX",
"2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉
In-Context Learning是指:meta提到的ICL,我感觉就是给些例子让AI自己悟。例如:
你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
3. 古龙风格。
格式是JSON,形如(XXX是占位符):
{
"0": "XXX",
"1": "XXX",
"2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉。
你生成:
{
"0": "海浪,沙滩。",
"1": "这辆车主的心灵是否在这片蔚蓝中找到了真正的归属。",
"2": "他自己都不知道。"
}
以下是文字描述:小明纠结于晚饭是吃肯德基还是刀削面,左右为难。
你生成:
怎么带团队?
节选自 《毛泽东选集第二卷》
必须善于识别干部。不但要看干部的一时一事,而且要看干部的全部历史和全部工作,这是识别干部的主要方法。
必须善于使用干部。领导者的责任,归结起来,主要地是出主意、用干部两件事。一切计划、决议、命令、指示等等,都属于“出主意”一类。使这一切主意见之实行,必须团结干部,推动他们去做,属于“用干部”一类。在这个使用干部的问题上,我们民族历史中从来就有两个对立的路线:一个是“任人唯贤”的路线,一个是“任人唯亲”的路线。前者是正派的路线,后者是不正派的路线。共产党的干部政策,应是以能否坚决地执行党的路线,服从党的纪律,和群众有密切的联系,有独立的工作能力,积极肯干,不谋私利为标准,这就是“任人唯贤”的路线。过去张国焘的干部政策与此相反,实行“任人唯亲”,拉拢私党,组织小派别,结果叛党而去,这是一个大教训。鉴于张国焘的和类似张国焘的历史教训,在干部政策问题上坚持正派的公道的作风,反对不正派的不公道的作风,借以巩固党的统一团结,这是中央和各级领导者的重要的责任。
必须善于爱护干部。爱护的办法是:第一,指导他们。这就是让他们放手工作,使他们敢于负责;同时,又适时地给以指示,使他们能在党的政治路线下发挥其创造性。第二,提高他们。这就是给以学习的机会,教育他们,使他们在理论上在工作能力上提高一步。第三,检查他们的工作,帮助他们总结经验,发扬成绩,纠正错误。有委托而无检查,及至犯了严重的错误,方才加以注意,不是爱护干部的办法。第四,对于犯错误的干部,一般地应采取说服的方法,帮助他们改正错误。只有对犯了严重错误而又不接受指导的人们,才应当采取斗争的方法。在这里,耐心是必要的;轻易地给人们戴上“机会主义”的大帽子,轻易地采用“开展斗争”的方法,是不对的。第五,照顾他们的困难。干部有疾病、生活、家庭等项困难问题者,必须在可能限度内用心给以照顾。这些就是爱护干部的方法。
可以用沉浸式翻译结合智谱提供的GLM-4-Flash模型实现免费的目标,而且比豆包要快得多~