斗胆预测2024年下半年的AI大事件
这是我用LivePortrait制作的视频,A10 24GB显存,耗时不到1分半钟;完成度非常高,比半年前的效果好太多了。
结合我近期使用Kling(快手开发的可灵视频大模型)和gpt-4o多模态的效果,我斗胆预测下半年的AI大事件:
-
gpt-5/next发布,解锁更多能力,最重要的是逻辑推理能力进一步增强,智能体(agent)真正成为可能。
-
开源文生视频几乎成熟,可以用于生产环节。
-
基于1和2,文、音、图、视 集齐“灵珠”,AI原生应用会在春节前出现,符合“2024年是AI应用元年”的说法。
-
投资者和创业者耐心蛰伏,等待黎明。
gpt-5发布后,才会有真正的AI native应用
我在一家广告和营销公司做AI,因为广告和营销跟文案直接强相关,所以最先进的文生文大模型(如gpt-4o),都会第一时间试用、评估,拿到一线的真实反馈,比MMLU、GPQA等benchmark更有“体感”。通过与一线人员的频繁沟通,我们达成了共识:gpt-4o还差一口气。
为什么?
以我司为例,很多大模型的真实用户是文科出生的文案人员,ta们的工作是写稿(不是八股文)。尽管我们尝试了各种prompt,但生成的内容始终无法让文案人员100%满意,总觉得太“平”,有点“水”,不够“延伸”。
为什么“平”,为什么“水”,为什么不够“延伸”?
核心在于,ta们写稿时,很多东西无法通过清晰的描述来表达,只可意会不可言传。人可以感受,但gpt-4o感觉不到——gpt-4o理解不了用户背后的意图,推理能力不够强。
而基于OpenAI对大模型阶段的定义(见下图),gpt-4o处于L1.5阶段,仍是聊天机器人;等gpt-5出现后,大模型进入“推理者”阶段,才能理解用户背后的意图,满足我司的刚需。
因此,窥一斑而见全豹,我得出这个结论:gpt-5发布后,才会有真正的AI native应用。
正是这本书把我带来的,我是活跃在一线的硬件服务人员
大语言模型端到端的核心逻辑是预测未来发展,本质是习得因果关系
来自万字硬核解读:“端到端”让特斯拉FSD V12迎来质变?
我认为,预测未来发展 ≈ 理解用户背后的意图,最终目的是能像人类一样,可以举一反三
推荐好用的基于大模型的浏览器在线翻译软件
字节跳动开发的豆包,基于豆包大模型,免费;我主要用的是Chrome插件版里的翻译功能。效果如图:
其实还有一个名为沉浸式翻译的浏览器插件,也非常好用;因为只是一个壳,所以可选各种大模型,但需要收费。当然gpt-4o比豆包大模型要好用一丢丢。
为什么现在的AI应用普遍鸡肋(不好用)?
我在一家广告和营销公司做AI,同事时不时会发一个链接给我,让我评估这个产品做的好不好,值不值得学习;目前为止,我评估过的所有产品,得出的结论都是:做的不好,不值得参考。
为什么?
我举一个例子:
这是一款AI文案写作产品,其中的一个功能是上传一份文件,然后AI会基于文件内容给出建议。明眼人基本都看得出来这个“建议”值不值得参考。
为什么会出现这样的问题?因为需求不匹配;我作为用户,只需要你帮我调整一下内容的排版和字体,什么标题、命令行细节,都不需要你来建议。而你作为产品,对我的需求不了解,不管三七二十一就给我提了一堆“建议”,连
命令清晰度:命令行应该更加清晰和详细,例如,“ssh root@iosre.com”后面应该加上说明,告诉读者这是执行SSH操作的命令。
都写,真的是没话找话说。
正确的做法是,先找到真正的用户,把需求梳理清楚,然后根据需求设计产品。但目前的难点之一是教育用户,很多人还没有找到真正的用户,即使找到了,发现用户还不习惯使用AI。这个“爆发期”需要一段时间。
需要多久呢?我认为,在AIGC时代,要等待“天时地利人和”:
用户(需要明确提出需求)←→开发(需要想清楚为什么而做)←→研究(需要解决技术难题)
这三者紧密相关,相辅相成;而现阶段主要是以研究为主导,所以核心就是大模型的进展,即
AI生图的技术选型路线
目前我没有预训练的场景,也没有足够多的数据集和足够牛的硬件,所以此图到fine-tuning和RAG为止。
其中,
简单prompt是指:把AI当人,用自己能理解的方式,与AI对话时说出的话。如:
什么是MVP产品?
Prompt Engineering是指:AI碎碎念 - #2,来自 snakeninny 如:
你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
格式是JSON,形如(XXX是占位符):
{
"0": "XXX",
"1": "XXX",
"2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉
In-Context Learning是指:meta提到的ICL,我感觉就是给些例子让AI自己悟。例如:
你是一名导演。我给你一段文字描述,你根据对文字描述的理解,生成几个逻辑自洽的视频片段旁白;要求:
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
3. 古龙风格。
格式是JSON,形如(XXX是占位符):
{
"0": "XXX",
"1": "XXX",
"2": "XXX"
}
以下是文字描述:一辆车驰骋在海边,阳光惬意,体现出自由和放松的感觉。
你生成:
{
"0": "海浪,沙滩。",
"1": "这辆车主的心灵是否在这片蔚蓝中找到了真正的归属。",
"2": "他自己都不知道。"
}
以下是文字描述:小明纠结于晚饭是吃肯德基还是刀削面,左右为难。
你生成:
怎么带团队?
节选自 《毛泽东选集第二卷》
必须善于识别干部。不但要看干部的一时一事,而且要看干部的全部历史和全部工作,这是识别干部的主要方法。
必须善于使用干部。领导者的责任,归结起来,主要地是出主意、用干部两件事。一切计划、决议、命令、指示等等,都属于“出主意”一类。使这一切主意见之实行,必须团结干部,推动他们去做,属于“用干部”一类。在这个使用干部的问题上,我们民族历史中从来就有两个对立的路线:一个是“任人唯贤”的路线,一个是“任人唯亲”的路线。前者是正派的路线,后者是不正派的路线。共产党的干部政策,应是以能否坚决地执行党的路线,服从党的纪律,和群众有密切的联系,有独立的工作能力,积极肯干,不谋私利为标准,这就是“任人唯贤”的路线。过去张国焘的干部政策与此相反,实行“任人唯亲”,拉拢私党,组织小派别,结果叛党而去,这是一个大教训。鉴于张国焘的和类似张国焘的历史教训,在干部政策问题上坚持正派的公道的作风,反对不正派的不公道的作风,借以巩固党的统一团结,这是中央和各级领导者的重要的责任。
必须善于爱护干部。爱护的办法是:第一,指导他们。这就是让他们放手工作,使他们敢于负责;同时,又适时地给以指示,使他们能在党的政治路线下发挥其创造性。第二,提高他们。这就是给以学习的机会,教育他们,使他们在理论上在工作能力上提高一步。第三,检查他们的工作,帮助他们总结经验,发扬成绩,纠正错误。有委托而无检查,及至犯了严重的错误,方才加以注意,不是爱护干部的办法。第四,对于犯错误的干部,一般地应采取说服的方法,帮助他们改正错误。只有对犯了严重错误而又不接受指导的人们,才应当采取斗争的方法。在这里,耐心是必要的;轻易地给人们戴上“机会主义”的大帽子,轻易地采用“开展斗争”的方法,是不对的。第五,照顾他们的困难。干部有疾病、生活、家庭等项困难问题者,必须在可能限度内用心给以照顾。这些就是爱护干部的方法。
可以用沉浸式翻译结合智谱提供的GLM-4-Flash模型实现免费的目标,而且比豆包要快得多~
订阅ChatGPT Plus的解决方案
因为OpenAI不为一些国家和地区提供服务,在那里生活的人,如果想要使用官网ChatGPT,只能科学上网。
如果想进一步使用ChatGPT Plus,在订阅付费账号时,因为OpenAI会判断付款方式是否位于“被禁”国家和地区,所以如果你用的是国内的信用卡/借记卡,那么即使科学上网,也无法订阅ChatGPT Plus。怎么办呢?
解决方案之一是:通过美区的Google Play来付款,从而订阅ChatGPT Plus;而美区Google Play支持国内信用卡/借记卡。具体步骤如下:
本人在北京,用的是小米手机,亲测可行
为Google添加一个付款方式
官方链接是https://payments.google.com/ 。在填写信用卡/借记卡的时候,Google会要求你写地址,你在网上找一个美国地址填进去就可以了。
当然你也可以不用美区,而用其他OpenAI可以服务的国家和地区。
确认一下Payments profile是不是美国
此时你的Google账号就是美区账号了。
安装Google Play
通过ApkPure下载最新的Google Play的apk文件,然后安装。
下载ChatGPT
用刚配置好的美区Google账号,在刚安装的Google Play里下载并安装ChatGPT。
订阅ChatGPT Plus
打开ChatGPT,用刚配置好的美区Google账号登录,然后订阅ChatGPT Plus。此时,OpenAI会通过Google Play的付款渠道来要求你支付$19.99,而Google Play的付款方式就是你第一步添加的国内信用卡/借记卡,从而曲线救国。
2 个赞
轻翻译
我经常使用中英翻译软件。虽然这类软件有很多,但有个核心痛点就是——太重了。
- 打开app时需要好几秒。
- 除了翻译本身,还可能“附赠”例句、音标、语法等;我不需要。
- 每次使用时,需要指定是中译英,还是英译中。
为了解决这个“重”的痛点,我制作了“轻翻译”,特点就是——还算轻:
- 在网页中使用,不用安装打开app。
- 只翻译,不“夹带私货”。
- 不用指定中译英还是英译中。你输入英文,就自动翻译成中文;你输入中文,就自动翻译成英文。
- 没有广告。
100%免费,点击这里,欢迎使用
2 个赞