AI碎碎念

snakeninny · 2024 年8 月 2 日 01:32

斗胆预测2024年下半年的AI大事件

这是我用LivePortrait制作的视频，A10 24GB显存，耗时不到1分半钟；完成度非常高，比半年前的效果好太多了。

结合我近期使用Kling（快手开发的可灵视频大模型）和gpt-4o多模态的效果，我斗胆预测下半年的AI大事件：

gpt-5/next发布，解锁更多能力，最重要的是逻辑推理能力进一步增强，智能体（agent）真正成为可能。
开源文生视频几乎成熟，可以用于生产环节。
基于1和2，文、音、图、视集齐“灵珠”，AI原生应用会在春节前出现，符合“2024年是AI应用元年”的说法。
投资者和创业者耐心蛰伏，等待黎明。

snakeninny · 2024 年8 月 9 日 13:53

gpt-5发布后，才会有真正的AI native应用

我在一家广告和营销公司做AI，因为广告和营销跟文案直接强相关，所以最先进的文生文大模型（如gpt-4o），都会第一时间试用、评估，拿到一线的真实反馈，比MMLU、GPQA等benchmark更有“体感”。通过与一线人员的频繁沟通，我们达成了共识：gpt-4o还差一口气。

为什么？

以我司为例，很多大模型的真实用户是文科出生的文案人员，ta们的工作是写稿（不是八股文）。尽管我们尝试了各种prompt，但生成的内容始终无法让文案人员100%满意，总觉得太“平”，有点“水”，不够“延伸”。

为什么“平”，为什么“水”，为什么不够“延伸”？

核心在于，ta们写稿时，很多东西无法通过清晰的描述来表达，只可意会不可言传。人可以感受，但gpt-4o感觉不到——gpt-4o理解不了用户背后的意图，推理能力不够强。

而基于OpenAI对大模型阶段的定义（见下图），gpt-4o处于L1.5阶段，仍是聊天机器人；等gpt-5出现后，大模型进入“推理者”阶段，才能理解用户背后的意图，满足我司的刚需。

因此，窥一斑而见全豹，我得出这个结论：gpt-5发布后，才会有真正的AI native应用。

yangguiduan · 2024 年8 月 11 日 10:20

正是这本书把我带来的，我是活跃在一线的硬件服务人员

snakeninny · 2024 年8 月 11 日 13:59

哪本书？硬件服务人员是指？

samlee1 · 2024 年8 月 13 日 00:37

哦～

snakeninny · 2024 年8 月 16 日 01:18

大语言模型端到端的核心逻辑是预测未来发展，本质是习得因果关系

来自万字硬核解读：“端到端”让特斯拉FSD V12迎来质变？

我认为，预测未来发展 ≈ 理解用户背后的意图，最终目的是能像人类一样，可以举一反三

snakeninny · 2024 年8 月 17 日 03:58

为什么现在的AI应用普遍鸡肋（不好用）？

我在一家广告和营销公司做AI，同事时不时会发一个链接给我，让我评估这个产品做的好不好，值不值得学习；目前为止，我评估过的所有产品，得出的结论都是：做的不好，不值得参考。

为什么？

我举一个例子：

这是一款AI文案写作产品，其中的一个功能是上传一份文件，然后AI会基于文件内容给出建议。明眼人基本都看得出来这个“建议”值不值得参考。

为什么会出现这样的问题？因为需求不匹配；我作为用户，只需要你帮我调整一下内容的排版和字体，什么标题、命令行细节，都不需要你来建议。而你作为产品，对我的需求不了解，不管三七二十一就给我提了一堆“建议”，连

命令清晰度：命令行应该更加清晰和详细，例如，“ssh root@iosre.com”后面应该加上说明，告诉读者这是执行SSH操作的命令。

都写，真的是没话找话说。

正确的做法是，先找到真正的用户，把需求梳理清楚，然后根据需求设计产品。但目前的难点之一是教育用户，很多人还没有找到真正的用户，即使找到了，发现用户还不习惯使用AI。这个“爆发期”需要一段时间。

需要多久呢？我认为，在AIGC时代，要等待“天时地利人和”：
用户（需要明确提出需求）←→开发（需要想清楚为什么而做）←→研究（需要解决技术难题）
这三者紧密相关，相辅相成；而现阶段主要是以研究为主导，所以核心就是大模型的进展，即

snakeninny · 2024 年9 月 18 日 10:14

AI生图的技术选型路线

未命名文件

目前我没有预训练的场景，也没有足够多的数据集和足够牛的硬件，所以此图到fine-tuning和RAG为止。

其中，
简单prompt是指：把AI当人，用自己能理解的方式，与AI对话时说出的话。如：

什么是MVP产品？

Prompt Engineering是指：AI碎碎念 - #2，来自 snakeninny 如：

你是一名导演。我给你一段文字描述，你根据对文字描述的理解，生成几个逻辑自洽的视频片段旁白；要求：
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
格式是JSON，形如（XXX是占位符）：
{
    "0": "XXX",
    "1": "XXX",
    "2": "XXX"
}
以下是文字描述：一辆车驰骋在海边，阳光惬意，体现出自由和放松的感觉

In-Context Learning是指：meta提到的ICL，我感觉就是给些例子让AI自己悟。例如：

你是一名导演。我给你一段文字描述，你根据对文字描述的理解，生成几个逻辑自洽的视频片段旁白；要求：
1. 每个视频片段的旁白只需要1句话
2. 所有视频片段的时长不超过30秒
3. 古龙风格。
格式是JSON，形如（XXX是占位符）：
{
    "0": "XXX",
    "1": "XXX",
    "2": "XXX"
}
以下是文字描述：一辆车驰骋在海边，阳光惬意，体现出自由和放松的感觉。
你生成：
{
    "0": "海浪，沙滩。",
    "1": "这辆车主的心灵是否在这片蔚蓝中找到了真正的归属。",
    "2": "他自己都不知道。"
}
以下是文字描述：小明纠结于晚饭是吃肯德基还是刀削面，左右为难。
你生成：

snakeninny · 2024 年10 月 8 日 01:31

怎么带团队？

节选自《毛泽东选集第二卷》

必须善于识别干部。不但要看干部的一时一事，而且要看干部的全部历史和全部工作，这是识别干部的主要方法。

必须善于使用干部。领导者的责任，归结起来，主要地是出主意、用干部两件事。一切计划、决议、命令、指示等等，都属于“出主意”一类。使这一切主意见之实行，必须团结干部，推动他们去做，属于“用干部”一类。在这个使用干部的问题上，我们民族历史中从来就有两个对立的路线：一个是“任人唯贤”的路线，一个是“任人唯亲”的路线。前者是正派的路线，后者是不正派的路线。共产党的干部政策，应是以能否坚决地执行党的路线，服从党的纪律，和群众有密切的联系，有独立的工作能力，积极肯干，不谋私利为标准，这就是“任人唯贤”的路线。过去张国焘的干部政策与此相反，实行“任人唯亲”，拉拢私党，组织小派别，结果叛党而去，这是一个大教训。鉴于张国焘的和类似张国焘的历史教训，在干部政策问题上坚持正派的公道的作风，反对不正派的不公道的作风，借以巩固党的统一团结，这是中央和各级领导者的重要的责任。

必须善于爱护干部。爱护的办法是：第一，指导他们。这就是让他们放手工作，使他们敢于负责；同时，又适时地给以指示，使他们能在党的政治路线下发挥其创造性。第二，提高他们。这就是给以学习的机会，教育他们，使他们在理论上在工作能力上提高一步。第三，检查他们的工作，帮助他们总结经验，发扬成绩，纠正错误。有委托而无检查，及至犯了严重的错误，方才加以注意，不是爱护干部的办法。第四，对于犯错误的干部，一般地应采取说服的方法，帮助他们改正错误。只有对犯了严重错误而又不接受指导的人们，才应当采取斗争的方法。在这里，耐心是必要的；轻易地给人们戴上“机会主义”的大帽子，轻易地采用“开展斗争”的方法，是不对的。第五，照顾他们的困难。干部有疾病、生活、家庭等项困难问题者，必须在可能限度内用心给以照顾。这些就是爱护干部的方法。

snakeninny · 2024 年10 月 14 日 08:56

可以用沉浸式翻译结合智谱提供的GLM-4-Flash模型实现免费的目标，而且比豆包要快得多~

snakeninny · 2024 年11 月 7 日 07:40

订阅ChatGPT Plus的解决方案

因为OpenAI不为一些国家和地区提供服务，在那里生活的人，如果想要使用官网ChatGPT，只能科学上网。
如果想进一步使用ChatGPT Plus，在订阅付费账号时，因为OpenAI会判断付款方式是否位于“被禁”国家和地区，所以如果你用的是国内的信用卡/借记卡，那么即使科学上网，也无法订阅ChatGPT Plus。怎么办呢？
解决方案之一是：通过美区的Google Play来付款，从而订阅ChatGPT Plus；而美区Google Play支持国内信用卡/借记卡。具体步骤如下：

本人在北京，用的是小米手机，亲测可行

为Google添加一个付款方式

官方链接是https://payments.google.com/ 。在填写信用卡/借记卡的时候，Google会要求你写地址，你在网上找一个美国地址填进去就可以了。
当然你也可以不用美区，而用其他OpenAI可以服务的国家和地区。

确认一下Payments profile是不是美国

此时你的Google账号就是美区账号了。

安装Google Play

通过ApkPure下载最新的Google Play的apk文件，然后安装。

下载ChatGPT

用刚配置好的美区Google账号，在刚安装的Google Play里下载并安装ChatGPT。

订阅ChatGPT Plus

打开ChatGPT，用刚配置好的美区Google账号登录，然后订阅ChatGPT Plus。此时，OpenAI会通过Google Play的付款渠道来要求你支付$19.99，而Google Play的付款方式就是你第一步添加的国内信用卡/借记卡，从而曲线救国。

snakeninny · 2024 年11 月 9 日 05:43

轻翻译

我经常使用中英翻译软件。虽然这类软件有很多，但有个核心痛点就是——太重了。

打开app时需要好几秒。
除了翻译本身，还可能“附赠”例句、音标、语法等；我不需要。
每次使用时，需要指定是中译英，还是英译中。

为了解决这个“重”的痛点，我制作了“轻翻译”，特点就是——还算轻：

在网页中使用，不用安装打开app。
只翻译，不“夹带私货”。
不用指定中译英还是英译中。你输入英文，就自动翻译成中文；你输入中文，就自动翻译成英文。
没有广告。

100%免费，点击这里，欢迎使用

1000120210

tyxxxx · 2024 年12 月 20 日 16:45

近期AI视频技术发展很快，做了个仙剑四视频，角色一致性还算是相对ok了。

视频：无法上传，要登录微博才能看
https://weibo.com/tv/show/1034:5113810768560154

截图：

zjjno · 2024 年12 月 21 日 02:16

持续关注

snakeninny · 2025 年2 月 4 日 05:19

能文能理，齐头并进

OpenAI 4o/deepseek V3是文科生，o3/R1是理科生，它们不是非此即彼的关系。
未来，优秀的AI应用一定是同时用好两者，齐头并进

snakeninny · 2025 年2 月 5 日 13:57

白嫖Kling（即可灵的海外版）

原理

Kling为每个新用户提供了166个点券，约可生成8个视频
Kling用户支持通过邮箱注册
可以通过maildrop等一次性邮箱服务商来随意注册Kling用户

实际操作

步骤一

在maildrop获取一个新邮箱，如iosre@maildrop.cc

步骤二

在Kling里，用iosre@maildrop.cc注册一个新账号。此时iosre@maildrop.cc里会收到Kling的验证码，如图：

步骤三

登录Kling后，刷新页面，即可获取166个点券。

gfbdg · 2025 年2 月 10 日 07:57

ds官网很卡，有可以流畅访问的站点吗

snakeninny · 2025 年2 月 10 日 12:53

免费的质量好像都一般，主要是卡不够；可以试试POE和其他大厂部署的DS；如果不着急可以等等，DS肯定会买更多卡的