全网爆火AI巨人照教程：一句提示词实现奥特曼式奇幻视角

type

status

date

slug

summary

category

icon

password

网址

讲真，谁小时候没幻想过自己突然变成巨人？

像奥特曼那样，随手把高楼大厦当武器，亦或者，把珠穆朗玛峰当台阶一脚跨过去，《格列佛游记》里的小人国，更是想象已久的场景。

而 Nano Banana Pro 的出现，让这个中二梦想有了变成现实的可能性——不需要特效团队，不需要绿幕，甚至不需要会 P 图。

只要一串提示词，你就能在全球任何知名地标当一回巨人。那具体是咋做到的呢？

X 博主 Travis Davids 最近分享了一套万能提示词公式，专门用来生成这种巨人闯入现实世界的魔幻场景。

通用提示词如下：

一张细节丰富、逼真写实的 [相机角度，例如广角镜头、俯拍、仰拍]，画面中出现一个巨大的 [人物描述及服饰]，他/她位于 [具体地点/城市/景观]。这个巨人正在 [动作——与环境互动，例如坐在建筑物上、跨过一座桥]。为了体现巨大的体型比例，可在他/她的 [脚边/手边] 加入一些微小的 [元素，如人群、汽车或船只]。

核心逻辑很简单，就是通过精准描述相机角度、巨人动作和环境细节，然后在画面里塞一堆超小的参照物。人群、汽车、船只，越多越好，用来疯狂强化体型反差。

Travis 特别提到一个技巧，叫「透视夸张」，用在 AI 生成巨人上简直是神来之笔。

他的第一个案例画面就是个穿着可爱风服装的亚洲女巨人，因为用了透视夸张，那只手看起来特别巨大，整个画面的压迫感瞬间就出来了。

第二个案例更有意思。

一个穿着复古羊毛大衣和毛线帽的男巨人坐在伦敦的泰晤士河岸边里，泥靴没到小腿，整个人坐在河岸边，表情又累又平静。

为了突出比例，他在巨人脚边和腿部周围塞了成百上千辆迷你红色双层巴士，还有小观光船在脚踝附近游来游去。

背景里议会大厦的哥特式石雕、湿漉漉的路面反光、阴沉的灰色天空，全都刻画得特别细。整个画面就像某种超现实主义电影的剧照，看着既魔幻又真实。

这套玩法火了之后，其他博主也开始整活了。网友 luta_ai 就照着 Travis 的思路做了个日本女巨人趴在建筑群上看书的场景。

这位女巨人戴着眼镜穿着衬衫，用双肘撑着身体，把一本书横放在两栋楼之间当书架，双脚还随意翘在身后。画面里加了从窗户往外看的上班族、街边小书店、长椅这些细节。

除了 Travis 这种「巨人降临」风格，还有另一个反向思路也挺绝的。

网友 AleRVG 则搞了个「巨人国」新玩法，即把世界变微缩。画面里是个真实比例的人穿行在精心打造的城市微缩模型里，双腿以巨大比例呈现，穿着牛仔裤和运动鞋，在微型世界上投下柔和的阴影。

重点是质感反差。

真实牛仔布和球鞋的高分辨率柔软织物，跟用来搭建环境的模型材质形成鲜明对比。就像某种温柔的巨人行走在脆弱手工世界的超现实写实主义风格。

[相机角度]——一张电影感十足的照片，画面中是一位真实人物正在穿行于精心打造的 [城市/地点] 微缩模型中。人物的双腿以巨大的比例呈现，穿着 [牛仔裤款式] 和 [运动鞋款式]。巨人正在 [动作描述]，在微型世界上投下柔和而逼真的阴影。场景中布满细致的微缩细节，例如放在巨人鞋旁的 [微型道具]，用于强化比例对比。画面在视觉上突出了强烈的质感反差：真实牛仔布和球鞋的高分辨率柔和织物质感，与用于搭建人工环境的 [模型材质] 形成鲜明对比。光线模拟 [光照条件] 下的均匀日光。使用 Sony A7R IV 搭配 [镜头参数]，光圈 f/4，浅景深拍摄。风格基调：超现实的写实主义——一个温柔的巨人行走在脆弱的手工世界中。

看到这些案例之后，我也忍不住试了试。

既然是巨人打卡，那当然得选全球最有辨识度的地标啊。广州塔是第一站，但可惜 Veo 3.1 对公众人物的形象有所限制，所以马斯克是没法到此一游了。

🍌文生图提示词：一张细节丰富、逼真写实的极端仰拍照片，画面中的马斯克正在坐在珠江岸边，一只手搭在广州塔的塔尖上，为了体现巨大的体型比例，可在他的脚边加入一些微小的游船、观光游客等。

威尼斯也得去打个卡。

🍌文生图提示词：一张细节丰富、逼真写实的俯拍照片，画面中出现一个巨大的穿着文艺复兴风格服装的男性，他位于威尼斯圣马可广场。这个巨人正在坐在广场上，双脚泡在运河里，手里拿着一艘小贡多拉船端详。为了体现巨大的体型比例，可在他的脚边加入一些微小的建筑、小桥和运河。光线为傍晚温暖的橙黄色调，营造古典油画质感。

视频提示词（下同）：生成视频，动起来

青春没有售价，珠峰就在脚下。

现在的长城不仅是世界文化遗产，现在还是巨人的休息区。

🍌文生图提示词：一张细节丰富、逼真写实的高角度俯拍照片，画面中出现一个巨大的穿着中式对襟衫的男性，他位于中国长城山脊上。这个巨人正在盘腿坐在山脊上，一只手轻轻搭在长城烽火台上。为了体现巨大的体型比例，可在他的脚边加入一些微小的游客人群在城墙上排队。光线为清晨薄雾笼罩的柔和光线。

悉尼歌剧院则是最后一站。

测下来发现，这套玩法最关键的几个点其实很明确：

• 视角要么极低仰拍展现压迫感，要么极高俯拍展现掌控感。

• 细节尽可能要塞满，不能留白。微型元素（车、人、船）就是这个画面的视觉锚点。没有这些锚点，大脑就无法建立正确的比例尺。就像做菜加味精，这把「微缩料」必须撒得足够猛。

• 光线不只是照明，更是情绪。傍晚的暖光带来怀旧感，正午的硬光带来真实感。没有光影描述的 Prompt，生成出来的图往往像没渲染完的 3D 建模，很「平」。

• 抓取、跨越、斜靠、倚坐，巨人的动作要和环境发生物理接触。这种接触感，是打破「贴图感」的关键。

最后，如果有 4K 选项，请务必开启。

因为在微缩场景下，那些作为参照物的人群和车辆如果糊成一团，整个画面的逻辑就崩了。Travis 也表示，目前这套工作流在 Veo 3.1 模型里的表现最为惊艳。

当专业级的效果变得如此唾手可得，门槛也随之消融。过去只有电影工业才能玩得起的镜头语言、布景逻辑、透视操控，如今被压缩成一句可复制的提示词，让每个人都能随时在地球任何角落「登场」。

每个人都值得尝试一次格列佛式的冒险，哪怕只是在像素世界里当一回巨人（然后狠狠发个朋友圈）。

附上参考地址：

https://x.com/MrDavids1/status/1997581641892446293

文章来自于微信公众号 “APPSO”，作者 “APPSO”