ECHOES

基于流式视觉大模型与边缘计算的空间历史重构系统

当科技隐形,历史方能显形

我们在凝视历史时,究竟在凝视什么?

ECHOES 的诞生,始于我作为一名普通游客在博物馆和历史街区中无数次经历的“挫败瞬间”。我是一个对历史细节充满好奇的人。在参观时,我经常会对某个特定的展品、角落或建筑纹理产生强烈的兴趣。然而,当我想深入了解时,现实往往给我泼了一盆冷水:我不得不掏出手机,在搜索引擎的浩瀚信息中费力地筛选,低头阅读长篇大论的文字。当我终于找到答案抬起头时,那种与历史对话的沉浸感早已烟消云散——我花费了太多的精力在“获取信息”上,而非“感受当下”。

我也曾尝试过其他方案,但体验总有缺憾:私人讲解的高昂费用让“单人游”的我望而却步;传统的录音讲解器虽然便宜,却像一个只会背书的机器人,永远无法回答我突发奇想的“特定疑问”;而博物馆的公益讲解虽然优质,却因为每天仅有两三场的固定排期,经常与我的行程冲突。

“不够便捷、不够即时、不够懂我。” 正是这些真实存在的痛点,让我开始反思:是否有一种方式,能让我在不脱离现实、不打断沉浸感的前提下,获得一个随时待命、无所不知且能与我对话的“私人向导”?

基于对这些切身经历的交互反思,在上海纽约大学文化遗产数字化实验室与 Rokid 团队的技术支持下,ECHOES 应运而生。我们的愿景激进却纯粹:我们要让科技隐形,让历史显形。

本项目依托 Rokid 第三代智能眼镜的光波导显示技术,结合前沿的流式视觉语言模型与检索增强生成架构,构建了一套“即看即问”的自然交互系统。我们拒绝将眼镜做成“戴在脸上的手机”,而是将其定义为“不仅能看,更能理解的第二双眼睛”。通过构建动态叙事人格和视听双通道反馈,我们在不通过屏幕遮挡现实世界的前提下,试图重塑人与空间之间那份久违的“场所精神”。

介质的异化与体验断层

如果说我个人的挫败感是项目的导火索,那么随后在南京东路街道进行的田野调查,则是一次从“自我主观感受”迈向“群体客观验证”的体验诊断。为了厘清这种“在场却缺席”的矛盾究竟是个例还是通病,我将视角投向了更广泛的游客群体,试图解构现有导览服务在真实场景下的失效机制。

注意力的零和博弈:当工具成为阻碍

在对现有公共导览服务(如二维码、微信小程序)的可用性测试中,我发现了一个反直觉的数据悖论:虽然数字化门槛被降到了最低——无需下载、扫码即用——但游客的平均使用时长却短得惊人。

通过对数十位游客的全程跟踪观察,问题的症结逐渐浮出水面:智能手机在现代旅游中扮演了过度拥挤的“瑞士军刀”角色。它既是相机,又是地图,还是社交工具,最后才是一个导览器。当游客试图使用手机获取信息时,实际上被迫卷入了一场高频的多任务切换。我曾记录下一位年轻游客的典型行为路径:她每听一段语音讲解,视线就必须离开展品,低头解锁屏幕、确认进度;而当她想要抓拍精彩瞬间时,又不得不切断音频、退出界面、启动相机。

这种在“听觉输入”与“视觉记录”之间反复横跳的过程,制造了巨大的认知摩擦。小程序虽然轻量,但它依然霸占了屏幕这一稀缺资源,迫使游客在“凝视现实”和“操作界面”之间进行排他性选择。这种“低头看屏幕,抬头一片茫然”的交互模式,本质上依然是一堵将人与空间隔绝的数字高墙。只要导览还需要占用双手和屏幕,它就永远无法解决沉浸感断裂的根本矛盾。

供需错位:被物理机能阻断的深度渴望

除了交互层面的摩擦力,在对不同人群的深层观察中,我还发现了一个被行业长期忽视的代际服务断层。

在南京东路的街头,我注意到真正愿意驻足良久、细细品味历史建筑纹理的,往往是 50 岁以上 的年长群体。他们拥有最充裕的时间和深厚的文化积淀,对知识准确性的要求远高于普通游客。然而,现有的数字产品对他们而言是充满敌意的。

我无数次目睹这样的场景:一位头发花白的老先生在户外强光下,艰难地试图看清手机屏幕上密密麻麻的文字介绍。他不得不反复摘下老花镜去远眺建筑,再戴上眼镜去阅读屏幕。这种生理层面的视觉负担,直接劝退了他们深入了解的欲望。

这就造成了一个尴尬的结构性错配:最渴望深度内容的年长用户,被生理机能和复杂的屏幕交互挡在了门外;而最擅长使用数字设备的年轻“数字原住民”,却往往因为现有导览内容的枯燥说教而早早流失。

迈向“去介质化”的设计原点

基于上述的竞品缺陷梳理与用户痛点共情,我意识到问题的核心不在于“信息匮乏”,而在于“交互介质的阻隔”。屏幕作为中介,切断了具身认知与物理空间的连接;线性叙事作为逻辑,扼杀了探索的好奇心。这一结论直接指引了后续的设计方向:我们需要一种全新的交互范式,它不应占用双手,不应争夺视觉,而应作为一种环境智能,自然地融入用户的游览动线之中。我们需要从“图形用户界面”走向“自然用户界面”,从“手持设备”走向“穿戴式增强”。这不仅是为了技术的升级,更是为了把“看”的权利,重新还给眼睛。

"我们要让科技隐形,让历史显形。"

从碎片数据到典型画像

为了确保设计决策不偏离真实的人性需求,我并没有急于在实验室里构想“理想用户”,而是将田野调查中收集到的数十份访谈记录与观察笔记进行了亲和图(Affinity Diagram)梳理。透过那些看似杂乱的吐槽与抱怨,我发现不同背景的游客在行为模式与核心痛点上呈现出高度的聚类特征。基于此,我们将这些碎片化的需求聚合成了三个极具代表性的用户画像。他们代表的不是某个人,而是三类典型的心理模型与行为困境。

Zoe

画像一:拒绝说教的“体验派” - 佐伊 (Zoe)

22岁 | 视觉传达专业学生 | 数字原住民

这一画像集合了我们在调研中遇到的“数字原住民”群体特征。作为社交媒体的重度用户,他们对博物馆官方那种“百科全书式”的解说持强烈的保留态度。在归纳他们的行为时,我发现了一个有趣的矛盾:他们讨厌被动地听课,却极度渴望发现。

痛点:去滤镜化的真实
对于佐伊这类用户而言,现有的导览器太严肃、太无趣。他们并不想知道这栋建筑建于哪一年,而是想知道这里发生过什么鲜为人知的轶事。他们需要的是“社交货币”,是那些能让他们在朋友圈显得独具慧眼的微小发现。因此,ECHOES 对他们来说,不能是一个古板的说教者,而必须是一个风趣博学的朋友,能在一瞥之间告诉他们:“嘿,你看那个窗框,其实设计师在那里藏了一个彩蛋。”

Lily

画像二:由于物理受限而焦虑的家长 - 莉莉 (Lily)

35岁 | 二胎妈妈 | 物理受限者

这一画像不仅代表了家长,更涵盖了所有在游览中双手被占用的群体。在观察数据中,我发现这类用户面临的挑战是极其具体的物理限制。她需要一手推着婴儿车,一手拉着大孩子,根本没有“第三只手”去操作手机。手机对她来说甚至是一个危险的干扰源——低头看屏幕的瞬间,可能就意味着孩子跑出了视线范围。

痛点:解放双手的安全感
她的核心诉求是物理层面的“减负”。她希望眼镜能成为她的育儿助手,引导孩子“去寻找藏在画里的那只小狗”,让孩子主动观察,而不是让她照着说明牌念书。对她来说,安全性至关重要,她需要开放式的音频体验,确保在听讲解的同时,也能时刻听到孩子的呼唤。

Arthur

画像三:拒绝“降智”的硬核考据党 - 陈工 (Arthur)

62岁 | 退休土木工程师 | 银发专家

这一画像代表了文化遗产旅游中最核心、却最常被科技产品忽视的“银发专家”群体。他们对历史建筑有着极高的专业要求,经常因为导览内容的浅显或错误而感到失望。我们在访谈中反复听到类似的抱怨:“这个解说太浅了,完全是在哄小孩。”或者“字太小了,为了看清楚我得把眼镜摘下来。”

痛点:生理与认知的双重门槛
他们的痛点在于生理机能退化与高认知需求之间的矛盾。在户外强光下,视力下降让他们难以看清手机屏幕;而作为专业人士,他们极其痛恨人工智能可能产生的“虚假信息”。对于陈工这类用户,ECHOES 必须解决两个问题:一是利用增强现实技术进行视觉辅助(如大字号、高对比度),二是确保内容的学术级准确性。他需要的不是故事,而是严谨的知识。

设计机会点收敛:
通过对这三类典型画像的解构,ECHOES 的设计挑战变得清晰可见:我们需要设计一套自适应系统,既能满足佐伊的探索欲,又能解决莉莉的物理束缚,同时还能补偿陈工的视觉机能。

技术架构的演进与突破

ECHOES 的研发过程并非简单的软硬件堆砌,而是一场在边缘计算算力、设备功耗与算法精度之间寻找平衡的艰难战役。作为设计师,我必须时刻警惕“技术决定论”的诱惑,确保每一行代码、每一克重量的增加,都直接服务于上一阶段梳理出的真实用户痛点。我们经历了从“理想化概念”到“工程化落地”的深刻转型。

1. 硬件载体的抉择:为何是 Rokid Glass 3?

在硬件选型阶段,我们面临着极其艰难的权衡(Trade-off)。为了同时满足普通游客对“全天候无感佩戴”的苛刻要求,以及视力衰退群体在户外强光环境下的阅读刚需,我们在对比了 HoloLens 2(过重)、Meta Ray-Ban(中国大陆监管问题无法使用)等竞品后,最终锁定了 Rokid Glass 3 作为开发平台。

  • 佩戴阈值的突破(49克): 现有的增强现实设备大多在 80 克以上,长期佩戴会对鼻梁造成压迫。Rokid Glass 3 通过镁锂合金骨架将重量控制在 49 克,仅相当于一副墨镜。这一物理特性的突破,直接回应了长时间游览者对舒适度的底线要求,确保设备在物理感知上趋于“隐形”。
  • 对抗环境光干扰(1500尼特): 户外导览最大的敌人是阳光。普通的 OLED 屏幕在正午强光下几乎不可见。Rokid 的微型发光二极管(Micro LED)配合衍射光波导方案,提供了高达 1500 尼特 的入眼亮度。这意味着即便在南京东路正午的强光直射下,视力机能下降的年长用户也无需反复摘戴墨镜或老花镜,依然能清晰辨识叠加在现实之上的增强信息。
  • 视场角的自然融合(40°+): 其光波导镜片的设计避免了“管中窥豹”的视觉封闭感,保留了用户原本的余光视野。这种开放式的光学方案,确保了人工智能的“视界”与用户的“自然视界”无缝融合,不会因视野遮挡而引发晕动症。
Rokid Glass 3

2. 认知引擎的重构:流式视觉捕捉

这是本项目遭遇的最大技术壁垒。在早期的原型测试中,我们遭遇了所谓的“金鱼记忆”问题:传统的视频大模型在处理长视频流时,会因为“键值缓存”(KV Cache)溢出而崩溃。这意味着,如果用户戴着眼镜从南京东路的一头走到另一头,几分钟后人工智能就会“忘记”他在起点处看到的建筑风格。这对于强调连续叙事体验的漫步导览是致命的。

为了解决这一问题,我们引入了前沿的“流式视觉语言模型”技术。我们并未简单地截取视频帧,而是采用了一种创新的 “注意力锚点” 机制:

  • 机制原理: 系统会在显存中始终保留对话开始时的关键信息(锚点),同时动态刷新最近的视觉信息,自动丢弃中间冗余的帧。
  • 体验价值: 这就像在一部厚重的长篇小说中插上了无数智能书签,确保了人工智能能够拥有连贯的“空间记忆”
  • 性能实测: 实验数据显示,在连续运行 2 小时后,系统的显存占用率保持平稳,彻底解决了传统模型运行 15 分钟就断片的体验顽疾。
流式视觉捕捉

3. 知识护城河:基于街道档案的检索增强生成

为了解决生成式人工智能容易产生“虚假信息”(即幻觉)的问题——这在严肃的历史领域是绝对的红线——我们构建了“文化遗产检索增强生成(Cultural RAG)”架构。这是一个专门为回应高知群体及考据型用户而设计的防幻觉机制。且为了保证内容的独家性与在地性,我们并未接入通用的互联网百科数据,而是与南京东路街道达成了深度数据合作。

当用户提问“这栋楼以前是做什么的?”时,系统执行的是一套严格的闭环程序:

  • 视觉向量化: 首先将眼镜捕捉到的建筑特征(如立面装饰、门牌号)转化为数学向量;
  • 本地私有云检索: 系统直接潜入南京东路街道提供的数字化历史档案库。这里存储着互联网上无法搜索到的珍贵资料,包括百年前的街道修缮记录、老字号的工商登记档案、甚至是原住民的口述历史录音;
  • 叙事合成: 最后,大模型将这些经过验证的、带有“烟火气”的权威档案作为上下文,进行口语化的叙事合成。

这一架构确保了每一句解说不仅具有学术级的准确性,更拥有无可替代的“在地感”。我们提供的不是百度百科式的标准答案,而是这片土地深处真实的记忆回响。

基于街道档案的检索增强生成

即看即问:低干扰的增强现实体验

在解决了底层的技术地基后,摆在设计团队面前的是一个更为棘手的交互难题:如何在一个仅仅 0.25 英寸的微型显示区域内,传递海量信息,同时又不遮挡用户对现实世界的凝视?我们并未激进地追求“完全无界面”的科幻感,而是确立了 “极简图形界面” 的设计原则。我们认为,界面不应是现实的遮挡层,而应是现实的注脚。因此,ECHOES 定义了 “即看即问” 的全新交互范式。

隐式关注与多模态意图

在传统的导览设备中,用户必须通过复杂的菜单点击来告诉机器“我想了解这个”。而在 ECHOES 的设计中,我们试图让这一过程回归人类的本能。我们利用眼镜内置的惯性测量单元(IMU),开发了一套“注视检测算法”

  • 触发逻辑: 当系统检测到用户的头部姿态在某一特定方向(如南京东路上的永安百货大楼)停留超过 0.5 秒 且保持相对静止时,系统会自动进入“预备唤醒状态”。
  • 多模态融合: 此时,用户只需轻触镜腿或直接开口提问:“这个塔是用什么材料做的?”
  • 意图对齐: 系统利用 “视觉定位” 技术,瞬间将语音指令中的代词“这个”,与视野中心捕捉到的建筑实体进行对齐。

这种“眼动指引 + 语音确认”的多模态交互,消除了传统界面中的层级跳转,让获取信息变得像自言自语一样自然。

视听双通道:环境式字幕流

在南京东路步行街的实地测试中,我们发现了一个无法忽视的客观干扰:环境噪音。熙熙攘攘的人声和车流声,往往会让骨传导耳机的音频效果大打折扣。同时,对于像陈工(Arthur)这样可能存在听力衰退的年长用户,纯音频反馈极其容易造成信息遗漏。

为此,我们设计了 “弹幕式”的视觉反馈机制,作为音频的必要补充。人工智能生成的语音讲解,会被实时转录为文字,以半透明滚动字幕的形式出现在眼镜视场的最底端边缘。这一看似简单的设计,背后其实蕴含着深层的认知心理学考量:

  • 周边视觉的应用: 我们特意将字幕区设定在视线下方 15° 的非聚焦区域(周边视觉区)。这确保了用户视野中心的古建筑始终是清晰、完整的,文字流仅作为一种“环境信息”存在,只有当用户有意识地下瞥时,它才会进入注意力的中心。
  • 双重编码的强化: 心理学的双重编码理论指出,同时接受听觉和视觉信息能显著提升记忆留存率。对于总是担心“听漏了”的二胎妈妈莉莉,底部的文字流提供了一种无需回放的“安全感”
  • 无障碍的延伸: 这一设计意外地解决了听障人士无法使用语音导览的痛点,体现了包容性设计的价值。

动态人格生成引擎

交互不仅是“怎么说”,更是“谁在说”。为了解决内容的“僵化”问题,我们基于大模型构建了 “动态人格生成引擎”。基于前文所述的南京东路街道独家档案,系统会根据用户选择的模式,实时调整叙事的口吻与视角:

  • 对于佐伊(体验派): 人工智能会扮演一位“老住户”。它不会枯燥地罗列年份,而是用第一人称讲述:“我记得 1930 年这里发生过一场大火,当时我就住在对面...” 这种叙事极大地满足了年轻人对“故事感”的渴求。
  • 对于陈工(考据派): 人工智能则瞬间切换为一位“建筑史学家”。它会严谨地分析:“这是典型的装饰艺术风格(Art Deco),请注意看窗棂的几何线条与立面的垂直分割...”

这种动态的人格切换,配合底部的实时字幕,将原本冰冷的数据库,转化为了一个个有温度、有性格的“数字原住民”,真正实现了与用户的深度共情。

"不再是戴在脸上的手机,而是不仅能看、更能理解的第二双眼睛。"

战略转型与商业路径的闭环

在项目的最小可行性产品定义阶段,我们经历了一次至关重要的战略转型。这一转型不仅解决了硬件性能的物理瓶颈,更为 ECHOES 赋予了可持续的商业生命力。

从“实时视觉流”到“按需视觉”

从“实时视觉流”到“按需视觉”的功耗权衡:在最初的交互设想中,我们追求的是一种全天候、无感知的实时视觉分析系统。然而,在南京东路街道进行的实地测试中,技术现实给了我们沉重的打击:

  • 续航瓶颈: 在连续开启摄像头并进行云端大模型分析的状态下,现有眼镜硬件的电池仅能支撑约 40 分钟,且设备发热极高,难以满足游客长达数小时的漫步需求。
  • 成本冗余: 每一秒视频流的实时处理都意味着高昂的计算成本,这对于大规模推广是极大的负担。

面对这一挑战,我主导了系统的核心逻辑转型,提出了 “音频优先,视觉按需” 的分层触发机制:系统默认处于静默状态,仅依靠低功耗的地理位置信号触发环境音景;只有当用户主动通过语音提问或轻触镜腿时,摄像头才会被激活并抓取单帧高质量图像进行视觉模型分析。这一策略将设备续航从不到 1 小时大幅延长至 4 小时以上,同时将计算成本降低了 70%,在保留了智能交互核心体验的同时,确保了项目落地的可行性。

VLM 演示

“软件订阅 + 硬件租赁”的双轨制服务模型

针对前文调研中发现的“硬件持有者与内容需求方”之间的代际断层,我们联合南京东路街道和 Rokid 团队,确立了 “软件即服务 + 硬件即服务” 的混合双轨制策略,旨在实现真正的“技术普惠”。

针对科技拥趸的“自带设备”模式: 对于年轻的 Z 世代用户,他们往往已经是增强现实设备的早期采用者。我们提供的是一种纯软件订阅服务。用户无需额外购买或租赁硬件,只需在应用商店下载 ECHOES 插件,即可直接在私有设备上启动导览,通过订阅制或单次解锁南京东路街道的独家历史档案。这为项目提供了极具潜力的未来增长空间。

针对银发群体的“硬件租赁”模式: 对于那些最渴望深度历史知识、但并不拥有昂贵设备的年长游客,我们利用南京东路街道现有的公共服务中心与社区站点作为物理触点,推出硬件即服务模式。游客只需在服务台凭证件进行低门槛租赁,即可领到一套预装好软件、并配置好离线数据库的智能眼镜。这种模式彻底消除了老年用户在安装、配网和交互学习上的障碍,真正做到了“戴上即看”。

商业模式的闭环:不仅是产品,更是公共服务
通过这一双轨制设计,ECHOES 成功地将一个高门槛的科技产品,转化为了一套多方共赢的城市更新公共服务方案:

  • 对街道而言: 激活了南京东路深厚的历史文化底蕴,提升了公共服务的数字化水平。
  • 对 Rokid 而言: 获得了一个极具代表性的城市级应用场景,完成了从“极客玩具”到“文化工具”的品牌升级。
  • 对用户而言: 无论年龄与设备持有状况,每一位走进这片土地的游客,都能获得平等的、无障碍的数字化历史体验。

HaaS 场景

社会影响力、伦理防线与未来愿景

ECHOES 不仅仅是一款技术驱动的硬件产品,它是一次关于人类认知能力的实验,也是一次在数字人文领域进行的深度实践。在项目接近尾声时,我们跳出了功能与逻辑的框架,开始思考技术在更广阔的社会维度下所扮演的角色。

Impact

弥合数字鸿沟:包容性设计的意外收获

通过与南京东路街道合作的“硬件租赁”模式,ECHOES 意外地成为了一款极佳的无障碍工具。在测试过程中,我们发现这种“张口即问、即看即得”的交互方式,彻底消除了老年群体在使用智能手机时的心理畏难情绪。对于他们而言,不再需要学习复杂的界面层级,也不再需要忍受小屏幕对视力的摧残。

更令人欣慰的是,这种设计展现出了服务于视障群体的潜力。对于视力受损的游客,ECHOES 可以通过骨传导耳机告诉他们:“你的正前方两米处是著名的历史建筑立面。”这种从“增强视觉”到“视觉延伸”的转变,真正实现了技术普惠的愿景——让每个人,无论生理机能如何,都能平等地拥有感受城市脉络的权利。

Ethics

真实性底线:应对人工智能的“幻觉”伦理

在历史与文化遗产领域,真实性是不可逾越的底线。作为设计师,我们深知生成式人工智能存在的“幻觉”问题可能带来的负面影响。为此,我们在系统逻辑中植入了严格的伦理防线:

  • 显式表达不确定性: 当检索到的南京东路街道档案中存在文献冲突,或者人工智能对某个细节无法百分之百确定时,系统被设计为必须诚实地表达不确定性,例如:“关于这扇窗户的材质,目前的历史档案中有两种记载……”
  • 拒绝编造: 我们宁愿让系统回答“目前数据库中暂无此项记载”,也绝不允许其为了叙事的流畅性而编造虚假的历史细节。这种设计决策不仅是技术上的约束,更是我们对历史、对这片土地记忆的最高敬畏。
Future

未来回响:从被动问答走向主动代理

ECHOES 的终点绝不仅限于此。展望未来,我们的演进方向将是从“被动响应”走向“主动代理”

在下一阶段的研发规划中,我们计划引入多模态长期记忆功能。眼镜将不再只是单次问答的工具,而是能够根据用户的游览轨迹与视觉历史,主动建议游览路线。例如,当系统感知到你连续关注了三栋装饰艺术风格的建筑时,它会在你路过下一个街角前轻声提醒:“你似乎对这种风格感兴趣,右转的弄堂里隐藏着一件你不能错过的作品。”

此外,我们还将探索基于超宽带技术的高精度室内定位,以实现在复杂历史建筑内部的物体级识别,将“场所精神”的重塑从街道延伸至建筑的每一寸内部空间。

正如项目代号 "ECHOES"(回响)所寓意的,

我们希望通过科技,
捕捉并放大那些消散在历史长河中微弱的声息。

在这一场关于南京东路街道的叙事实验中,我深刻体会到:最好的科技,是让你感受不到科技的存在,却能让你更清晰地看清这个世界。 当我们终于可以放下手机,抬起头,通过一副轻便的眼镜与百年前的建筑对话时,技术便完成了它最伟大的使命——回归人类感官的延伸,而非束缚。

鸣谢与致意 Acknowledgements

ECHOES 项目从最初的个人洞察到最终的原型落地,离不开产学研各界的鼎力协作。
我们首先向 上海纽约大学 及 文化遗产数字化实验室 致以最深切的谢意。实验室提供的数字人文研究框架与严谨的学术指导,为本项目奠定了坚实的理论基石。特别感谢 Rokid 团队 在硬件开发与技术调试阶段提供的全方位支持,其开放的生态让“隐形科技”的构想拥有了极致轻量化的载体。
同时,我们诚挚感谢 上海市黄浦区人民政府 以及 南京东路街道 为本项目提供的场景开放与独家历史档案支持。正是得益于这种对城市数字化转型的远见与包容,我们的设计才得以走出实验室,在最真实的城市肌理中寻回那份久违的记忆回响。

NYU Shanghai Digital Heritage Lab Rokid Huangpu District Government