パナソニック 分電盤 リミッタースペース付 露出・半埋込両用形 南洋理工等开源EgoLife,开发信得过读懂生计的智能管家

发布日期:2025-03-25 04:27    点击次数:190

パナソニック 分電盤 リミッタースペース付 露出・半埋込両用形 南洋理工等开源EgoLife,开发信得过读懂生计的智能管家

最近一年来,智能眼镜越来越成为科技圈的新骄子。从本年的 CES 到 AWE,这些先锋小物依然成了展会上的焦点パナソニック 分電盤 リミッタースペース付 露出・半埋込両用形,引得无数参不雅者存形体验。与几年前那些辛苦、功能单一的早期家具比拟,如今的智能眼镜依然变得既先锋又实用,初始信得过融入东谈主们的泛泛生计。

然而,咱们心中阿谁理思中的 AI 助手——能陪你渡过一整天,在你饿了的时候保举妥当你口味的餐厅,在你职责时教唆你不要错过遑急会议,以致能臆测你可能健忘购买的日用品——这么的场景还停留在科幻电影中。要终了这一愿景,咱们需要结巴当今 AI 在清爽东谈主类遥远手脚模式和复杂外交互动方面的局限。

最近,南洋理工大学刘子纬助理训诫指令的麇集团队,就开发了一个名为“EgoLife”的研究形式,试图填补这一空缺。该形式旨在开发一种基于可一稔开辟的智能助手,通过第一东谈主称视角清爽并赞成用户的泛泛生计。

一个未必出身的研究形式

这个项研究出身颇有些未必。一切源于 Meta 公司送出的六副 Aria 智能眼镜。拿到这些开辟后,研究团队源泉仅仅尝试了一些零星的个东谈主录制场景,如音乐会和足球比赛,但成果并不睬思。

随后,他们思到了一个踊跃的思法:何不让六个东谈主沿路生计一周,全程捎带这些眼镜纪录他们的生计?这么就能得回丰富、着实的第一东谈主称视角数据。

随后通过小红书,团队在两天内收到了 32 份肯求,但有兴致的是,其中 29 位是女性,仅有的 3 位男性肯求者又适值在拍摄时期无法参与。最终,形式厚爱东谈主不得不躬行上阵,而另一位男性参与者则是在开拍前一天临时找到的。不然,这个形式可能就变成了“EgoLife:我被好意思女包围了”。

何况这些参与者们在 MBTI 东谈主格测试中大多展现出直观型 (N) 和感知型 (P) 的特质,这标明他们天生就妥当敞开式、探索性的体验,这少许关于项研究告成开展起到了积极作用。

招募完成后,研究团队初始入辖下手构建一个挑升的环境——“EgoHouse”,让通盘参与者在此共同生计。这个生计空间经过用心运筹帷幄,不仅闲散泛泛生计所需,还在各个边缘装配了录像头和毫米波雷达,为多角度数据采集作念好准备。

为了给数据采集提供天然而有研究性的框架,团队运筹帷幄了一个任务:让六位参与者在一周内共同筹备一场“地球日”庆祝手脚。

推行数据采集初始于参与者入住“EgoHouse”的那一刻。每位参与者捎带 Meta Aria 智能眼镜,这种开辟集成了高清录像头、空间音频麦克风和 IMU(惯性测量单位)传感器,大略全地方捕捉捎带者的视觉、听觉和通达信息。团队条件每东谈主每天至少纪录 6 小时的清醒手脚,以确保数据的畅通性和代表性。

除了参与者捎带的智能眼镜外,“EgoHouse”内还叮嘱了 15 个外部 GoPro 录像头,漫衍在各人区域,从第三东谈主称角度纪录通盘互动。这些录像头与智能眼镜同步职责,提供多角度视角,有助于后期对自我中心视频内容的考证和推行。此外,两个毫米波雷达开辟装配在二楼,用于提供空间和通达数据,进一步丰富了多模态数据采集的维度。

通盘数据采集过程合手续了七天,时期参与者们进行了各式的手脚:从研究地球日主题、排演音乐和跳舞饰演,到共同烹调、出门购物和叮嘱时事。这些手脚天然而然地产生了无数有价值的外交互动和合营场景,为数据集提供了着实、丰富的内容。最终,团队蚁集了约 300 小时的自我中心视频,以及无数同步的第三东谈主称视角数据,组成了 EgoLife 数据集的原始素材。

数据集和基准测试构建

原始数据蚁集完成后,研究团队开发了一套完满的数据处理进程,包括 EgoSync(数据同步)、EgoBlur(秘籍保护)、EgoCaption(密集描写)和 EgoTranscript(转录)等多个模块,从而将这些海量、多源的数据振荡为结构化、可用数据集。

具体来说,研究团队最初将通盘自我中心视频同步,将六位参与者的音轨合并,并应用语音识别本事生成初步的时期戳转录文本。使用开源的分辨算法分歧不同言语者后,将音轨分红六个寂寥的轨谈,进行进一步细化,确保每段转录准确响应每位参与者能听到的对话内容。

除此除外,研究团队还对数据进行了详备的标注。他们将视频分红 5 分钟的片断,以 0.8 倍速播放,让能干员通过畅通、详备的口述为每个片断提供高密度信息。这些口述内容被诊疗成文本后,酿成了 361,000 条直快的“旁白”片断,平均每条合手续 2.65 秒。随后,团队使用 GPT-4o-mini 将连系片断合并成 25,000 条“合并字幕”,酿成与特定视频段落对都的连贯句子。临了,这些字幕与每秒抽样的代表性画面和对应的转录文本配对,经 GPT-4o 回首,创建了丰富的“视听字幕”,最终由东谈主类能干员考证准确性。

这些用心创建的能干不仅径直用于熟谙 EgoGPT 模子,还成为自动生成 EgoLifeQA 问答数据的基础,为研究团队构建长情境、面向生计的问答基准测试提供了坚实复古。

基于这些丰富的能干,研究团队开发了 EgoLifeQA 基准测试,这是一套挑升运筹帷幄用来评估 AI 在长情境、生计导向的问答任务中的弘扬才智。EgoLifeQA 与现存的基准测试如 EgoSchema、EgoPlan-Bench 等有本色区别:它条件 AI 系统大略处理远超 2 小时的超长视频内容,在某些问题上以致需要纪念数天前的信息。

EgoLifeQA 包含五种类型的问题,每一种都针对生计助手的不同中枢才智:

EntityLog(实体日记)专注于测试 AI 对物品细节的遥远挂念才智。举例,“咱们付的酸奶价钱最接近哪个选项?A. 2 元 B. 3 元 C. 4 元 D. 5 元”。要答谢这个问题,AI 需要回忆起购物场景中的具体价钱信息,这可能发生在几天前的某个片断中。

EventRecall(事件回忆)考验 AI 回忆以前事件的才智。如“在规划跳舞后第一首被提到的歌是什么?”这类问题需要 AI 在海量视频中定位特定会话内容,清爽对话高下文并索取重要信息。

HabitInsight(习尚瞻念察)条件 AI 大略识别和分析个东谈主手脚模式。比如“我喝咖啡时频繁同期作念什么手脚?”答谢这类问题需要 AI 系统对用户的泛泛习尚有全面了解,大略从多天的数据中归纳出法规。

RelationMap(关系映射)测试 AI 清爽东谈主际互动模式的才智。像“Shure 正在弹吉他,还有谁频繁和咱们沿路弹吉他?”这么的问题需要 AI 大略识别不同东谈主物,并记着他们之间的外交互动历史。

欧美性爱区

TaskMaster(任务管束)评估 AI 基于以前手脚提供建议的才智。举例“我的购物车里依然有许多东西了,咱们之前研究过但我还没买的是什么?”这条件 AI 不仅能记着购物清单,还能跟踪已完成的购买和未完成的意图。

这些看似泛泛的问题对 AI 提议了极高条件,因为答谢它们需要从小时以致数天前的纪录中检索连系信息,这远超出现时大多数 AI 系统的才智范围。

交融视听清爽与遥远挂念的 AI 助手

与 EgoLifeQA 的一系列挑战相对应的是,研究团队开发了 EgoButler 系统以惩办这些问题,它由两个中枢组件组成:EgoGPT 厚爱片断级的全模态清爽,EgoRAG 厚爱长情境问答。这两个系统协同职责,共同终了对超长视频内容的清爽和问答才智。

EgoGPT 是 EgoButler 系统的基础组件,它在系统中承担两项重要任务:一是合手续视频描写,处理每个 30 秒的视频片断,诳骗视觉和音频输入生成详备描写;二是协助问答,诳骗从 EgoRAG 检索到的陈迹提供精确答谢。

为了使模子更好地妥当自我中心视频规模并整合音频清爽才智,研究团队挑升开发了 EgoIT-99K 数据集。这是一个各种化、具有代表性的自我中心视频都集,涵盖 9 个经典自我中心视频数据集,包括 Ego4D、Charades-Ego、HoloAssist 等。团队用心挑选了 1,529 个视频(其中 686 个带音频),总时长达 43.16 小时,并基于原始能干生成了 99,480 个问答对,涵盖视频描写、音视频描写、多项选择题和多轮对话等多种类型。

EgoGPT 的构建基于 LLaVA-OneVision 模子(该模子本人基于 Qwen2 架构)。为了增强音频处理才智,团队参考 Ola 模子的运筹帷幄,开发了一个音频分支,使用 Whisper Large v3 编码音频,并在 LibriSpeech 数据集上熟谙音频投影模块。从音频投影模块到 LLaVA-OneVision 的整合过程中,团队使用 EgoIT-99K 进行最终阶段微调。为终了个性化,他们还在 EgoLife 第一天的视频上对 EgoGPT 进行了特定熟谙,使模子大略进行身份识别,这关于 EgoLifeQA 中的东谈主际关系清爽至关遑急。

另一方面,针对万古期跨度、长情境场景的挑战,研究团队开发了 EgoRAG 检索增强生成系统,它增强了挂念和查询才智,终澄澈个性化和遥远清爽。这个系统的职责旨趣不错类比为东谈主类的挂念组织形势。比如说,如果有东谈主问咱们“三天前的早餐你吃了什么”,咱们频繁不会从三天前的每一分钟初始回忆,而是先回思到约莫的那一天(星期几),然后定位到早上的时期段,临了才情起具体的早餐内容。EgoRAG 恰是模拟了这种分层挂念检索的过程。

EgoRAG 给与两阶段体式:挂念库构建和内容检索响应生成。

在挂念库构建阶段,EgoRAG 不停蚁集 EgoGPT 对每个 30 秒视频片断生成的详备描写,这些描写包含了视频中发生的事件、对话和环境细节。然后,它会按期对这些片断描写进行“回首”,酿成不同层级的挂念:

·细粒度挂念:原始的 30 秒片断描写,保留了最详备的信息

·小时级摘录:对每小时内容的详细,汇总了主要事件和手脚

·天级摘录:对每天内容的回首,捕捉了一天中的重要点和模式

这种层级结构使得系统大略高效地管束和检索海量信息,就像给挂念竖立了一个多层索引系统。

当用户提议问题时,EgoRAG 的智能检索答谢阶段初始职责:

最初,它会分析问题,索取重要词和时期陈迹。举例,如果问题是“昨天咱们在超市买了什么牌子的酸奶?”,系统会识别出“昨天”、“超市”和“酸奶”是重要信息。

接着,它会先在天级摘录中寻找与“昨天”和“超市”连系的内容,快速减弱搜索范围到特定的时期段。

然后,它真切到阿谁时期段的小时级摘录和细粒度挂念,细巧目位与“酸奶”连系的片断。

临了,它将找到的连系片断送入 EgoGPT,由 EgoGPT 整合这些信息,生成一个准确、高下文连系的答谢。

这种层级检索政策极地面提高了效劳。淌若系统需要在一周的视频内容(约 300 小时)中逐帧搜索“酸奶”,这显著极其低效。而通过先细目约莫时期段,再细化搜索,EgoRAG 大略在几秒钟内完成这个过程。

EgoButler 系统的举座架构将 EgoGPT 和 EgoRAG 有机勾通,酿成了一个功能完满的 AI 助手系统。EgoGPT 合手续蚁集个性化的自我中心数据,而 EgoRAG 检索并提供连系陈迹,共同终了准确、高下文感知的响应。这种协同职责模式使系统大略处理复杂的长情境问答任务,清爽用户的遥远手脚模式和外交互动。

性能弘扬如何?

研究团队对 EgoButler 系统进行了全面的性能评估。在现存的自我中心基准测试(如 EgoSchema、EgoPlan 和 EgoThink)上,EgoGPT 展现出了与 GPT-4v、Gemini-1.5-Pro 和 GPT-4o 等买卖模子十分以致超过的性能。尤其是经过 EgoLife 第一天数据微调的 EgoGPT(EgoIT+EgoLifeD1) 在 EgoSchema 上达到了 75.4% 的准确率,越过了 GPT-4o 的 72.2% 和 LLaVA-OV 的 60.1%。

在 EgoLifeQA 基准测试上,EgoButler 系统相同弘扬出色。与单独使用通用视频语言模子比拟,集成了 EgoRAG 的系统在长情境问答方面取得了显贵升迁。实验截止标明,关于需要 2 小时以上认证长度的问题,EgoGPT+EgoRAG 的准确率达到 35.7%,而单独使用 Gemini-1.5-Pro 仅为 14.8%,EgoGPT 为 29.1%。这一差距在越过 24 小时认证长度的问题上更为显贵,EgoGPT+EgoRAG 达到 35.4%,远高于 Gemini-1.5-Pro 的 18.4% 和 EgoGPT 的 25.0%。

不外,天然 EgoButler 系统在多个任务上弘扬出色,但研究团队也坦诚地指出了系统面对的挑战。定性分析标明,EgoGPT 在个性化和生成高下文连系描写方面弘扬优异,但也存在彰着的局限性。

最初是 EgoGPT 的语音清爽仍然不完满,它在清爽东谈主类笑声和激情方面存在困难,这可能是由于其依赖于 ASR 熟谙数据。身份识别是另一个挑战。由于模子仅在 EgoLife 第一天的数据上进行微调,它倾向于过度拟合早期不雅察。举例,如果某东谈主在第一天穿蓝色衬衫,EgoGPT 可能会伪善地将自后穿蓝色衣服的不同东谈主识别为并吞个东谈主,这知道了当今个性化政策的局限性。

EgoRAG 天然大略检索长情境把柄,但其检索机制辛勤多步推理才智。它实践单次搜索,莫得迭代优化或迟缓推理,当径直检索中费事连系信息时容易失败。这种辛勤容错性的特质意味着,如果 EgoRAG 无法找到复古把柄,它就无法提供谜底,而不是围绕缺失信息进行推理。

而这些不及,也将是研究团队改日研究的重要标的。他们规划进一步延迟数据集,涵盖更庸俗的语言、地点和手脚,并开发更复杂的模子,鼓动 AI 清爽和增强泛泛生计的才智规模。

当今,形式依然在 Hugging Face 上开源。(形式地址:https://huggingface.co/papers/2503.03803)

参考长途:

1.https://arxiv.org/abs/2503.03803

2.https://egolife-ai.github.io/blog/