将任意人物照片变成动态视频、奥特曼承认超级AI Q*的存在、仅靠提示就能让GPT成为专家、表情包实时生成实物图工具…

发表评论

A+

所属分类：heygen ai百科

11月30日XiaoHu.AI 日报更新

Animate Anyone——静态图像动画化技术
表情包实时生成实物图——创意与技术的结合
AI 视频初创公司 HeyGen 的最新动态
MonoNav：普林斯顿大学开发的微型空中飞行器导航系统
大语言模型综合性能比较研究报告：ChatGPT 领先
微软开源实时操作系统 ThreadX
OpenAI 领导层和董事会的最新变动
周鸿祎观察：硅谷投资界和创业生态全面拥抱 AI
提示的魔力：GPT-4 成为多领域专家的新可能性
奥特曼承认 Q* 的存在

阅读时长: 10 minutes

—

Animate Anyone：从静态图像生成动态视频，可将任意图像角色动画化

该项目阿里巴巴智能计算研究院开发，你只需提供一个静态的角色图像和一些预设的动作（或姿势序列）然后会生成该角色的动画视频。

同时保持图像中角色的外观和特征的一致性。

理论上“动画任何人”将任意人物照片变成动态视频...

该方法不仅适用于人类角色，还可以用于动漫/卡通角色、类人角色等，具有广泛的应用范围。

工作原理：

姿势引导：AI 系统分析提供的动作序列，指导图像中角色如何移动。
特征融合：使用算法（如ReferenceNet）确保动画过程中角色的细节特征一致。
视频合成：通过技术（如去噪 UNet ）将动作与静态图像合成为视频序列。
注意力机制：利用空间、交叉和时间注意力机制，确保视频与原始图像高度一致。
创新点：高度通用性和自定义能力，允许用户使用任何图像和动作序列创建独特视频。
应用价值：为需要快速、高效创建动画内容的用户提供了强大工具，无需复杂动画技能或昂贵软件。

更多资料：

项目及演示：https://humanaigc.github.io/animate-anyone/ 论文：https://arxiv.org/pdf/2311.17117.pdf GitHub：https://github.com/HumanAIGC/AnimateAnyone

—

表情包实时生成实物图工具

特色描述：

创新互动：该项目通过将表情包转换成实物图，为用户提供了一个新颖有趣的体验。
多样化风格：用户可以选择不同的风格，如皮克斯、Minecraft、8 bit pixel等，以适应各种创意需求。
在线体验：通过提供的网址，用户可以轻松地尝试这项技术。

体验地址：https://tryemoji.com

—

AI 视频初创公司 HeyGen 的最新动态

员工规模：

HeyGen 目前拥有25名员工。

融资情况：

最近获得560万美元融资。
公司估值达到7500万美元。

收入增长：

3月份实现了100万美元年度循环收入。
10月份收入增至1000万美元。
目前年收入已达1800万美元。

市场策略：

正在与其中国血统保持距离。
专注于西方市场

即将发布的新产品：

利用智能手机视频生成定制 AI 虚拟形象的能力，操作时间仅需五分钟。

创始人背景：

Joshua Xu 和 Wayne Liang，两位联合创始人。
二人均曾在上海同济大学和卡内基梅隆大学攻读硕士学位。
在美国西海岸工作经历：

Xu 曾就职于Snap。
Liang 曾在Karaoke应用公司Smule和TikTok的母公司字节跳动担任产品设计师。

更多信息：

详细报道：https://forbes.com/sites/kenrickcai/2023/11/29/ai-video-startup-heygen-launches-near-instant-avatar-generator-adds-56-million-in-funding/?sh=3a971e0c6782

最经典的莫过于郭德纲讲英语和泰勒讲中文的片子了

—

MonoNav：普林斯顿大学开发的微型空中飞行器导航系统

系统特点：

由普林斯顿大学开发，这个系统在只靠单目相机、光学里程计和离线计算的情况下，能创建出精确的地图。

利用强大的路径规划和导航方法，实现在未知环境中的稳健自主飞行。

MonoNav具有可以复杂室内环境中进行高速飞行的能力。

MonoNav的一个显著特点是它能够明确地考虑到尺度问题。这意味着它在检测到即将发生的碰撞时能够采取措施避免碰撞，从而提高了飞行的安全性。

在实际的硬件实验中，MonoNav已经展示了其在复杂室内环境中进行高速飞行的能力，同时显著降低了碰撞的风险。

工作流程：

启动和深度估计：使用单目相机捕捉图像，估计每个像素的深度。
三维重建：合并多个深度图像，创建出房间的三维模型。
路径规划：规划出一条避开所有障碍物的路径。
飞行和避障：按照规划好的路径飞行，实时更新模型和路径以绕开新障碍物。
应用意义：提供了一种高效的方式使单目相机装备的无人机在复杂室内环境中实现自主导航，之前这类任务主要依赖更复杂的传感器系统。

更多信息：

项目及演示：https://natesimon.github.io/mononav/
论文：https://natesimon.github.io/assets/pdf/MonoNav_ISER2023.pdf
GitHub：https://github.com/natesimon/MonoNav/

—

大语言模型综合性能比较研究报告：ChatGPT 领先

这篇报告详尽地回顾了自ChatGPT发布一年以来，各种声称与ChatGPT相当或更优的开源大语言模型在各种任务上的表现！

报告整合了各种评估基准，分析了开源LLMs与ChatGPT在不同任务上的比较。

包括一般能力、代理能力、逻辑推理能力、长文本建模能力、特定应用能力（如问答、总结）、以及可信赖性（如幻觉、安全性）。

结论是：综合能力，ChatGPT，依然，遥遥领先！

主要内容：

一般能力：

测试：MT-Bench、AlpacaEval、Open LLM Leaderboard 等。
发现：GPT-4 在多项测试中保持最高胜率（95.28%）。

代理能力：

测试：工具使用、自我调试、遵循反馈、环境探索等。
发现：Lemur-70B-chat 在某些环境测试中优于 GPT-3.5-turbo 和 GPT-4。

逻辑推理能力：

测试：GSM8K、MATH、TheoremQA、HumanEval 等。
发现：WizardCoder 和 WizardMath 在某些测试中显著超过 GPT-3.5-turbo。

应用特定能力：

测试：查询聚焦摘要、开放式问答等。
发现：InstructRetro 在多个测试上比 GPT-3 有显著提升。

医学领域应用：

测试：心理健康分析、放射学报告生成等。
发现：MentalLlama-chat-13B 和 Radiology-Llama-2 在特定领域超过ChatGPT 和 GPT-4。

可信赖性：

测试：TruthfulQA、FactualityPrompts、HaluEval 等。
发现：Platypus 等新方法在减少幻觉和提高安全性方面取得进步。

结论：

综合能力方面，ChatGPT 遥遥领先。

更多信息：

详细报告：https://arxiv.org/pdf/2311.16989.pdf

—

微软开源实时操作系统 ThreadX

ThreadX概述：实时操作系统（RTOS），广泛应用于各类嵌入式系统，如消费电子、汽车电子、工业控制等。
广泛应用：全球超过 120 亿设备运行 ThreadX。
设计特点：针对资源受限环境设计，如微控制器和小型处理器，注重可靠性和精确时间控制。

主要特性：

实时性能：快速响应外部事件，保证任务及时完成。
小型轻量：占用资源少，适合嵌入式系统和低功耗设备。
高度可配置：根据应用需求定制，适应不同硬件和功能。
多任务处理：支持多任务并发，有效管理任务优先级和资源。
稳定可靠：提供稳定性和错误处理能力。

背景：

微软收购：2019 年，微软收购 Thread X 所有者 Express Logic，重命名为Azure RTOS。
开源动机：可能是对亚马逊 AWS 接管 FreeRTOS 的回应。

开源影响：

开源与 Eclipse Foundation：Microsoft 将 ThreadX 开源并捐赠给 Eclipse Foundation，预计将扩大应用范围和开发者社区。
对 Raspberry Pi 的意义：如果 Raspberry Pi Foundation 获得 ThreadX 源代码许可，将使 Raspberry Pi 软件栈完全开源，提升安全性、可靠性和定制化。

更多信息：

详细：https://techcommunity.microsoft.com/t5/internet-of-things-blog/microsoft-contributes-azure-rtos-to-open-source/ba-p/3986318
ThreadX：https://threadx.io
GitHub：https://github.com/azure-rtos

—

OpenAI 领导层和董事会的最新变动

领导层变动：

Sam Altman 继续担任 OpenAI 的 CEO。
Mira Murati 维持 CTO 职位。
Greg Brockman 将回归，担任总裁。

董事会成员：

新初始董事会由 Bret Taylor（担任主席）、Larry Summers 和 Adam D’Angelo 组成。
Ilya Sutskever 退出董事会。

微软与董事会：

微软预计将以“非投票观察员”的身份加入 OpenAI 董事会。

背景信息：

这些变动反映了 OpenAI 在其发展和扩张过程中的策略调整。Sam Altman 继续担任 CEO 和 Greg Brockman 的回归，以及新董事会的组成，表明 OpenAI 正朝着进一步增强其领导力和治理结构的方向发展。

微软的角色：

微软作为重要的合作伙伴和支持者，其加入董事会（虽以非投票观察员身份）可能会对 OpenAI 的未来发展产生重要影响，尤其是在技术和商业策略方面。

详细信息：

详细：https://openai.com/blog/sam-altman-returns-as-ceo-openai-has-a-new-initial-board

—

周鸿祎：我在硅谷见了一些投资人，震撼非常大

他们对于没有AI概念、AI功能、Al成分的公司已经不会考虑了。

我也见了一些创业者，几乎所有创业都在以 AI为核心推进。美国在赌人工智能这件事，整个投资体系、创业体系、大公司体系、传统公司体系都在全面拥抱Al...

—

The Power of Prompting：提示的力量

仅通过提示，GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究，展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示，GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2，并且优势显著。

研究表明，仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前，要想激发这些能力，需要使用特别策划的数据对语言模型进行微调，以在特定领域中达到最佳性能。

现在仅通过提示，GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步，还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

研究的方法：

Medprompt 是一种方法，通过多种提示策略引导 GPT-4 成为医学领域的专家。

提示策略包括多样化提示、上下文学习、思维链条方法和选择洗牌集成。

Medprompt 成功应用于医学数据集，使 GPT-4 在医学知识方面表现卓越。

基准测试及性能评估：

GPT-4 在 MedQA 数据集上首次超过 90% 的准确率，并在九个基准数据集中取得最佳结果。

这项研究展示了通用模型在特定领域不需要微调，只需使用提示策略即可表现出专家级能力。

Medprompt 的成功降低了资源和成本，同时具有跨领域的应用潜力。

更多信息：
官方介绍：https://microsoft.com/en-us/research/blog/the-power-of-prompting/ 论文：https://arxiv.org/abs/2311.16452

将任意人物照片变成动态视频、奥特曼承认超级AI Q*的存在、仅靠提示就能让GPT成为专家、表情包实时生成实物图工具…

—

奥特曼承认了Q*的存在😎

奥特曼在接受媒体采访时承认了之前被曝光的超级人工智能Q*的存在，他在采访过程中被问到：

“关于你们最近在 Q 模型* 方面取得的突破，发生了什么？”

Altman: 对于那次不幸的信息泄露，我没有特别的评论。但无论是两周前、今天、一年前还是更早，我们一直强调的是，我们预计这项技术将继续快速进步，并且我们也将继续努力确保其安全性和益处。

这是我们以前每天起床的动力，也将是我们未来每天起床的动力。在这一点上，我们一直非常一致。

更多信息：

详细报道：https://www.theverge.com/2023/11/29/23982046/sam-altman-interview-openai-ceo-rehired

📝 历史项目记录：xiaohu.ai

感阅

谢读

感谢阅读，关注关注关注！

本篇文章来源于微信公众号: 互联网的那点事喜欢可以搜索关注!

表情包实时生成实物图工具

AI 视频初创公司 HeyGen 的最新动态

MonoNav：普林斯顿大学开发的微型空中飞行器导航系统

大语言模型综合性能比较研究报告：ChatGPT 领先

微软开源实时操作系统 ThreadX

OpenAI 领导层和董事会的最新变动

周鸿祎：我在硅谷见了一些投资人，震撼非常大

发表评论取消回复

登录 找回密码

登录找回密码