欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
🤖📈💻💡大模型动态
阿里开源AnyText
阿里开源多语言视觉文字生成与编辑模型——AnyText,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。
【AiBase提要】
🔸阿里巴巴开源的AnyText可以在图像中生成精准的文本,支持中文。
🔸AnyText采用文本控制的扩散流程,包括辅助潜变量模块和文本嵌入模块,能够生成弯曲、不规则的字体。
🔸AnyText使用了多个OCR识别数据集和严格的过滤规则构建了AnyWord-3M数据集,提供高质量的训练数据。
模型地址:https://top.aibase.com/tool/anytext-tuwenronghe
开源地址:https://github.com/tyxsspa/AnyText
英伟达推新AI语音识别模型Parakeet
NVIDIA NeMo宣布推出Parakeet ASR模型系列,这是一系列先进的自动语音识别(ASR)模型,与Suno.ai合作开发。
【AiBase提要:】
🗣️ Parakeet ASR模型系列: NVIDIA NeMo推出Parakeet ASR模型系列,与Suno.ai合作开发,优于OpenAI的Whisper v3,具有鲁棒性和出色的准确性。
🚀 四个模型: Parakeet包括RNNT1.1B、CTC1.1B、RNNT0.6B和CTC0.6B,基于RNN Transducer / Connectionist Temporal Classification解码器,参数范围0.6-1.1亿。
🌐 灵活、易用、可扩展: Parakeet基于NVIDIA NeMo工具包构建,提供灵活性和易用性,适用于各种语音应用场景。具有先进的准确性和鲁棒性。
🤖📱💼AI应用
视频生成工具Pika推出付费计划,提供不同档次选择
Pika宣布推出付费计划,分为两个档次,分别为10美元和60美元。免费版本有水印,300积分生成60个视频,而付费版本消除水印,10美元版本可生成210个视频,60美元版本提供500个视频生成数量和额外功能。用户可根据需求选择不同档次,享受Pika提供的优质服务。
【AiBase提要:】
🚀 Pika付费计划: 视频生成工具Pika推出付费计划,分为10美元和60美元两个档次,提供不同的视频生成数量和额外功能。
🆓 免费版本: Pika免费版本有水印,300积分可以生成60个视频,仍提供基本功能和一定数量的生成次数。
💳 付费档次:10美元版本消除水印,可生成210个视频;60美元版本提供500个视频生成数量和额外功能,折扣积分永不过期,用户可随时使用。
Magnific AI本周更新!可将图片放大至10K*10K分辨率
AI创始人Javi Lopez在推特宣布,Magnific AI将于本周更新,可将图片放大至10K*10K分辨率。
【AiBase提要:】
⭐ 该工具能够"幻想"并重构用户希望的任意细节,使图像变得更加高清和细腻。
⭐ 用户可以通过调整"创造力"滑块来控制AI生成的新细节的数量和类型,从而实现更多创意和个性化的图像增强。
⭐ Magnific AI适用于多种类型的图像,包括人像、插图、视频游戏资产、风景、科幻、奇幻、电影、平面设计、建筑、室内设计和食物照片。
强大人工智能编码助手code AI
code AI是一款强大的人工智能编码助手,结合了机器学习技术和编程知识,自动分析代码结构并提供智能建议,支持多种编程语言和环境。
【AiBase提要:】
⭐ 自动分析代码结构并提供智能建议
⭐ 支持多种编程语言和环境
⭐ 智能代码补全和自动重构功能
ComfyUI工作流管理插件Comfyspace更新
Comfyspace是一款实用的工作流管理插件,最新更新功能更强大,基本解决了工作流管理和使用的问题。
【AiBase提要:】
📷工作流管理插件更新功能:Comfyspace添加设置封面照片、手动保存和查看历史版本、引入了文件夹和标签。
🔗新增功能:云同步和备份工作区,一键安装模型。
🚀更新工作流管理插件:Comfyspace增强了工作流功能,使用户更方便地管理和使用。
AI通话服务Bland 半秒响应,可同时进行50万个通话
Bland是一个AI通话服务,它支持半秒响应。它能够稳定地匹配人类的速度和质量,为用户带来最快的沟通体验。
【AiBase提要:】
⭐️ Bland是一个AI通话服务,支持半秒响应,能稳定匹配人类的速度和质量。
⭐️ 用户可以免费试用,体验快速响应的便利,同时保持高质量的对话。
⭐️ Bland支持自定义通话主题和声音,用户可以根据需求和偏好定制通话内容。
📰🤖📢AI新鲜事
阿里推文生3D数字人项目Make-A-Character
阿里通义实验室XR实验室推出Make-A-Character项目,能从文字快速生成3D数字人。
【AiBase提要:】
💡用户可自定义面部特征,比如脸型、眼睛颜色等。
💡角色基于真实人类扫描数据集生成,发型为实际发丝而非网格。
💡MACH通过文本描述生成逼真的、完整的、可动画化的3D角色,适用于各种娱乐和专业场景。
雷军称小米汽车全身都是先进AI科技
雷军在微博上表示,小米汽车几乎全身都是先进AI科技,V8s也已实现量产,预计2025年上车。
【AiBase提要:】
⭐️ 小米汽车全身几乎都是先进AI科技,包括材料仿真、电机设计和智能驾驶。
⭐️ 小米汽车运用多元材料AI仿真系统打造强大材料支撑的泰坦合金。
⭐️ 小米汽车的目标是在未来15到20年内成为全球前五的汽车制造商。
初创公司Nation A发布Neuroid,革新生成式人工智能技术用于3D动画制作
Nation A公司推出Neuroid,一项生成式人工智能技术,可根据文本提示生成人形角色和四条腿的动物的3D动画,显著缩短动画制作时间。
【AiBase提要:】
🤖 Neuroid发布: Nation A初创公司发布Neuroid,一项生成式人工智能技术,用于根据文本提示生成人形角色和四条腿的动物的3D动画,缩短制作时间。
🚀 创新技术: Neuroid通过自主生成逼真动作,超越传统技术,支持角色绑定过程,与流行的3D软件包兼容,为创作者提供更大灵活性。
💡 AI Human Studio: 公司还推出“AI Human Studio”捕捉面部特征和人类表情,提供经济高效替代传统方法,旨在通过SaaS服务使高质量的3D动画广泛可用。
👨💻💡🎯聚焦开发者
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
近日,来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended(简称SE)。无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!
【AiBase提要:】
💡 新方法SelfExtended可即插即用,提升大模型上下文长度。
💡 SelfExtended已在Mistral和Llama2上试验成功,未处理的模型在6k长度时开始出现问题。
💡 SelfExtended在专为长文本模型设计的LongBench数据集中取得了良好的评分。
Colossal-AI团队开源了SwiftInfer
Colossal-AI团队开源了SwiftInfer,实现了无限流式输入推理,成功提升了大模型推理性能46%,为多轮对话场景提供高效可靠的落地方案。
【AiBase提要:】
⭐️SwiftInfer成功提升大模型推理性能46%。
💡解释了StreamingLLM的attention sink注意力机制、窗口注意力优化、KV Cache机制优化方法及优势。
🔗成功将StreamingLLM方法与TensorRT推理优化结合,提高46%推理吞吐速度。