NotionNext BLOG

𝗘𝙄.𝖡𝗈𝗍

情绪模拟

💬 A Conversational Speech Generation Model

LLM

🦙 从头实现Llama3

📙 大语言模型电子书

📱 MiniCPM:端侧大语言模型的潜力

⚒️ 大模型技术原理及实战经验

📒 Coursera-ML-AndrewNg-笔记

📄 深度学习论文精读

📕 初创公司CTO手册

😀 Hello，算法！

Avatar

🙃 FaceFusion 换脸神器

😋 从音频合成照片级人类对话Avatar

硬件

⌚ OV-Watch 开源智能手表

🖊️ D-POINT：具有光学惯性跟踪功能的数字笔

多模态

🔯 LanguageBind：通过基于语言的语义对齐将视频语言预训练扩展到N模态

🫂 MoE-LLaVA：大型视觉语言模型的专家混合体

👁️ 多模态端侧大模型MiniCPM-V

视频

🧿 开源视频模型Open Sora

RAG

🤡 不到500行代码构建您自己的对话搜索引擎

🔎 网易QAnything RAG项目

📹 人工智能视频搜索引擎 (AVSE)

音频

🔉 GPT-SoVITS少样本声音克隆和TTS

音乐

🎸 M2UGen：利用大型语言模型实现多模态音乐理解和生成

Infra

📈 milvus-io / bootcamp

🔧 Apple CoreML Tools

📦 Awesome-CoreML-模型

图像

🎁 Converted Core ML Model Zoo

🖼️ CLIP-CoreML

机器人

🤖 家庭机器人

🖼️CLIP-CoreML

type

status

slug

summary

tags

category

icon

password

Date

CLIP-CoreML

OpenAI CLIP coreML 版本，适用于 iOS 文本图像嵌入、图像搜索、图像聚类、图像分类

剪辑文本

notion image

剪辑图片

notion image

sinnuswong • Updated May 20, 2024

OpenAI CLIP 版 Android 文本图像嵌入、图像搜索、图像聚类、图像分类

notion image

🔍 用自然语言搜索本地图片，完全离线运行。例如，“桌上的笔记本电脑”、“海边的日落”、“草地上的小猫”等等。

完全免费，无应用内购买

支持英文和中文

图像的索引和搜索完全离线工作，无需担心隐私

搜索 8,000 多张照片时不到 1 秒即可显示结果

首次启动时等待索引，然后立即搜索

安装

notion image

Google Play - 搜索“PicQuery”

从发布下载 APK

如果您无法访问上述资源，请参阅此处

🍎 对于 iOS 用户，请参阅Queryable（代码），该应用程序背后的灵感，由@mazzzzystar开发。

执行

感谢@mazzzystar和@Young-Flash在开发过程中提供的帮助。讨论可在此处查看。

PicQuery由 OpenAI 的CLIP 模型提供支持。

首先，使用图像编码器将要搜索的图像编码为矢量并存储在数据库中。用户在搜索过程中提供的文本也被编码成向量。然后将编码的文本向量与索引的图像向量进行比较以计算相似度。选择相似度得分最高的前K张图像作为查询结果。

构建并运行

要构建此项目，您需要获得量化的 CLIP 模型。

逐步运行此jupyter Notebook中的脚本。当您进入“您已完成”./result 部分时，您应该在目录中获得以下模型文件：

clip-image-int8.ort

clip-text-int8.ort

如果您不想运行脚本，可以直接从Google Drive下载它们。

将它们放入app\src\main\assets即可开始使用。

致谢

mazzzystar/可查询

年轻的闪光

IacobIonut01/画廊

执照

该项目是根据 MIT 许可证开源的。版权所有。

greyovo • Updated May 22, 2024

Converted Core ML Model Zoo Apple CoreML Tools

情绪模拟

💬 A Conversational Speech Generation Model

LLM

🦙 从头实现Llama3

📙 大语言模型电子书

📱 MiniCPM:端侧大语言模型的潜力

⚒️ 大模型技术原理及实战经验

📒 Coursera-ML-AndrewNg-笔记

📄 深度学习论文精读

📕 初创公司CTO手册

😀 Hello，算法！

Avatar

🙃 FaceFusion 换脸神器

😋 从音频合成照片级人类对话Avatar

硬件

⌚ OV-Watch 开源智能手表

🖊️ D-POINT：具有光学惯性跟踪功能的数字笔

多模态

🔯 LanguageBind：通过基于语言的语义对齐将视频语言预训练扩展到N模态

🫂 MoE-LLaVA：大型视觉语言模型的专家混合体

👁️ 多模态端侧大模型MiniCPM-V

视频

🧿 开源视频模型Open Sora

RAG

🤡 不到500行代码构建您自己的对话搜索引擎

🔎 网易QAnything RAG项目

📹 人工智能视频搜索引擎 (AVSE)

音频

🔉 GPT-SoVITS少样本声音克隆和TTS

音乐

🎸 M2UGen：利用大型语言模型实现多模态音乐理解和生成

Infra

📈 milvus-io / bootcamp

🔧 Apple CoreML Tools

📦 Awesome-CoreML-模型

图像

🎁 Converted Core ML Model Zoo

🖼️ CLIP-CoreML

机器人

🤖 家庭机器人