访问授权

本工具需要授权后才能使用,请输入访问密码。

图片筛选工具 - 使用说明

功能简介

本工具旨在帮助您快速、批量地从大量图片中筛选出不符合特定标准的图片。筛选依据主要有两点:

  • 图片尺寸: 筛选出高度小于预设值(300px)的图片。
  • 图片内容: 利用AI或OCR技术识别图片中的文字,筛选出包含特定关键词(如“淘宝”、“价格说明”等)的图片。

核心优势: 支持多种识别引擎,包括完全在您浏览器中运行的本地OCR,确保图片数据无需上传,保护您的隐私。

使用步骤

  1. 选择内容识别引擎: 在开始前,请根据您的需求选择一个引擎。这是最关键的一步。
  2. 选择文件夹: 点击此按钮,选择您要扫描的整个图片文件夹。
  3. 附加关键词: 工具已内置“淘宝”、“价格说明”等常用关键词。您可以在此输入框中添加更多您想检测的词语,用英文逗号 (,) 分隔。
  4. 开始筛选: 点击后,工具将开始逐一分析图片。您可以在侧边栏看到实时进度。
  5. 查看结果: 筛选出的不合格图片会实时显示在右侧的结果区域,分为“尺寸过小”和“内容不符”两类。
  6. 下载路径列表: 扫描完成后,您可以点击“下载异常路径”来获取所有不合格图片的文件路径列表,方便您后续进行处理。您也可以下载“合格路径”列表。

引擎配置说明

Tesseract.js (本地OCR) - 默认推荐

优点: 无需任何配置,无需API密钥。所有识别工作都在您的浏览器内完成,图片不会被上传到任何服务器,隐私性最好。
缺点: 识别速度相对较慢,精度可能不如云端AI。

谷歌 Gemini (云端AI)

优点: 识别精度高,速度快。
缺点: 需要您拥有一个有效的Google Gemini API密钥,并且在部署网站时,必须通过环境变量 API_KEY 进行安全配置。不适合直接在本地打开HTML文件使用。

PaddleOCR (后端)

优点: 识别精度高,数据存储在您自己的服务器上,兼顾了性能和隐私。
缺点: 配置最复杂。需要您自己购买云服务器,并根据部署教程搭建后端服务。搭建完成后,将您的服务器地址填入即可使用。

图片筛选工具

选择一个文件夹,根据您的标准扫描需要删除的图片。

使用说明
注意: 出于安全原因,本网络应用无法从您的计算机中删除文件。它只会列出建议删除的文件。

不知道如何部署?参考部署教程

未选择文件夹

正在处理...

待删除图片 (高度 < 300px)

待删除图片 (包含关键词)