图片筛选工具 - 使用说明
功能简介
本工具旨在帮助您快速、批量地从大量图片中筛选出不符合特定标准的图片。筛选依据主要有两点:
- 图片尺寸: 筛选出高度小于预设值(300px)的图片。
- 图片内容: 利用AI或OCR技术识别图片中的文字,筛选出包含特定关键词(如“淘宝”、“价格说明”等)的图片。
核心优势: 支持多种识别引擎,包括完全在您浏览器中运行的本地OCR,确保图片数据无需上传,保护您的隐私。
使用步骤
- 选择内容识别引擎: 在开始前,请根据您的需求选择一个引擎。这是最关键的一步。
- 选择文件夹: 点击此按钮,选择您要扫描的整个图片文件夹。
- 附加关键词: 工具已内置“淘宝”、“价格说明”等常用关键词。您可以在此输入框中添加更多您想检测的词语,用英文逗号 (,) 分隔。
- 开始筛选: 点击后,工具将开始逐一分析图片。您可以在侧边栏看到实时进度。
- 查看结果: 筛选出的不合格图片会实时显示在右侧的结果区域,分为“尺寸过小”和“内容不符”两类。
- 下载路径列表: 扫描完成后,您可以点击“下载异常路径”来获取所有不合格图片的文件路径列表,方便您后续进行处理。您也可以下载“合格路径”列表。
引擎配置说明
Tesseract.js (本地OCR) - 默认推荐
优点: 无需任何配置,无需API密钥。所有识别工作都在您的浏览器内完成,图片不会被上传到任何服务器,隐私性最好。
缺点: 识别速度相对较慢,精度可能不如云端AI。
谷歌 Gemini (云端AI)
优点: 识别精度高,速度快。
缺点: 需要您拥有一个有效的Google Gemini API密钥,并且在部署网站时,必须通过环境变量 API_KEY
进行安全配置。不适合直接在本地打开HTML文件使用。
PaddleOCR (后端)
优点: 识别精度高,数据存储在您自己的服务器上,兼顾了性能和隐私。
缺点: 配置最复杂。需要您自己购买云服务器,并根据部署教程搭建后端服务。搭建完成后,将您的服务器地址填入即可使用。