AI截图分析是一款基于人工智能与OCR技术开发的智能图像分析工具,旨在帮助用户快速理解屏幕内容,如图像、图表、文字、代码等,并通过AI进行解释、翻译、解题、总结等操作。该软件结合了截图、OCR识别与AI分析能力,提供高效、便捷的智能辅助功能。
该软件目前为测试版本,采用 Python 编写,基于 PyQt6 构建图形界面,具备良好的可扩展性和自由配置性。
技术架构
AI引擎:使用 Requests 实现与 AI 模型的交互
编程语言:Python
图形界面:PyQt6
截图功能:PIL(Python Imaging Library)
快捷键支持:pynput
OCR引擎支持:腾讯云OCR、Qwen API、云智OCR 等
多模态模型支持:Claude 3/4、gpt-4o、Qwen-2.5vl-32b-instruct 等
使用流程
用户通过快捷键触发截图功能,系统自动识别图像内容,通过OCR提取文字信息或将图像直接提交给AI模型进行分析。分析结果会以自然语言形式在界面上展示,用户也可通过配置文件config.toml自定义 OCR 接口、AI 接口及提示词。
软件功能
1. 核心功能
功能名称 功能描述 截图识别 快捷键截图,自动识别屏幕内容 OCR识别 支持图像文字提取,可使用腾讯云OCR、Qwen API 等 AI分析 将图像或OCR结果提交给AI进行解释、翻译、解题等 提示词自定义 支持自定义功能如“一键做题”、“一键翻译”等 多模型支持 可同时使用多个AI模型进行对比分析(如 Claude、GPT、Qwen)2. 扩展功能
多模型同时提问:可同时调用多个AI模型,对比分析结果
多种通知方式:支持弹窗、声音、系统通知等方式提醒用户结果
现代化界面:简洁美观的图形界面,提升用户体验
配置管理系统:完整配置管理,支持本地存储与编辑
软件特色
1. 开箱即用
内置原创 Qwen API 逆向接口,无需额外配置即可使用
支持自动OCR识别并提交AI分析,操作便捷
2. 高度自由配置
支持自定义AI接口、OCR接口、提示词
可通过编辑config.toml文件进行高级设置,满足个性化需求
3. 多模态支持
支持直接上传图片给多模态AI模型进行分析(如 Claude 3/4、gpt-4o)
对非多模态模型(如 Qwen3、Deepseek)支持OCR后分析
4. 易于集成与扩展
可替换OCR引擎为腾讯云OCR、Qwen API 等
支持用户自行扩展插件或功能模块,提升软件适应性
收费价格
免费提供:本软件为开源项目,仅供学习与个人使用,不收取任何费用,禁止商业化用途:不得用于任何商业用途
AI与OCR服务费用
服务名称 费用说明 Qwen API 内置原创逆向接口,可免费使用(受Qwen官方API策略限制) 腾讯云OCR 每月提供1000次免费调用额度,超出后按腾讯云官方价格计费 秘塔API 提供赠送额度,付费价格便宜,适合长期使用总结
AI截图分析软件是一款功能强大、操作简便的智能分析工具,集截图、OCR识别与AI分析于一体,适用于学生、开发者、办公人员等各类用户群体。
软件截图