Python+Selenium实现ChatGPT网页自动化：从环境搭建到实战避坑

张

张建站

2026/5/13 9:19:05

10分钟阅读

Python+Selenium实现ChatGPT网页自动化：从环境搭建到实战避坑

1. 项目概述与核心价值如果你和我一样经常需要和ChatGPT进行大量、重复的对话比如批量测试提示词效果、自动化生成内容草稿或者只是想绕过网页端繁琐的点击操作那么手动在浏览器里一遍遍输入、等待、复制很快就会变得枯燥且低效。这正是我最初动手写这个自动化脚本的动机。今天要聊的这个项目chatgpt_selenium_automation本质上是一个用Python和Selenium搭建的“机器人”它能帮你自动完成打开ChatGPT网页、发送问题、获取回答这一整套流程。它的核心价值在于将网页交互转化为可编程的API调用。虽然OpenAI提供了官方的API但网页版ChatGPT特别是免费版或Plus版的模型版本、对话上下文长度有时与API有所不同。通过自动化网页操作你可以直接利用网页端的会话能力这对于一些特定的测试、研究或者需要利用网页版特有功能如插件、文件上传的场景来说是一个很实用的补充方案。当然它不是一个“黑科技”其底层就是模拟人的点击和输入所以你会看到它需要你手动完成登录和真人验证——这既是技术限制也是出于对服务条款的尊重。这个工具最适合两类朋友一是开发者或技术爱好者想学习如何用Selenium进行复杂的Web自动化ChatGPT的交互逻辑是个不错的练手案例二是有一定自动化需求的内容创作者或研究者需要与ChatGPT进行稳定、批量的交互但又不想全程手动操作。接下来我会带你从零开始拆解这个工具的每一个环节分享我在使用和改造过程中踩过的坑和总结的技巧。2. 环境准备与核心依赖解析工欲善其事必先利其器。要让这个自动化脚本跑起来我们需要搭建一个稳定的Python环境并准备好关键的“驾驶员”——浏览器驱动。这个过程看似简单但版本兼容性是最大的暗礁我至少有一半的调试时间都花在了这里。2.1 Python环境与库安装首先确保你的Python版本在3.7及以上。我强烈建议使用虚拟环境如venv或conda来管理依赖避免污染全局环境。创建并激活虚拟环境后安装项目本身是最直接的一步pip install githttps://github.com/Michelangelo27/chatgpt_selenium_automation.git这条命令会从GitHub仓库直接克隆并安装这个包。安装完成后你可以在Python中导入chatgpt_selenium_automation模块。但请注意这个安装命令不会自动安装Selenium库。根据我的经验这是第一个容易掉进去的坑。你需要手动安装Seleniumpip install selenium我推荐安装较新的稳定版本例如selenium4.10.0。版本过低可能导致一些新的WebDriver方法无法使用。除了Selenium这个脚本在运行过程中可能还会调用一些系统库来处理证书、网络连接等这些通常Python环境已经自带一般无需额外操心。2.2 ChromeDriver自动化脚本的“方向盘”Selenium本身只是一个发号施令的“大脑”它需要通过与浏览器驱动WebDriver通信来控制真实的浏览器。chromedriver就是Chrome浏览器的官方驱动。这里有几个关键点版本必须严格对应你电脑上安装的Chrome浏览器版本必须与下载的chromedriver版本完全匹配或高度兼容。你可以通过在Chrome地址栏输入chrome://version/查看你的浏览器版本号例如114.0.5735.198。下载与放置前往 ChromeDriver官网下载对应版本的chromedriver.exeWindows或chromedrivermacOS/Linux。下载后将其放在一个你记得住的、路径中不包含中文或特殊字符的目录下比如C:\WebDriver\或/usr/local/bin/。系统PATH配置可选但推荐将chromedriver所在目录添加到系统的环境变量PATH中。这样做之后在代码中初始化时你只需要指定驱动文件名而不需要完整的绝对路径Selenium会自动在PATH中查找。如果不配置则必须在代码中提供完整路径。注意Chrome浏览器会频繁自动更新。一旦浏览器升级原有的chromedriver很可能立即失效并抛出“版本不匹配”的错误。我的习惯是在项目目录下专门建一个drivers文件夹存放驱动并在脚本开头加入版本检查逻辑或者准备一个简单的更新脚本。更省事的办法是使用webdriver-manager这样的第三方库它可以自动下载和管理匹配的驱动但原项目并未集成此功能你需要自行判断是否引入。3. 脚本核心逻辑与代码深度拆解安装好环境我们来深入看看这个自动化工具到底是怎么工作的。理解其内部机制不仅能帮你更好地使用它还能在出问题时快速定位。3.1 初始化启动一个“听话”的Chrome项目的核心是ChatGPTAutomation类。初始化这个类时主要干两件事配置浏览器选项并启动一个受控的Chrome实例。from chatgpt_selenium_automation.handler import ChatGPTAutomation chrome_driver_path rC:\Users\user\Desktop\chromedriver.exe chrome_path rC:\Program Files\Google\Chrome\Application\chrome.exe chatgpt ChatGPTAutomation(chrome_path, chrome_driver_path)chrome_path指向你电脑上Chrome浏览器的可执行文件chrome.exe。注意示例中r... 的写法这是因为路径中包含空格Program Files在Python字符串和后续传递给系统命令时需要确保路径被引号包裹。这里的r是原始字符串防止转义符被误解。chrome_driver_path指向刚才下载的chromedriver.exe。在类的__init__方法内部脚本会利用Selenium的webdriver.ChromeOptions来配置浏览器。根据我的阅读和测试它很可能会设置以下选项--no-sandbox和--disable-dev-shm-usage在Linux环境或无头模式下常见的稳定性选项。--start-maximized启动时最大化窗口确保页面元素正常加载。可能还会禁用一些弹窗或启用实验性功能。然后通过webdriver.Chrome传入选项和驱动路径一个全新的、由脚本控制的Chrome窗口就会打开。这个窗口与你手动打开的Chrome是隔离的拥有独立的缓存和Cookie存储。3.2 导航与人工干预点浏览器启动后脚本会自动导航到ChatGPT的登录页面通常是https://chat.openai.com。从这里开始第一个也是唯一一个必须的人工干预环节出现了。脚本会停下来等待你在浏览器窗口中手动完成登录你的OpenAI账户。完成可能出现的任何真人验证如点击“我不是机器人”的验证码。这个过程无法完全自动化主要是出于两个原因一是绕过验证码违反大多数网站的服务条款二是OpenAI的验证机制如Cloudflare相当复杂完全自动化破解既不道德也不稳定。这是一个重要的设计哲学该工具旨在自动化登录后的重复对话任务而非绕过安全机制。手动操作完成后你需要回到运行脚本的命令行或终端根据提示通常是要求输入y或按回车确认已登录成功。之后脚本才会继续执行并尝试跳转到聊天界面。3.3 发送提示与获取响应登录成功后就进入了自动化核心。send_prompt_to_chatgpt(prompt)方法负责发送问题。定位输入框方法内部会使用Selenium的find_element系列函数通过CSS选择器或XPath定位到网页上的聊天输入框。ChatGPT网页的结构可能会更新所以这里的选择器是关键如果失效会导致脚本报错“无法找到元素”。输入文本定位到输入框后使用send_keys(prompt)方法将你的问题字符串模拟键盘输入进去。模拟回车提交输入完成后很可能再模拟一个Keys.RETURN回车键事件或者定位并点击“发送”按钮来提交问题。问题提交后脚本需要等待ChatGPT生成完毕。这里通常采用“显式等待”策略# 伪代码逻辑 from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By # 等待直到某个标志性元素出现比如“停止生成”按钮消失或者最新的回答区域内容不再变化 wait WebDriverWait(driver, timeout60) wait.until(EC.invisibility_of_element_located((By.CSS_SELECTOR, [data-testidstop-generating])))等待完成后return_last_response()方法被调用它会去定位最新的一条回复消息所在的HTML元素通常是某个具有特定类名的div或p标签然后通过element.text属性提取出纯文本回复。3.4 会话保存与清理save_conversation(file_name)方法 likely 会遍历当前聊天界面中所有的消息气泡包括用户和AI的按照顺序将它们写入到指定的文本文件中。这提供了一个简单的对话记录功能。最后quit()方法会调用driver.quit()关闭所有相关的浏览器窗口并结束WebDriver进程释放系统资源。务必在脚本结束时调用此方法否则后台可能会残留Chrome进程。4. 实战操作流程与避坑指南了解了原理我们来看一个完整的、增强健壮性的使用示例并附上我踩过的坑。4.1 完整增强版示例代码下面是一个我修改过的、更健壮的示例增加了错误处理、更灵活的等待和状态检查。import time from selenium.common.exceptions import NoSuchElementException, TimeoutException from chatgpt_selenium_automation.handler import ChatGPTAutomation def chatgpt_automation_demo(): # 1. 路径配置 chrome_driver_path rC:\WebDriver\chromedriver.exe # 推荐固定路径 chrome_path rC:\Program Files\Google\Chrome\Application\chrome.exe # 2. 初始化实例 print(正在启动Chrome浏览器...) try: chatgpt ChatGPTAutomation(chrome_path, chrome_driver_path) print(浏览器启动成功请手动完成登录和验证。) except Exception as e: print(f初始化失败请检查驱动和浏览器路径: {e}) return # 3. 等待人工登录 input(请在浏览器中完成登录和人机验证完成后回到此窗口按 Enter 继续...) # 4. 发送多个提示并获取回复 prompts [ 用简单的语言解释一下量子计算。, 再给我一个关于它的比喻。, 谢谢请将以上对话总结成三个要点。 ] conversation_log [] for i, prompt in enumerate(prompts): print(f\n[发送第{i1}条] {prompt}) try: chatgpt.send_prompt_to_chatgpt(prompt) # 增加一个自定义等待确保ChatGPT有足够时间响应 time.sleep(8) # 根据网络和响应速度调整 response chatgpt.return_last_response() if response and response.strip(): print(f[ChatGPT回复]: {response[:200]}...) # 打印前200字符 conversation_log.append(f用户: {prompt}) conversation_log.append(fAI: {response}) else: print(警告未获取到有效回复可能页面未加载完成。) except (NoSuchElementException, TimeoutException) as e: print(f发送或获取回复时出现错误可能页面结构已变: {e}) break except Exception as e: print(f发生未知错误: {e}) break # 5. 保存对话 if conversation_log: file_name fchatgpt_conversation_{int(time.time())}.txt try: chatgpt.save_conversation(file_name) print(f\n对话已保存至: {file_name}) except Exception as e: print(f保存对话文件失败: {e}) # 手动保存到本地 with open(file_name, w, encodingutf-8) as f: f.write(\n.join(conversation_log)) print(f已通过备用方式保存至: {file_name}) # 6. 关闭浏览器 input(\n按 Enter 键关闭浏览器...) chatgpt.quit() print(自动化会话结束。) if __name__ __main__: chatgpt_automation_demo()4.2 关键操作注意事项与避坑指南结合代码和我的实战经验这里有几点必须注意绝对不要手动干扰浏览器这是项目作者强调多次也是我血泪的教训。一旦脚本开始自动运行即你输入y确认登录后切勿手动点击浏览器切换标签页、开始新对话、刷新页面或点击页面其他元素。Selenium通过内部状态跟踪当前聚焦的窗口和元素你的手动操作会立即破坏这个状态导致后续的find_element操作定位到错误的地方脚本必然失败。正确的做法是让脚本完全控制这个浏览器窗口。处理网络延迟与页面加载原脚本的等待逻辑可能不够健壮。ChatGPT生成长回答时速度不定网络波动也会影响。如果return_last_response返回空或旧内容很可能是因为AI还没生成完。我的做法是在send_prompt_to_chatgpt后加入一个sleep如8-15秒作为缓冲或者更优的方法是实现一个循环去检测回复区域是否出现了新内容例如检查最后一个消息元素的文本是否在几秒内不再变化。应对网页结构更新OpenAI前端团队可能会随时调整ChatGPT网页的HTML结构或CSS类名。一旦发生脚本中用于定位输入框、发送按钮、回复区域的选择器就会失效。症状是抛出NoSuchElementException。这时你需要手动打开Chrome开发者工具F12检查相关元素的HTML结构。更新代码中的选择器如XPath或CSS Selector。这需要你具备基础的网页元素审查知识。关于控制台警告运行时控制台出现类似“DevTools listening”、“TensorFlow Lite”、“Failed parsing Certificate”的ERROR或WARNING信息绝大多数情况下可以忽略。这些信息来自Chrome底层或驱动只要脚本功能正常就不影响使用。如果脚本本身报错则应优先排查代码和网络问题。会话管理这个工具默认操作的是你登录后的当前对话。如果你需要开始一个全新的对话点击网页左上角的“New chat”目前可能需要你修改脚本添加自动点击该按钮的逻辑。否则所有问题都会在同一个上下文中进行AI会记住之前的所有对话。5. 常见问题排查与进阶技巧即使准备充分在实际运行中你还是可能会遇到一些问题。下面是我整理的一个快速排查清单和一些进阶思路。5.1 故障排查速查表问题现象可能原因解决方案初始化失败提示找不到Chrome/驱动1. 驱动路径错误。2. Chrome浏览器未安装或路径错误。3. ChromeDriver与Chrome版本不匹配。1. 检查路径字符串特别是空格和反斜杠建议使用原始字符串r...。2. 确认Chrome已安装并找到正确的chrome.exe路径。3. 核对并下载对应版本的ChromeDriver。浏览器打开后不自动跳转或白屏网络问题或脚本中的目标URL不正确。检查网络连接。手动在打开的浏览器地址栏输入https://chat.openai.com看是否能访问。手动登录后脚本不继续执行脚本在等待你的确认输入如y。查看命令行/终端窗口按照提示输入确认指令。发送提示后脚本报错找不到元素1. 页面未加载完成。2. ChatGPT网页结构已更新。3. 你手动操作了浏览器导致焦点丢失。1. 增加等待时间time.sleep或显式等待。2. 使用开发者工具重新定位元素更新代码中的选择器。3. 停止手动操作重启脚本。return_last_response()返回空或旧回复AI尚未生成完毕脚本就提前去抓取了。在发送提示后增加足够的等待时间或实现“等待生成完成”的检测逻辑如监测“停止生成”按钮的状态。脚本运行一段时间后崩溃可能内存泄漏或Chrome标签页累积过多。确保在脚本最后调用了quit()。对于长时间运行的脚本考虑定期清理或重启浏览器实例。5.2 进阶技巧与扩展思路掌握了基础用法后你可以考虑以下方向来增强这个工具无头模式运行如果你不需要看到浏览器界面例如在服务器上运行可以在ChromeOptions中添加--headlessnew参数。这能节省资源但注意无头模式下进行真人验证几乎不可能所以适合在已经通过有头模式登录并保存了Cookies后复用会话的场景需要额外处理Cookie持久化。用户数据持久化每次启动都重新登录太麻烦。可以在初始化ChromeOptions时通过add_argument(f--user-data-dir{user_data_path})指定一个用户数据目录。这样Chrome会像普通浏览器一样保存你的登录状态、Cookie和缓存下次启动脚本时很可能无需再次登录。注意妥善保管该目录因为它包含你的浏览数据。实现更智能的等待替换固定的sleep使用Selenium的WebDriverWait配合自定义条件。例如等待回复区域出现新内容或者等待“发送”按钮重新变为可点击状态。这能大幅提高脚本的效率和稳定性。构建对话管理系统将ChatGPTAutomation类封装进你自己的应用。例如结合schedule库定时询问读取文件中的问题列表批量处理或者将回复自动整合到你的笔记系统如Notion、Obsidian中。异常恢复机制在长时间运行的脚本中网络中断或页面意外刷新可能导致失败。你可以用try...except包裹核心操作并在捕获到特定异常时如NoSuchElementException尝试重新导航到聊天页面或者重新获取最新的回复元素。这个项目提供了一个坚实可靠的起点它清晰地展示了如何用Selenium与一个复杂的现代Web应用进行交互。其价值不仅在于自动化ChatGPT本身更在于它提供的模式可以迁移到无数其他网页自动化任务中。理解它、用好它、改造它你就能把这个简单的脚本变成真正属于你自己的生产力利器。

智能控制第一章——绪论

参考课程：https://www.bilibili.com/video/BV1PE411W7QM/?spm_id_from333.1387.favlist.content.click&vd_source8f8a7bd7765d52551c498d7eaed8acd5 一、引入 1、智能控制系统 （1）智能控制是一门新兴的学科，随着数学计算机…...

2026/5/13 9:15:47 阅读更多 →

高德二面：线上慢SQL导致CPU飙升，怎么解决？

往期热门文章： 1、取代 IDEA！Cursor 3 发布，VS Code 那套 IDE 过时了！ 2、DeepSeek 版 Claude Code 来了，一个美国佬为 DeepSeek 做了一个终端 Agent 3、Prompt 已死，GPT-5.5 官方发布新的提示词咒语指南&a…...

2026/5/13 9:15:11 阅读更多 →

别再死记硬背了！通过eNSP搭建WLAN，一次搞懂AC+AP架构中的VLAN、CAPWAP和业务转发

从零构建企业级WLAN：ACAP架构中的关键技术解析与实战在数字化转型浪潮中，无线网络已从简单的"能上网"演变为支撑业务运营的关键基础设施。对于网络工程师而言，理解ACAP架构背后的设计哲学，远比记住配置命令更为重要。本…...

2026/5/13 9:14:39 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/12 13:39:41 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/12 8:30:03 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/11 23:43:42 阅读更多 →