A.4.2. 如果MySQL依然崩溃，应作些什么

A. 问题和常见错误 / A.4. 与管理有关的事宜 / A.4.2. 如果MySQL依然崩溃，应作些什么

正式发布之前，每个MySQL版本均在很多平台上进行了测试。这不表示MySQL中不存在缺陷，但是，如果存在缺陷，它们应很少，而且很难发现。如果你遇到问题，如果你尝试找出导致系统崩溃的准确原因，这始终很有帮助，这是因为，如果这样的话，快速解决问题的机会很大。

首先，应尝试找出问题是否与mysqld服务器有关，或是否与客户端有关。通过执行mysqladmin version，可检查mysqld服务器运行了多长时间。如果mysqld宕机并重启，应查看服务器的错误日志以找出原因。请参见5.11.1节，“错误日志”。

在某些系统上，在错误日志中，可发现mysqld宕机的堆栈跟踪，可使用resolve_stack_dump程序解决它。请参见E.1.4节，“使用堆栈跟踪”。注意，错误日志中的变量值并非始终是100％正确的。

很多服务器崩溃是因损坏的数据文件或索引文件而导致的，每次执行完SQL语句之后并在向客户端通告结果之前，MySQL将使用write()系统调用更新磁盘上的文件（如果你使用了“--delay-key-write”选项，情况并非如此，此时将写入数据文件而不是索引文件）。这意味着，即使mysqld崩溃，数据文件的内容也是安全的，这是因为操作系统能保证将未刷新的数据写入磁盘。使用“--flush”选项启动mysqld，这样，每次执行完SQL语句后，可强制MySQL将所有内容写入磁盘。

前述介绍表明，在正常情况下不会出现损坏的表，除非出现了下述情况之一：

在更新过程中，MySQL服务器或服务器主机被停止。

你发现了mysqld中存在的1个缺陷，该缺陷导致mysqld在更新中途中止。

在mysqld操作的同时，某些外部程序正在操控数据文件或索引文件，未恰当锁定表。

你正使用系统上的相同数据目录运行很多mysqld服务器，该系统不支持良好的文件系统锁定（通常是由lockd锁定管理器负责的），或使用“--skip-external-locking”选项运行了多个服务器。

崩溃的数据文件或索引文件，其中包含导致mysqld混乱的损坏很严重的数据。

在数据存储节点发现缺陷。这种可能性不大，但至少是可能的。在该情况下，可在修复的表副本上，通过使用ALTER TABLE，尝试将表类型更改为另一种存储引擎。

由于很难得知为什么某事会出现崩溃，首先请检查用于其他方面的事项是否崩溃。请尝试采取下述措施：

用mysqladmin shutdown停止mysqld服务器，从数据目录运行myisamchk --silent --force */*.MYI，检查所有的MyISAM表，并重启mysqld。这样，就能确保从干净的状态运行服务器。请参见第5章：数据库管理。

使用“--log”选项启动mysqld，并根据写入日志的信息确定是否某些特殊的查询杀死了服务器。约95%的缺陷与特定的查询有关。正常情况下，这是服务器重启前日志文件中最够数个查询中的1个。请参见5.11.2节，“通用查询日志”。如果能够用特殊查询重复杀死MySQL，即使在发出查询前检查了所有表的情况下也同样，那么你就应能确定缺陷，并应提交关于该缺陷的缺陷报告。请参见1.7.1.3节，“如何通报缺陷和问题”。

尝试提供一个测试范例，我们应能利用该范例重复问题。请参见E.1.6节，“如果出现表崩溃，请生成测试案例”。

请在mysql-test目录下并根据MySQL基准进行测试。请参见27.1.2节，“MySQL测试套件”。它们能相当良好地测试MySQL。你也可以为基准测试增加代码，以模拟你的应用程序。基准测试可在源码分发版的sql-bench目录下找到，对于二进制分发版，可在MySQL安装目录下的sql-bench目录下找到。

尝试使用fork_big.pl脚本（它位于源码分发版的测试目录下）。

如果你将MySQL配置为调试模式，如果某事出错，可更为容易地搜集关于可能错误的信息。如果将MySQL配置为调试模式，可生成1个安全的内存分配程序，可使用它发现某些错误。此外，它还提供了很多输出，这类输出与出现的问题相关。在configure上使用“--with-debug”或“--with-debug=full”选项重新配置MySQL，然后再编译它。请参见E.1节，“调试MySQL服务器”。

确保为你的操作系统应用了最新的补丁。

对mysqld使用“--skip-external-locking”选项。在某些系统上，lockd锁定管理器不能正确工作，“--skip-external-locking”选项通知mysqld不使用外部锁定。（这意味着，你不能在相同的数据目录上运行2个mysqld服务器，如果使用myisamchk，必须谨慎。然而，尝试将该选项用作测试也是有益的）。

当mysqld看上去正在运行但并未响应时，是否运行了mysqladmin -u root processlist？某些时候，即使你认为mysqld处于闲置状态时，实际情况并非如此。问题可能是因为所有连接均已使用，或存在某些内部锁定问题。即使在该情况下，mysqladmin -u root processlist通常能够进行连接，并能提供关于当前连接数以及其状态的有用信息。

在运行其他查询的同时，在单独的窗口中运行命令mysqladmin -i 5 status或mysqladmin -i 5 -r status，以生成统计信息。

尝试采用下述方法：

从gdb（或另一个调试器）启动mysqld。请参见E.1.3节，“在gdb环境下调试mysqld”。

运行测试脚本。

在3个较低层面上输出backtrace（向后跟踪）和局部变量。在gdb中，当mysqld在gdb内崩溃时，可使用下述命令完成该任务：

backtrace

info local

up

info local

up

info local

使用gdb，你还能检查与info线程共存的线程，并切换至特定的线程N，其中，N是线程ID。

尝试用Perl脚本模拟你的应用程序，强制MySQL崩溃或行为异常。

发送正常的缺陷报告。请参见1.7.1.3节，“如何通报缺陷和问题”。应比通常的报告更详细。由于MySQL是为很多人提供服务的，它可能因仅存在于你的计算机上的某事崩溃（例如，与你的特定系统库有关的错误）。

如果你遇到与包含动态长度行的表有关的问题，而且你仅使用VARCHAR列（而不是BLOB或TEXT列），可尝试用ALTER TABLE将所有VARCHAR列更改为CHAR列。这样，就会强制MySQL使用固定大小的行。固定大小的行占用的空间略多，但对损坏的容忍度更高。

目前的动态行代码在MySQL AB已使用多年，很少遇到问题，但从本质上看，动态长度行更倾向于出现错误，因此，不妨尝试采用该策略以查看它是否有帮助，这不失为一个好主意。

诊断问题时不要将你的服务器硬件排除在外。有缺陷的硬件能够导致数据损坏。对硬件进行故障诊断与排除操作时，尤其应注意RAM和硬盘驱动器。