事故记录
小 |
小 |
||
(未显示1个用户的1个中间版本) | |||
第1行: | 第1行: | ||
− | |||
− | 2014/08/12 21:00 | + | ==2014/08/12 21:00== |
江西多乐彩、黑龙江11选5 HTTP500都不能出票 | 江西多乐彩、黑龙江11选5 HTTP500都不能出票 | ||
− | 2014/08/14 | + | ==2014/08/14== |
上海-黑龙江老机房内网通讯中断,路由表正常,VPN连接建立,但是内网通讯不通。 | 上海-黑龙江老机房内网通讯中断,路由表正常,VPN连接建立,但是内网通讯不通。 | ||
先后尝试黑龙江使用联通和电信线路连接上海,均不起作用。 | 先后尝试黑龙江使用联通和电信线路连接上海,均不起作用。 | ||
第10行: | 第9行: | ||
怀疑为黑龙江数次切换网络,导致上海防火墙状态异常所致。 | 怀疑为黑龙江数次切换网络,导致上海防火墙状态异常所致。 | ||
− | + | ==2014-06-03== | |
鑫霸高频出票中断 | 鑫霸高频出票中断 | ||
-票机在后台不能操作 | -票机在后台不能操作 | ||
第17行: | 第16行: | ||
-数据库:TICKETDETAIL_TEMP表记录被死锁 | -数据库:TICKETDETAIL_TEMP表记录被死锁 | ||
− | + | ==网易没有拿到若干订单的出票状态== | |
− | + | ||
-收单人工重启了向鑫霸送票的JAVA程序 | -收单人工重启了向鑫霸送票的JAVA程序 | ||
-在数据库表中有锁 | -在数据库表中有锁 | ||
-没有启动相关JOB | -没有启动相关JOB | ||
− | |||
后续:应该让必要的功能性JOB跟随程序同步启动,其他JOB设计成首次启动时进行必要检测, | 后续:应该让必要的功能性JOB跟随程序同步启动,其他JOB设计成首次启动时进行必要检测, | ||
以避免不相关或者周期性调度的JOB有副作用 --比如撤单退款、自动算奖== | 以避免不相关或者周期性调度的JOB有副作用 --比如撤单退款、自动算奖== | ||
+ | |||
− | + | ==世界杯长周期串关出票== | |
-出票客户端和兑奖客户端对日期-场次的解析有问题,给解析到7天以内的相关场次了。 | -出票客户端和兑奖客户端对日期-场次的解析有问题,给解析到7天以内的相关场次了。 | ||
− | + | ==2014-06-06 电信联通的连通性== | |
− | + | ||
下午16:30开始,京东到226的网络接口已经连接不上,从黑龙江机房光纤线路也访问不到。 | 下午16:30开始,京东到226的网络接口已经连接不上,从黑龙江机房光纤线路也访问不到。 | ||
但是到225是通的。防火墙重启释放资源和运行配制检测没有问题。所以怀疑为互联互通问题。 | 但是到225是通的。防火墙重启释放资源和运行配制检测没有问题。所以怀疑为互联互通问题。 | ||
第38行: | 第35行: | ||
3.BGP | 3.BGP | ||
− | + | ==128cai网站数据库问题== | |
2014-06-08 14:00 网站打不开。数据库VIP1漂移到RAC2上,结果rac1的rman脚本无法清理归档日志,导致空间被占满。数据库服务停止。经过检查,rac1重启OS后,raw和oraasm不能自动挂载分区制crs服务不能启动。 | 2014-06-08 14:00 网站打不开。数据库VIP1漂移到RAC2上,结果rac1的rman脚本无法清理归档日志,导致空间被占满。数据库服务停止。经过检查,rac1重启OS后,raw和oraasm不能自动挂载分区制crs服务不能启动。 | ||
− | |||
− | + | ==收单接口排列三和值投注可以S9|1,但是彩票机是直接打不出来的。== | |
+ | 在一代出票客户端可以对应为组选票001直接打,但是鑫霸就不成了。这个要研究下。要么接口不收,要么往鑫霸送票时加以转换。 | ||
+ | |||
+ | ==6月15日早上7:30-8:00鑫霸系统竞彩足球不出票== | ||
解决:鑫霸发布更新的app程序 | 解决:鑫霸发布更新的app程序 | ||
原因:鑫霸程序里有段逻辑,竞彩足球早上7:30-9:00不打票 ->估计是因为竞彩篮球周三周四早上出票所加的逻辑。 | 原因:鑫霸程序里有段逻辑,竞彩足球早上7:30-9:00不打票 ->估计是因为竞彩篮球周三周四早上出票所加的逻辑。 | ||
− | + | ||
+ | ==鑫霸部分票机不出票且无法控制== | ||
app的数据库连接耗尽 | app的数据库连接耗尽 | ||
解决:将app的配置参数中,连接数从110增加到150。 | 解决:将app的配置参数中,连接数从110增加到150。 | ||
归类:程序问题。 | 归类:程序问题。 | ||
+ | |||
− | + | ==订单多的情况下通知回传慢== | |
一分钟回传订单数在600个左右 | 一分钟回传订单数在600个左右 | ||
+ | |||
− | + | == 2014-06-25 9:24-10:00 恒朋系统数据库死锁== | |
14-06-25 09:24:46 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@446399c5 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! | 14-06-25 09:24:46 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@446399c5 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! | ||
14-06-25 09:46:03 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@69904b13 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! | 14-06-25 09:46:03 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@69904b13 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! | ||
第68行: | 第70行: | ||
恒朋数据库死锁。最后重启数据库。重启前端应用。 | 恒朋数据库死锁。最后重启数据库。重启前端应用。 | ||
− | |||
tail -260000 /usr/local/apache-tomcat-6.0.32/logs/catalina.out|grep -i 'warn'|grep 'APPARENT DEADLOCK'|tail -1 | tail -260000 /usr/local/apache-tomcat-6.0.32/logs/catalina.out|grep -i 'warn'|grep 'APPARENT DEADLOCK'|tail -1 | ||
+ | /usr/local/mon/HPlogWatch.sh | ||
− | |||
− | |||
− | + | ==2014-06-26日 鑫霸系统停止出票== | |
原因:TB_DB表空间占满, bigtable datafile设置了最大大小,且空间占满没有发现。 | 原因:TB_DB表空间占满, bigtable datafile设置了最大大小,且空间占满没有发现。 | ||
后续:对表空间使用率监控、检查配置项 | 后续:对表空间使用率监控、检查配置项 | ||
第80行: | 第80行: | ||
− | + | ==2014-07-01 23:00收单的几个web接口故障,重启IIS貌似也无效,最后重启的OS。== | |
原因:可能是后端数据库问题,致IIS接口不响应。 | 原因:可能是后端数据库问题,致IIS接口不响应。 | ||
解决:重启IIS | 解决:重启IIS | ||
第86行: | 第86行: | ||
现已将数据库恢复级别调整为“简单”,日志增量调整为一次64M,应当不会再出现类似问题。 | 现已将数据库恢复级别调整为“简单”,日志增量调整为一次64M,应当不会再出现类似问题。 | ||
− | |||
− | + | ==2014-07-17 晚上19:00,20:00左右== | |
+ | 国家竞彩中心系统故障两次,彩机可登录不能出票。 | ||
− | + | ==2014-07-18 哈尔滨黄威== | |
打电话给中心 说今天都兑不了 国家中心在调试。 | 打电话给中心 说今天都兑不了 国家中心在调试。 | ||
周六006比赛推迟 2014-07-19 18:16 | 周六006比赛推迟 2014-07-19 18:16 | ||
第99行: | 第99行: | ||
目前竞彩已经恢复售票,但是暂时不能兑奖,恢复兑奖时间另行通知。所带来不便敬请彩民谅解。 | 目前竞彩已经恢复售票,但是暂时不能兑奖,恢复兑奖时间另行通知。所带来不便敬请彩民谅解。 | ||
周四060比赛提前 2014-07-15 17:08 | 周四060比赛提前 2014-07-15 17:08 | ||
+ | |||
− | 2014-07-24 9:40-10:30 淞虹路办公室OA电信专线故障, 局端网络故障。 | + | ==2014-07-24 9:40-10:30== |
− | + | 淞虹路办公室OA电信专线故障, 局端网络故障。 | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
+ | ==黑龙江中心票机下载文件问题== | ||
1.网络堵死 | 1.网络堵死 | ||
2.票机正常出票界面受影响 | 2.票机正常出票界面受影响 | ||
第116行: | 第113行: | ||
黑龙江,一会彩票机可能会下载大文件,直接确认就行;但是如果影响高频,立即在群里通 | 黑龙江,一会彩票机可能会下载大文件,直接确认就行;但是如果影响高频,立即在群里通 | ||
− | + | ==福彩3D在各省奖金不一致问题== | |
− | + | ==7月24日OA电信网络局端故障== | |
− | + | ||
− | + | ||
− | 7月24日OA电信网络局端故障 | + | |
如果是收单网络故障咋办。。 | 如果是收单网络故障咋办。。 | ||
− | =2014-08-03= | + | ==2014-08-03== |
caipiaoleyuan.com域名到期欠费 | caipiaoleyuan.com域名到期欠费 | ||
128cai.com 到2015-02 | 128cai.com 到2015-02 | ||
后续:要把登记的手机号和邮箱变更一下,保证及时收到通知。 | 后续:要把登记的手机号和邮箱变更一下,保证及时收到通知。 |
2014年10月4日 (六) 10:02的最后版本
[编辑] 2014/08/12 21:00
江西多乐彩、黑龙江11选5 HTTP500都不能出票
[编辑] 2014/08/14
上海-黑龙江老机房内网通讯中断,路由表正常,VPN连接建立,但是内网通讯不通。 先后尝试黑龙江使用联通和电信线路连接上海,均不起作用。 后重启上海防火墙后,连接恢复正常。 怀疑为黑龙江数次切换网络,导致上海防火墙状态异常所致。
[编辑] 2014-06-03
鑫霸高频出票中断 -票机在后台不能操作 -出票停止 -其他彩种正常 -数据库:TICKETDETAIL_TEMP表记录被死锁
[编辑] 网易没有拿到若干订单的出票状态
-收单人工重启了向鑫霸送票的JAVA程序 -在数据库表中有锁 -没有启动相关JOB 后续:应该让必要的功能性JOB跟随程序同步启动,其他JOB设计成首次启动时进行必要检测,
以避免不相关或者周期性调度的JOB有副作用 --比如撤单退款、自动算奖==
[编辑] 世界杯长周期串关出票
-出票客户端和兑奖客户端对日期-场次的解析有问题,给解析到7天以内的相关场次了。
[编辑] 2014-06-06 电信联通的连通性
下午16:30开始,京东到226的网络接口已经连接不上,从黑龙江机房光纤线路也访问不到。 但是到225是通的。防火墙重启释放资源和运行配制检测没有问题。所以怀疑为互联互通问题。 --要后续跟进:
1. 双线路启用 2. 端口绑定设备 3.BGP
[编辑] 128cai网站数据库问题
2014-06-08 14:00 网站打不开。数据库VIP1漂移到RAC2上,结果rac1的rman脚本无法清理归档日志,导致空间被占满。数据库服务停止。经过检查,rac1重启OS后,raw和oraasm不能自动挂载分区制crs服务不能启动。
[编辑] 收单接口排列三和值投注可以S9|1,但是彩票机是直接打不出来的。
在一代出票客户端可以对应为组选票001直接打,但是鑫霸就不成了。这个要研究下。要么接口不收,要么往鑫霸送票时加以转换。
[编辑] 6月15日早上7:30-8:00鑫霸系统竞彩足球不出票
解决:鑫霸发布更新的app程序 原因:鑫霸程序里有段逻辑,竞彩足球早上7:30-9:00不打票 ->估计是因为竞彩篮球周三周四早上出票所加的逻辑。
[编辑] 鑫霸部分票机不出票且无法控制
app的数据库连接耗尽 解决:将app的配置参数中,连接数从110增加到150。 归类:程序问题。
[编辑] 订单多的情况下通知回传慢
一分钟回传订单数在600个左右
[编辑] 2014-06-25 9:24-10:00 恒朋系统数据库死锁
14-06-25 09:24:46 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@446399c5 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! 14-06-25 09:46:03 [WARN ] com.mchange.v2.async.ThreadPoolAsynchronousRunner - com.mchange.v2.async.ThreadPoolAsynchronousRunner$DeadlockDetector@69904b13 -- APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tasks! 14-06-25 14:01:52 [ERROR] com.hengpeng.agentportal.util.SystemAlarm - 系统错误消息警告:对阵{20140624_2_010}开奖异常,请立即检查{场次:20140624_2_010,类型{1},已经开过奖,存在开奖数据了....} 14-06-25 14:02:52 [ERROR] com.hengpeng.agentportal.service.match.checkwin.MatchCheckWinServiceImpl - 场次:20140624_2_010,类型{1},已经开过奖,存在开奖数据了.... 14-06-25 14:02:52 [ERROR] com.hengpeng.agentportal.util.SystemAlarm - 系统错误消息警告:对阵{20140624_2_010}开奖异常,请立即检查{场次:20140624_2_010,类型{1},已经开过奖,存在开奖数据了....} 14-06-25 14:03:16 [ERROR] com.hengpeng.common.util.HttpRequestProxy - 连接URL{}时遇到网络故障, 异常消息{no protocol: } 14-06-25 14:03:16 [ERROR] com.hengpeng.common.util.HttpRequestProxy - 连接URL{}时遇到网络故障, 异常消息{no protocol: } 14-06-25 14:03:16 [ERROR] com.hengpeng.common.util.HttpRequestProxy - 连接URL{}时遇到网络故障, 异常消息{no protocol: }
14-06-25 14:03:56 [ERROR] com.hengpeng.agentportal.util.StringUtils - 连接URL{http://keno.admin.taobao.org/keno/gateway/uz_gateway.do?service=14}时遇到网络故障, 异常消息{connect timed out}
14-06-25 14:03:56 [ERROR] com.hengpeng.agentportal.util.StringUtils - 连接URL{http://keno.admin.taobao.org/keno/gateway/uz_gateway.do?service=14}时遇到网络故障, 异常消息{connect timed out}
恒朋数据库死锁。最后重启数据库。重启前端应用。 tail -260000 /usr/local/apache-tomcat-6.0.32/logs/catalina.out|grep -i 'warn'|grep 'APPARENT DEADLOCK'|tail -1 /usr/local/mon/HPlogWatch.sh
[编辑] 2014-06-26日 鑫霸系统停止出票
原因:TB_DB表空间占满, bigtable datafile设置了最大大小,且空间占满没有发现。 后续:对表空间使用率监控、检查配置项 后续:监控Oracle alert日志中的相关内容
[编辑] 2014-07-01 23:00收单的几个web接口故障,重启IIS貌似也无效,最后重启的OS。
原因:可能是后端数据库问题,致IIS接口不响应。 解决:重启IIS 后续:已经明确是AppLog库的事务日志文件过大,然后空间增量分配策略为默认的10%所导致。 现已将数据库恢复级别调整为“简单”,日志增量调整为一次64M,应当不会再出现类似问题。
[编辑] 2014-07-17 晚上19:00,20:00左右
国家竞彩中心系统故障两次,彩机可登录不能出票。
[编辑] 2014-07-18 哈尔滨黄威
打电话给中心 说今天都兑不了 国家中心在调试。 周六006比赛推迟 2014-07-19 18:16 周六006 日本职业联赛“柏太阳神 VS 仙台维加泰”开踢时间由原定北京时间2014年07月19日18:00推迟至当日19:00,请广大彩民注意! 竞彩恢复兑奖 2014-07-18 14:34 目前竞彩系统于13:39已经恢复兑奖,请广大彩民关注! 竞彩恢复售票 2014-07-17 21:44 目前竞彩已经恢复售票,但是暂时不能兑奖,恢复兑奖时间另行通知。所带来不便敬请彩民谅解。 周四060比赛提前 2014-07-15 17:08
[编辑] 2014-07-24 9:40-10:30
淞虹路办公室OA电信专线故障, 局端网络故障。
[编辑] 黑龙江中心票机下载文件问题
1.网络堵死 2.票机正常出票界面受影响 2014-07-25 15:22:35 出票-陈开金 2014-07-25 15:22:35 黑龙江,一会彩票机可能会下载大文件,直接确认就行;但是如果影响高频,立即在群里通
[编辑] 福彩3D在各省奖金不一致问题
[编辑] 7月24日OA电信网络局端故障
如果是收单网络故障咋办。。
[编辑] 2014-08-03
caipiaoleyuan.com域名到期欠费 128cai.com 到2015-02 后续:要把登记的手机号和邮箱变更一下,保证及时收到通知。