1. 程式人生 > >TAF(scan+dataguard) JDBC數據源連接排錯

TAF(scan+dataguard) JDBC數據源連接排錯

his format sele 數據導出 文本框 激活 手動 oid false

環境:RAC+dataguard weblogic 10.3.6
JDBC連數據庫配置:
jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=XX.XX.XX.xx)(PORT=1521))(ADDRESS=(PROTOCOL=TCP)(HOST=XX.XX.xx.xx)(PORT=1521))(LOAD_BALANCE=no)(CONNECT_DATA=(SERVER=DEDICATED)(SERVICE_NAME=TCIS)(FAILOVER_MODE=(TYPE=SELECT)(METHOD=BASIC)(RETRIES=180)(DELAY=5))))

起因:
客戶搬機房,搬完後,測試一切正常,離開現場後過了幾天說連接數據庫不正常,經常報數據庫只讀或正處於打開狀態;
技術分享圖片
[default][2018-01-07 10:28:57,246][ERROR][com.primeton.das.entity.impl.hibernate.util.JDBCExceptionReporter:77] ORA-16000: 打開數據庫以進行只讀訪問
測試scan地址OK,ping ok;網絡工程師說了,網絡沒問題;
排查:
根據錯誤,很明顯連到備庫了;至於為啥連到備庫(根據字符串,主庫只有連不上,才會連備庫,而檢查主庫是可用的),那就奇怪了。
1 問題的不可再現性,決定了
a)你要麽用人幹這活,一天到晚守著那,等終於逮著的那一刻;

b)寫個程序一天到晚守著那,去抓個日誌;看一看,或許程序誠不欺你;
最近運氣不好,接連碰著各種炸庫,選B吧,開始造程序:
語言:JAVA JDK1.6即可
編輯器:記事本++(很low的,幹這事用eclipse不敢);
代碼:最基本的JAVA類庫,加ojdbc6.jar(記得用11g以後的)
想法:要有個程序不停的連數據庫,然後連得上寫下時間,連的是哪個實例,連不上也得寫下日誌,當時的時間,最好帶上網絡的Ping,懷疑網絡,但人家說沒問題,你也不能死賴是吧;
編碼:
用到的包:

import javax.swing. ;
import java.awt.
;
import java.awt.event.;
import java.sql.

;
import java.util.;
import java.io.
;
import java.net.InetAddress;
import java.text.SimpleDateFormat;

定義一個參數文件,要有IP,要有超時時限,要有日誌文件輸出地址;
tbname.properties:

//定義導出的csv文件,註意要手動建立目錄
pname=test.csv
//定義SCAN連接地址
ipaddr=XX.XX.XX.XX
timeout=3000

讀取辦法:

try{
 Properties ps=new Properties();
 FileInputStream fis= new FileInputStream("tbname.properties");
 ps.load(fis);
 fis.close();
 pathname=ps.getProperty("pname");
 ipaddress=ps.getProperty("ipaddr");
 timeOut= Integer.parseInt(ps.getProperty("timeout"));
 System.out.println("寫入路徑"+pathname+"\t"+"連接SCAN地址:"+ipaddress);
 }catch (IOException e) {
 System.out.println(e.getLocalizedMessage());

}

定義數據庫連接配置文件:oracle.properties,要有連接字符串,要有用戶名/密碼

db_url=jdbc:oracle:thin:@(description=(address_list= (address=(host=xx.xx.xx.xx) (protocol=tcp)(port=1521)) (load_balance=NO)(failover=yes))(connect_data=(service_name=orcl)))
#db_url=jdbc:jtds:sqlserver://127.0.0.1:1433/ccxe
username=test
password=test

相關方法:

public Connection getConnection() throws ClassNotFoundException,IOException,
SQLException {
Properties ps=new Properties();
FileInputStream fis= new FileInputStream("oracle.properties");
ps.load(fis);
fis.close();
String url=ps.getProperty("db_url");
String user=ps.getProperty("username");
String pwd=ps.getProperty("password");
String driver = "oracle.jdbc.driver.OracleDriver";
Class.forName(driver);
return DriverManager.getConnection(url, user, pwd);
}

自定義的SQL語句,我這裏比較惡心做了圖形化,文本框:

public void createUI(){
JFrame jf=new JFrame("數據導出工具csv");
Container c=jf.getContentPane();
c.setLayout(new FlowLayout(FlowLayout.LEFT,30,30));
//定義圖標
ImageIcon ii=new ImageIcon("main.gif");
Image image=ii.getImage();
JPanel panel =new JPanel();
jf.setIconImage(image);
textAreaOutput = new JTextArea("select instance_name from v$instance", 6, 10);
textAreaOutput.setSelectedTextColor(Color.RED);
textAreaOutput.setLineWrap(true); //激活自動換行功能
textAreaOutput.setWrapStyleWord(true); // 激活斷行不斷字功能
jf.setExtendedState(JFrame.ICONIFIED);
//選擇數據庫類型
ButtonGroup bg=new ButtonGroup();
JRadioButton sqlbutton=new JRadioButton("Sqlserver");
JRadioButton orabutton=new JRadioButton("oracle");
bg.add(sqlbutton);
bg.add(orabutton);
button=new JButton("測試");
JButton prebutton=new JButton("預覽");
button.addActionListener(this);
sqlbutton.addActionListener(this);
orabutton.addActionListener(this);
prebutton.addActionListener(this);
//控制窗口初始化大小
jf.setSize(600,200);
//jf.setLocation(400,200);
c.add(textAreaOutput);
c.add(sqlbutton);
c.add(orabutton);
c.add(button);
c.add(prebutton);
jf.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
jf.setVisible(true);
}

定義ping功能,用最簡單的:

public static boolean ping(String ipAddress,int timeOut) throws Exception {
// 當返回值是true時,說明host是可用的,false則不可。
boolean status = InetAddress.getByName(ipAddress).isReachable(timeOut);
return status;
}

這個雖簡單,但容易有bug,已知的如下:
JDK-5061568 : java.net.InetAddress.isReachable() kills Windows networking文章說這個bug會一直重現(This bug can be reproduced always.)
http://bugs.java.com/view_bug.do?bug_id=5061568
JDK-5061571 : InetAddress#isReachable does not send PINGs but only TCP echos
http://bugs.java.com/bugdatabase/view_bug.do?bug_id=5061571
JDK-6595834 : InetAddress.isReachable is not thread safe when using ICMP ECHO.
http://bugs.java.com/view_bug.do?bug_id=6595834
但我這裏用著挺好,就略過吧;
打印錯誤日誌,這裏需要註意下的就是這個date,在java.sql,java.util裏都有,如果不指明,會報錯:

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
OutputStreamWriter err_log=new OutputStreamWriter(new         FileOutputStream("err.log",true),"GBK");
java.util.Date s_date= new java.util.Date();
err_log.write(df.format(s_date)+"\t"+e.getMessage());
err_log.flush();
err_log.close();
剩下就是javac xxxx.java,
set classpath=%classpath%;.;.\ojdbc6.jar;.\sqljdbc4.jar;
java CsvExportTable

然後
技術分享圖片
界面比較醜,能用即可;點個測試就開始連了,把正常的日誌打到一個文件,錯誤的打err.log裏;

讓程序跑了一天,拿出日誌一看,真有連不上的時候;連到備庫去了,並且連得上的時候只連第一個節點;
而程序ping主機真是通的,看來維護人員確實沒忽悠,各種檢查數據庫,沒發現啥有價值的,繼續打開程序跑著,讓同事看了;一會發現確實有時聯不上了,趕緊手動測試,ping 主機通,用vip地址通,telnet  scan主機 1521,不通,telnet vip 1521通,有鬼了,聯系網絡人員,表示很無趣,說沒有限制.

理一下思路:
1 數據庫SCAN地址時連得上,時連不上;日誌上證明數據庫是好的;問題還是出在IP上;
2 網絡所處同一網斷,確實沒有做任何限制,一再證明沒有挖坑;
3 ping的結果表示,IP連接確實沒有斷過;

綜合來看,和一個網絡現象很象,ARP欺騙。
繼續測試:
當連不上,ping 通,telnet scan port 發現居然不通,而連得上時,telnet通的,
arp -d
檢查arp,發現兩次的MAC地址不一樣;難道真是ARP欺騙,很興奮哈,一個郵件捅到網絡室,問題似乎解決了;
但是,但是,管理員查了下MAC地址,此MAC地址是第二節點的-_-,也就是說兩個主機有同樣的MAC地址,oracle把我們都坑了; 
檢查兩個主機的IP,確實都有SCAN地址,當場直接無語,上MOS吧,這種問題。。。。。。。
關鍵字:duplicate scan vip on two node搜索,還真有:
Duplicate SCAN VIP after recovering public LAN problem on Windows 2012 R2 (文檔 ID 2030432.1)
臨時解決辦法:
netsh interface ip delete address name="" addr=xx.xx.xx.xx
結論:奇葩年年有,今年特別多;

TAF(scan+dataguard) JDBC數據源連接排錯