java按位元組擷取字串

阿新 • • 發佈：2018-12-25

首先分編碼格式，gbk和gb2312公用一套方案，，而u8是另一套。

為什麼呢，因為gbk和gb2312是兩個位元組表示一個漢字，前者兩個位元組的值都是負數，後者第二個數有時為正，比如（琲bei）

那u8呢，是三個位元組表示一個漢字，所以判斷條件比gbk多了一點。

不多說，看程式-----

package 按位元組擷取字串;

import java.io.IOException;

/**
 * 以u8編碼講解按位元組擷取字串
 * 
 * @author nice
 *
 */
public class DemoUtf {

	public static void main(String[] args) throws IOException {
		// 定義一個字串
		String str = "asd我是高手wuha高手hhh";
		// 求字串得長度
		int len = str.getBytes("utf-8").length;
		// 迴圈列印所有在字串長度範圍內的取值輸出結果
		for (int i = 0; i < len; i++) {
			System.out.println("按" + (i + 1) + "位元組擷取：" + currentString(str, i + 1));
		}
	}

	private static String currentString(String str, int len) throws IOException {

		// 先把字串轉換為字元陣列
		byte[] b = str.getBytes("utf-8");

		// 定義一個計數器
		int count = 0;

		// 從最後一個位元組開始做判斷
		for (int i = len - 1; i >= 0; i--) {
			if (b[i] < 0)
				count++;
			else
				break;
		}

		// 在for迴圈裡面判斷完後，根據u8編碼三個位元組組成一個漢字的特點，可以推出指定位元組對應是不是一個完整的漢字，
		// 不是就返回到字串長度減去這個不完整的位元組數

		// 是3的倍數，那就是一個完整的漢字
		if (count % 3 == 0)
			return new String(b, 0, len, "utf-8");

		// 是漢字前面的哪個位元組，就減去一個個位元組
		else if (count % 3 == 1)
			return new String(b, 0, len - 1, "utf-8");

		// 是漢字中間的哪個位元組，就減去兩個位元組
		else
			return new String(b, 0, len - 2, "utf-8");

	}
}

package 按位元組擷取字串;

import java.io.IOException;

/**
 * 以gbk編碼講解。gb2312可能略有不同，前者是兩個負數，後者第二個有時是正數，比如這個琲（bei） u8的話，他是用三個位元組表示的。
 * 比較法和gbk類似(取餘判斷多了一些)
 * 
 * @author nice
 *
 */
public class Demo {

	public static void main(String[] args) throws IOException {

		String str = "ab琲琲cd琲琲";
		// String str = "ab你好cd謝謝";
		int len = str.getBytes("GBK").length;

		for (int i = 0; i < len; i++) {
			System.out.println("擷取" + (i + 1) + "個位元組的結果是" + outStringByByte(str, i + 1));
		}

	}

	private static String outStringByByte(String str, int len) throws IOException {

		byte[] btf = str.getBytes("gbk");
		int count = 0;

		for (int j = len - 1; j >= 0; j--) {
			if (btf[j] < 0)
				count++;
			else
				break;

		}

		if (count % 2 == 0)
			return new String(btf, 0, len, "gbk");
		else
			return new String(btf, 0, len - 1, "gbk");

	}

}

以上，謝謝觀看

java按位元組擷取字串

首先分編碼格式，gbk和gb2312公用一套方案，，而u8是另一套。為什麼呢，因為gbk和gb2312是兩個位元組表示一個漢字，前者兩個位元組的值都是負數，後者第二個數有時為正，比如（琲bei）那u8呢，是三個位元組表示一個漢字，所以判斷條件比gbk多了一點。

Java 按位元組擷取字串

public class MyTest1 { @Test public void test() { String s = "112我似そして懂12非懂2"; s = "てそしてててて

[華為OJ--C++]088-按位元組擷取字串

題目描述：編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。但是要保證漢字不被截半個，如"我ABC"4，應該截為"我AB"，輸入"我ABC漢DEF"6，應該輸出為"我ABC"

如何實現按位元組擷取字串（中文佔2位元組，英文佔1位元組，substring()）？

str = "我a智慧abc" substring(str, 5) 會擷取成為 “我a智慧a” 現在要實現中文佔2位元組，英文佔1位元組，按位元組擷取，輸出應該為"我a智" public class SubString{ /** * */ public

【華為機試108題】按位元組擷取字串

題目描述編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。但是要保證漢字不被截半個，如”我ABC”4，應該截為”我AB”，輸入”我ABC漢DEF”6，應該輸出為”我ABC”

php中按位元組擷取字串方法,(漢字佔兩個位元組，字母佔一個位元組,頁面編碼必須為utf-8)

function esub($str, $length = 0) { if($length < 1){ return $str; } //計算字串長度 $strlen = (strlen($str) + mb_str

Java按位元組數擷取字串

1、擷取字串，若是遇到不完整的中文，則捨棄掉那部分中文資訊碰到可能會擷取漢字的情況，當然是要不能截取出亂碼來，就是不能對整個漢字擷取一半。如"我ABC漢字d"這個字串，擷取５個位元組的時候，應該是"我ABC"，而擷取８個位元組的時候，應該是"我ABC漢"，而不應該是"我A

Java按位元組數擷取字串（防止中文被截成一半）

Web應用程式在瀏覽器中顯示字串時，由於顯示長度的限制，常常需要將字串擷取後再進行顯示。但目前很多流行的語言，如C#、Java內部採用的都是 Unicode 16（UCS2）編碼，在這種編碼中所有的字元都是兩個字元，因此，如果要擷取的字串是中、英文、數字混合的，就會產生問

【每天演算法4】編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。

題目: 編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。但是要保證漢字不被截半個，如“我ABC”4，應該截為“我AB”，輸入“我ABC漢DEF”，6，應該輸出為“我ABC”而不是“我ABC+漢的半個”。 package com.sw.su

按位元組擷取帶有中文字元的字串

題目：編寫一個函式，要求輸入一個字串和位元組數，輸出該位元組個數的子字串。思路：在Java程式語言中，String自帶的substring()方法可以按字元個數擷取指定長度的字串。而題目要求按照位元組進行擷取，因為此時存在中文（佔兩個位元組），所以不能

在Java中按位元組獲得字串長度的兩種方法

本文為原創，如需轉載，請註明作者和出處，謝謝！由於Java是基於Unicode編碼的，因此，一個漢字的長度為1，而不是2。但有時需要以位元組單位獲得字串的長度。例如，“123abc長城”按位元組長度計算是10，而按Unicode計算長度是8。為了獲得10，需要從頭掃描根據

編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。但是要保證漢字不被截半個。

題目：編寫一個擷取字串的函式，輸入為一個字串和位元組數，輸出為按位元組擷取的字串。但是要保證漢字不被截半個，如“我ABC”4，應該截為“我AB”，輸入“我ABC漢DEF”，6，應該輸

JAVA substring 正反擷取字串

Stringstr="abcdefghmf"; System.out.println("擷取前三個字元："+str.substring(0,3)); Syste

Java-使用substring()擷取字串

在我們程式進行開發的時候多多少少都會碰到需要擷取字串的時候，這也是基礎中的基礎，今天就來簡單的講講如何利用substring()方法來擷取我們需要的字串~ 例子： package com.sixmai.subStringTest; public class SubStringD

java 按位元組讀寫二進位制檔案（Base64編碼解碼）

最近在做專案時遇到這樣一個需求：依次讀取本地資料夾裡所有檔案的內容，轉為JSON，傳送到ActiveMQ的訊息佇列, 然後從MQ的訊息佇列上獲取檔案的資訊，依次寫到本地。常見的檔案型別，比如.txt 和.png等檔案的讀寫並不難。但是，我剛才所提到的需求，如果用常規的方法去讀寫，比如按位元組讀取檔案內容

Oracle函式，按分隔符擷取字串 [問題點數

今天因工作需要，寫了一個小函式，按分隔符擷取字串的，分享出來，希望有需要的朋友能用到。功能例項： substrbysep('aaa,bb,ccccc,ddd,vvv',',',3)返回結果 'ccccc'.函式：create or replace function sub

Java按位元組讀寫二進位制檔案

java 按位元組讀寫二進位制檔案（Base64編碼解碼）最近在做專案時遇到這樣一個需求：依次讀取本地資料夾裡所有檔案的內容，轉為JSON，傳送到ActiveMQ的訊息佇列, 然後從MQ的訊息佇列上獲取檔案的資訊，依次寫到本地。常見的檔案型別，比如.txt

java按位元組方式讀檔案

java讀檔案 /* Readfile.java 讀取檔案的內容，並將原樣輸出至螢幕上使用方法：java Readfile 檔名 */ import java.io.*; public class Readfile { public static void main(

正則取得字串的長度並根據位元組擷取字串

/** *根據byte擷取字串 len：擷取長度 */ String.prototype.substrb = function(len){ var str1; if(this.lengthb() <= len){ return t

Java實現按位元組長度擷取字串的方法

Java實現按位元組長度擷取字串的方法個人實踐結果: Web應用程式在瀏覽器中顯示字串時，由於顯示長度的限制，常常需要將字串擷取後再進行顯示。但目前很多流行的語言，如C#、Java內部採用的都是 Unicode 16（UCS2）編碼，在這種編碼中所有的字元都是兩個字

java按位元組擷取字串

相關推薦