Unicode Manipulation

Unicode Manipulation — функции оперирующие на Unicode символах и UTF-8 строках.

Краткое описание

#include <glib.h> typedef gunichar; typedef gunichar2; gboolean g_unichar_validate (gunichar ch); gboolean g_unichar_isalnum (gunichar c); gboolean g_unichar_isalpha (gunichar c); gboolean g_unichar_iscntrl (gunichar c); gboolean g_unichar_isdigit (gunichar c); gboolean g_unichar_isgraph (gunichar c); gboolean g_unichar_islower (gunichar c); gboolean g_unichar_isprint (gunichar c); gboolean g_unichar_ispunct (gunichar c); gboolean g_unichar_isspace (gunichar c); gboolean g_unichar_isupper (gunichar c); gboolean g_unichar_isxdigit (gunichar c); gboolean g_unichar_istitle (gunichar c); gboolean g_unichar_isdefined (gunichar c); gboolean g_unichar_iswide (gunichar c); gboolean g_unichar_iswide_cjk (gunichar c); gunichar g_unichar_toupper (gunichar c); gunichar g_unichar_tolower (gunichar c); gunichar g_unichar_totitle (gunichar c); gint g_unichar_digit_value (gunichar c); gint g_unichar_xdigit_value (gunichar c); enum GUnicodeType; GUnicodeType g_unichar_type (gunichar c); enum GUnicodeBreakType; GUnicodeBreakType g_unichar_break_type (gunichar c); void g_unicode_canonical_ordering (gunichar *string, gsize len); gunichar* g_unicode_canonical_decomposition (gunichar ch, gsize *result_len); gboolean g_unichar_get_mirror_char (gunichar ch, gunichar *mirrored_ch); enum GUnicodeScript; GUnicodeScript g_unichar_get_script (gunichar ch); #define g_utf8_next_char (p) gunichar g_utf8_get_char (const gchar *p); gunichar g_utf8_get_char_validated (const gchar *p, gssize max_len); gchar* g_utf8_offset_to_pointer (const gchar *str, glong offset); glong g_utf8_pointer_to_offset (const gchar *str, const gchar *pos); gchar* g_utf8_prev_char (const gchar *p); gchar* g_utf8_find_next_char (const gchar *p, const gchar *end); gchar* g_utf8_find_prev_char (const gchar *str, const gchar *p); glong g_utf8_strlen (const gchar *p, gssize max); gchar* g_utf8_strncpy (gchar *dest, const gchar *src, gsize n); gchar* g_utf8_strchr (const gchar *p, gssize len, gunichar c); gchar* g_utf8_strrchr (const gchar *p, gssize len, gunichar c); gchar* g_utf8_strreverse (const gchar *str, gssize len); gboolean g_utf8_validate (const gchar *str, gssize max_len, const gchar **end); gchar* g_utf8_strup (const gchar *str, gssize len); gchar* g_utf8_strdown (const gchar *str, gssize len); gchar* g_utf8_casefold (const gchar *str, gssize len); gchar* g_utf8_normalize (const gchar *str, gssize len, GNormalizeMode mode); enum GNormalizeMode; gint g_utf8_collate (const gchar *str1, const gchar *str2); gchar* g_utf8_collate_key (const gchar *str, gssize len); gchar* g_utf8_collate_key_for_filename (const gchar *str, gssize len); gunichar2* g_utf8_to_utf16 (const gchar *str, glong len, glong *items_read, glong *items_written, GError **error); gunichar* g_utf8_to_ucs4 (const gchar *str, glong len, glong *items_read, glong *items_written, GError **error); gunichar* g_utf8_to_ucs4_fast (const gchar *str, glong len, glong *items_written); gunichar* g_utf16_to_ucs4 (const gunichar2 *str, glong len, glong *items_read, glong *items_written, GError **error); gchar* g_utf16_to_utf8 (const gunichar2 *str, glong len, glong *items_read, glong *items_written, GError **error); gunichar2* g_ucs4_to_utf16 (const gunichar *str, glong len, glong *items_read, glong *items_written, GError **error); gchar* g_ucs4_to_utf8 (const gunichar *str, glong len, glong *items_read, glong *items_written, GError **error); gint g_unichar_to_utf8 (gunichar c, gchar *outbuf);

Описание

Эта секция описывает множество функций для работы с Unicode символами и строками. Они аналогичны традиционной классификации символа ctype.h и функциям приведения и преобразования, UTF-8 аналогичны таким же строковым функциям, функции выполнения нормализации, преобразование регистра и сопоставление в UTF-8 строках и наконец функции для преобразования между UTF-8, UTF-16 и UCS-4 кодировками Unicode.

Реализация Unicode функций в GLib базируется на таблице данных символов Unicode (Unicode Character Data tables), которая доступна из www.unicode.org. GLib 2.8 поддерживает Unicode 4.0, GLib 2.10 поддерживает Unicode 4.1, GLib 2.12 поддерживает Unicode 5.0.

Детали

gunichar

typedef guint32 gunichar;

Тип который может содержать любой код символа UCS-4.


gunichar2

typedef guint16 gunichar2;

Тип который может содержать любой указатель кода UTF-16[3].


g_unichar_validate ()

gboolean g_unichar_validate (gunichar ch);

Проверяет является ли ch допустимым символом Unicode. Любые возможные целочисленные значения ch не будут допустимы. 0 рассматривается как правильный символ, хотя обычно он является концом строки.

ch : Unicode символ
Возвращает : TRUE если ch является допустимым Unicode символом.

g_unichar_isalnum ()

gboolean g_unichar_isalnum (gunichar c);

Определяет является ли символ алфавитно-цифровым. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является алфавитно-цифровым символом

g_unichar_isalpha ()

gboolean g_unichar_isalpha (gunichar c);

Определяет является ли символ алфавитным (то есть буквой). Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является алфавитным символом

g_unichar_iscntrl ()

gboolean g_unichar_iscntrl (gunichar c);

Определяет является ли символ управляющим символом. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является управляющим символом

g_unichar_isdigit ()

gboolean g_unichar_isdigit (gunichar c);

Определяет является ли символ числовым (то есть цифрой). Это распространяется на ASCII 0-9 а так же цифры в других языках/сценариях. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является цифрой

g_unichar_isgraph ()

gboolean g_unichar_isgraph (gunichar c);

Определяет является ли символ печатным и не пробелом (возвращает FALSE для управляющих символов, символов форматирования, и пробелов). Похожа на g_unichar_isprint(), но возвращает TRUE для пробелов. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является печатным символом отличающимся от пробела

g_unichar_islower ()

gboolean g_unichar_islower (gunichar c);

Определяет является ли символ буквой в нижнем регистре. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является буквой нижнего регистра

g_unichar_isprint ()

gboolean g_unichar_isprint (gunichar c);

Определяет является ли символ печатным. В отличие от g_unichar_isgraph(), возвращает TRUE для пробелов. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является печатным

g_unichar_ispunct ()

gboolean g_unichar_ispunct (gunichar c);

Определяет является ли символ символом пунктуации или знаком. Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

c : Unicode символ
Возвращает : TRUE если c является символом пунктуации или знаком

g_unichar_isspace ()

gboolean g_unichar_isspace (gunichar c);

Определяет является ли символ пробелом, табуляцией, или строковым разделителем (перевод строки, возврат каретки, и т.д.). Получая некоторый UTF-8 текст, определяет значение символа с помощью g_utf8_get_char().

(Помните: не нужно использовать это для прерывания слова; вы должны использовать Pango или эквивалент для получения правильного прерывания слова, алгоритм довольно сложен.)

c : Unicode символ
Возвращает : TRUE если c является символом пробела

g_unichar_isupper ()

gboolean g_unichar_isupper (gunichar c);

Определяет является ли символ символом верхнего регистра.

c : Unicode символ
Возвращает : TRUE если c является символом верхнего регистра

g_unichar_isxdigit ()

gboolean g_unichar_isxdigit (gunichar c);

Определяет является ли символ шестнадцатеричным числом.

c : Unicode символ.
Возвращает : TRUE если символ является шестнадцатеричным числом

g_unichar_istitle ()

gboolean g_unichar_istitle (gunichar c);

Определяет является ли символ символом заголовочного регистра (titlecase). Некоторые символы в Unicode которые являются составными, такие как DZ диаграф имеют три варианта регистра вместо двух. Форма заголовочного регистра (titlecase) используется в начале слова, где только первый символ напечатан только прописными буквами. Форма заголовочного регистра (titlecase) из DZ диаграфа это U+01F2 ЛАТИНСКАЯ ПРОПИСНАЯ БУКВА D СО СТРОЧНОЙ БУКВОЙ Z.

c : Unicode символ
Возвращает : TRUE если символ в заголовочном регистре (titlecase)

g_unichar_isdefined ()

gboolean g_unichar_isdefined (gunichar c);

Определяет является ли полученный символ назначенным в Unicode стандарте.

c : Unicode символ
Возвращает : TRUE если символ имеет назначенное значение

g_unichar_iswide ()

gboolean g_unichar_iswide (gunichar c);

Определяет если символ обычно отрисовывается в ячейке двойной ширины.

c : Unicode символ
Возвращает : TRUE если символ широкий

g_unichar_iswide_cjk ()

gboolean g_unichar_iswide_cjk (gunichar c);

Определяет если символ обычно отрисовывается в ячейке двойной ширины устаревшей East Asian локали. Если символ шире согласно g_unichar_iswide(), то он также сообщает ширину этой функции, но обратное не обязательно верно. Смотрите Unicode Standard Annex 11 для детального изучения.

c : Unicode символ
Возвращает : TRUE если символ шириной устаревшей East Asian локали

Начиная с версии 2.12


g_unichar_toupper ()

gunichar g_unichar_toupper (gunichar c);

Конвертирует символ в верхний регистр.

c : Unicode символ
Возвращает : результат конвертации c в верхний регистр. Если c не является символом нижнего регистра или заголовочного регистра (titlecase), или не имеет эквивалента в верхнем регистре, c возвращается без изменений.

g_unichar_tolower ()

gunichar g_unichar_tolower (gunichar c);

Конвертирует символ в нижний регистр.

c : Unicode символ.
Возвращает : результат конвертации c в нижний регистр. Если c не является символом верхнего регистра или заголовочного регистра (titlecase), или не имеет эквивалента в нижнем регистре, то c возвращается без изменений.

g_unichar_totitle ()

gunichar g_unichar_totitle (gunichar c);

Конвертирует символ в заголовочный регистр.

c : Unicode символ
Возвращает : результат конвертации c в заголовочный регистр. Если c не является символом верхнего регистра или символом нижнего регистра, то c возвращается без изменений.

g_unichar_digit_value ()

gint g_unichar_digit_value (gunichar c);

Определяет числовое значение символа как десятичное число.

c : Unicode символ
Возвращает : Если c десятичное число (согласно g_unichar_isdigit()), его числовое значение. Иначе, -1.

g_unichar_xdigit_value ()

gint g_unichar_xdigit_value (gunichar c);

Определяет числовое значение символа как шестнадцатеричное число.

c : Unicode символ
Возвращает : Если c это шестнадцатеричное число (согласно g_unichar_isxdigit()), его цифровое значение. Иначе, -1.

enum GUnicodeType

typedef enum { G_UNICODE_CONTROL, G_UNICODE_FORMAT, G_UNICODE_UNASSIGNED, G_UNICODE_PRIVATE_USE, G_UNICODE_SURROGATE, G_UNICODE_LOWERCASE_LETTER, G_UNICODE_MODIFIER_LETTER, G_UNICODE_OTHER_LETTER, G_UNICODE_TITLECASE_LETTER, G_UNICODE_UPPERCASE_LETTER, G_UNICODE_COMBINING_MARK, G_UNICODE_ENCLOSING_MARK, G_UNICODE_NON_SPACING_MARK, G_UNICODE_DECIMAL_NUMBER, G_UNICODE_LETTER_NUMBER, G_UNICODE_OTHER_NUMBER, G_UNICODE_CONNECT_PUNCTUATION, G_UNICODE_DASH_PUNCTUATION, G_UNICODE_CLOSE_PUNCTUATION, G_UNICODE_FINAL_PUNCTUATION, G_UNICODE_INITIAL_PUNCTUATION, G_UNICODE_OTHER_PUNCTUATION, G_UNICODE_OPEN_PUNCTUATION, G_UNICODE_CURRENCY_SYMBOL, G_UNICODE_MODIFIER_SYMBOL, G_UNICODE_MATH_SYMBOL, G_UNICODE_OTHER_SYMBOL, G_UNICODE_LINE_SEPARATOR, G_UNICODE_PARAGRAPH_SEPARATOR, G_UNICODE_SPACE_SEPARATOR } GUnicodeType;

Это возможная классификация символа из спецификации Unicode. Смотрите http://www.unicode.org/Public/UNIDATA/UnicodeData.html.

G_UNICODE_CONTROL Основная категория "Other, Control" (Cc)
G_UNICODE_FORMAT Основная категория "Other, Format" (Cf)
G_UNICODE_UNASSIGNED Основная категория "Other, Not Assigned" (Cn)
G_UNICODE_PRIVATE_USE Основная категория "Other, Private Use" (Co)
G_UNICODE_SURROGATE Основная категория "Other, Surrogate" (Cs)
G_UNICODE_LOWERCASE_LETTER Основная категория "Letter, Lowercase" (Ll)
G_UNICODE_MODIFIER_LETTER Основная категория "Letter, Modifier" (Lm)
G_UNICODE_OTHER_LETTER Основная категория "Letter, Other" (Lo)
G_UNICODE_TITLECASE_LETTER Основная категория "Letter, Titlecase" (Lt)
G_UNICODE_UPPERCASE_LETTER Основная категория "Letter, Uppercase" (Lu)
G_UNICODE_COMBINING_MARK Основная категория "Mark, Spacing Combining" (Mc)
G_UNICODE_ENCLOSING_MARK Основная категория "Mark, Enclosing" (Me)
G_UNICODE_NON_SPACING_MARK Основная категория "Mark, Nonspacing" (Mn)
G_UNICODE_DECIMAL_NUMBER Основная категория "Number, Decimal Digit" (Nd)
G_UNICODE_LETTER_NUMBER Основная категория "Number, Letter" (Nl)
G_UNICODE_OTHER_NUMBER Основная категория "Number, Other" (No)
G_UNICODE_CONNECT_PUNCTUATION Основная категория "Punctuation, Connector" (Pc)
G_UNICODE_DASH_PUNCTUATION Основная категория "Punctuation, Dash" (Pd)
G_UNICODE_CLOSE_PUNCTUATION Основная категория "Punctuation, Close" (Pe)
G_UNICODE_FINAL_PUNCTUATION Основная категория "Punctuation, Final quote" (Pf)
G_UNICODE_INITIAL_PUNCTUATION Основная категория "Punctuation, Initial quote" (Pi)
G_UNICODE_OTHER_PUNCTUATION Основная категория "Punctuation, Other" (Po)
G_UNICODE_OPEN_PUNCTUATION Основная категория "Punctuation, Open" (Ps)
G_UNICODE_CURRENCY_SYMBOL Основная категория "Symbol, Currency" (Sc)
G_UNICODE_MODIFIER_SYMBOL Основная категория "Symbol, Modifier" (Sk)
G_UNICODE_MATH_SYMBOL Основная категория "Symbol, Math" (Sm)
G_UNICODE_OTHER_SYMBOL Основная категория "Symbol, Other" (So)
G_UNICODE_LINE_SEPARATOR Основная категория "Separator, Line" (Zl)
G_UNICODE_PARAGRAPH_SEPARATOR Основная категория "Separator, Paragraph" (Zp)
G_UNICODE_SPACE_SEPARATOR Основная категория "Separator, Space" (Zs)

g_unichar_type ()

GUnicodeType g_unichar_type (gunichar c);

Класифицирует Unicode символ по типу.

c : Unicode символ
Возвращает : тип символа.

enum GUnicodeBreakType

typedef enum { G_UNICODE_BREAK_MANDATORY, G_UNICODE_BREAK_CARRIAGE_RETURN, G_UNICODE_BREAK_LINE_FEED, G_UNICODE_BREAK_COMBINING_MARK, G_UNICODE_BREAK_SURROGATE, G_UNICODE_BREAK_ZERO_WIDTH_SPACE, G_UNICODE_BREAK_INSEPARABLE, G_UNICODE_BREAK_NON_BREAKING_GLUE, G_UNICODE_BREAK_CONTINGENT, G_UNICODE_BREAK_SPACE, G_UNICODE_BREAK_AFTER, G_UNICODE_BREAK_BEFORE, G_UNICODE_BREAK_BEFORE_AND_AFTER, G_UNICODE_BREAK_HYPHEN, G_UNICODE_BREAK_NON_STARTER, G_UNICODE_BREAK_OPEN_PUNCTUATION, G_UNICODE_BREAK_CLOSE_PUNCTUATION, G_UNICODE_BREAK_QUOTATION, G_UNICODE_BREAK_EXCLAMATION, G_UNICODE_BREAK_IDEOGRAPHIC, G_UNICODE_BREAK_NUMERIC, G_UNICODE_BREAK_INFIX_SEPARATOR, G_UNICODE_BREAK_SYMBOL, G_UNICODE_BREAK_ALPHABETIC, G_UNICODE_BREAK_PREFIX, G_UNICODE_BREAK_POSTFIX, G_UNICODE_BREAK_COMPLEX_CONTEXT, G_UNICODE_BREAK_AMBIGUOUS, G_UNICODE_BREAK_UNKNOWN, G_UNICODE_BREAK_NEXT_LINE, G_UNICODE_BREAK_WORD_JOINER, G_UNICODE_BREAK_HANGUL_L_JAMO, G_UNICODE_BREAK_HANGUL_V_JAMO, G_UNICODE_BREAK_HANGUL_T_JAMO, G_UNICODE_BREAK_HANGUL_LV_SYLLABLE, G_UNICODE_BREAK_HANGUL_LVT_SYLLABLE } GUnicodeBreakType;

Это классификация возможных прерываний строк. Пять типов корейской азбуки (Hangul) добавлены в Unicode 4.1, поэтому были введены в GLib 2.10. Помните что новые типы могут быть добавлены в будущем. Приложения должны быть готовы обрабатывать не известные значения. Они могут расцениваться как G_UNICODE_BREAK_UNKNOWN. Смотрите http://www.unicode.org/unicode/reports/tr14/.


g_unichar_break_type ()

GUnicodeBreakType g_unichar_break_type (gunichar c);

Определяет тип прерывания c. c должен быть Unicode символом (для извлечения символа из текста в кодировке UTF-8, используйте g_utf8_get_char()). Тип прерывания используется для поиска конца слова и строки ("границы текста"), Pango реализует алгоритмы разрешения границ Unicode и обычно вы должны использовать функции такие как pango_break() вместо того, чтобы беспокоится о типе границы самостоятельно.

c : Unicode символ
Возвращает : тип границы c

g_unicode_canonical_ordering ()

void g_unicode_canonical_ordering (gunichar *string, gsize len);

Расчитывает канонический порядок строки на месте. Это перераспределяет разложение символов в строке согласно их классам объединения. Смотрите руководство Unicode для большей информации.

string : строка в кодировке UCS-4.
len : максимальная длина строки string для использования.

g_unicode_canonical_decomposition ()

gunichar* g_unicode_canonical_decomposition (gunichar ch, gsize *result_len);

Расчитывает каноническую декомпозицию символа Unicode.

ch : Unicode символ.
result_len : расположение для хранения длины возвращаемого значения.
Возвращает : вновь распределённая строка Unicode символов. result_len устанавливается в результирующую длину строки.

g_unichar_get_mirror_char ()

gboolean g_unichar_get_mirror_char (gunichar ch, gunichar *mirrored_ch);

В Unicode, некоторые символы являются зеркальными (mirrored). Это значит что их изображение является отражённым горизонтально в тексте который расположен с право на лево. Например, "(" стал бы зеркальным отражением, ")", в тексте с обратной ориентацией (right-to-left).

Если ch имеет зеркальное свойство Unicode и есть другой символ unicode который обычно имеет глиф являющийся зеркальным изображением ch's глифа и параметр mirrored_ch установлен, он помещает символ в адрес указанный mirrored_ch. Иначе размещается оригинальный символ.

ch : Unicode символ
mirrored_ch : расположение для хранения отражённого символа
Возвращает : TRUE если ch имеет зеркальный символ, иначе FALSE

Начиная с версии 2.4


enum GUnicodeScript

typedef enum { /* ISO 15924 code */ G_UNICODE_SCRIPT_INVALID_CODE = -1, G_UNICODE_SCRIPT_COMMON = 0, /* Zyyy */ G_UNICODE_SCRIPT_INHERITED, /* Qaai */ G_UNICODE_SCRIPT_ARABIC, /* Arab */ G_UNICODE_SCRIPT_ARMENIAN, /* Armn */ G_UNICODE_SCRIPT_BENGALI, /* Beng */ G_UNICODE_SCRIPT_BOPOMOFO, /* Bopo */ G_UNICODE_SCRIPT_CHEROKEE, /* Cher */ G_UNICODE_SCRIPT_COPTIC, /* Qaac */ G_UNICODE_SCRIPT_CYRILLIC, /* Cyrl (Cyrs) */ G_UNICODE_SCRIPT_DESERET, /* Dsrt */ G_UNICODE_SCRIPT_DEVANAGARI, /* Deva */ G_UNICODE_SCRIPT_ETHIOPIC, /* Ethi */ G_UNICODE_SCRIPT_GEORGIAN, /* Geor (Geon, Geoa) */ G_UNICODE_SCRIPT_GOTHIC, /* Goth */ G_UNICODE_SCRIPT_GREEK, /* Grek */ G_UNICODE_SCRIPT_GUJARATI, /* Gujr */ G_UNICODE_SCRIPT_GURMUKHI, /* Guru */ G_UNICODE_SCRIPT_HAN, /* Hani */ G_UNICODE_SCRIPT_HANGUL, /* Hang */ G_UNICODE_SCRIPT_HEBREW, /* Hebr */ G_UNICODE_SCRIPT_HIRAGANA, /* Hira */ G_UNICODE_SCRIPT_KANNADA, /* Knda */ G_UNICODE_SCRIPT_KATAKANA, /* Kana */ G_UNICODE_SCRIPT_KHMER, /* Khmr */ G_UNICODE_SCRIPT_LAO, /* Laoo */ G_UNICODE_SCRIPT_LATIN, /* Latn (Latf, Latg) */ G_UNICODE_SCRIPT_MALAYALAM, /* Mlym */ G_UNICODE_SCRIPT_MONGOLIAN, /* Mong */ G_UNICODE_SCRIPT_MYANMAR, /* Mymr */ G_UNICODE_SCRIPT_OGHAM, /* Ogam */ G_UNICODE_SCRIPT_OLD_ITALIC, /* Ital */ G_UNICODE_SCRIPT_ORIYA, /* Orya */ G_UNICODE_SCRIPT_RUNIC, /* Runr */ G_UNICODE_SCRIPT_SINHALA, /* Sinh */ G_UNICODE_SCRIPT_SYRIAC, /* Syrc (Syrj, Syrn, Syre) */ G_UNICODE_SCRIPT_TAMIL, /* Taml */ G_UNICODE_SCRIPT_TELUGU, /* Telu */ G_UNICODE_SCRIPT_THAANA, /* Thaa */ G_UNICODE_SCRIPT_THAI, /* Thai */ G_UNICODE_SCRIPT_TIBETAN, /* Tibt */ G_UNICODE_SCRIPT_CANADIAN_ABORIGINAL, /* Cans */ G_UNICODE_SCRIPT_YI, /* Yiii */ G_UNICODE_SCRIPT_TAGALOG, /* Tglg */ G_UNICODE_SCRIPT_HANUNOO, /* Hano */ G_UNICODE_SCRIPT_BUHID, /* Buhd */ G_UNICODE_SCRIPT_TAGBANWA, /* Tagb */ /* Unicode-4.0 additions */ G_UNICODE_SCRIPT_BRAILLE, /* Brai */ G_UNICODE_SCRIPT_CYPRIOT, /* Cprt */ G_UNICODE_SCRIPT_LIMBU, /* Limb */ G_UNICODE_SCRIPT_OSMANYA, /* Osma */ G_UNICODE_SCRIPT_SHAVIAN, /* Shaw */ G_UNICODE_SCRIPT_LINEAR_B, /* Linb */ G_UNICODE_SCRIPT_TAI_LE, /* Tale */ G_UNICODE_SCRIPT_UGARITIC, /* Ugar */ /* Unicode-4.1 additions */ G_UNICODE_SCRIPT_NEW_TAI_LUE, /* Talu */ G_UNICODE_SCRIPT_BUGINESE, /* Bugi */ G_UNICODE_SCRIPT_GLAGOLITIC, /* Glag */ G_UNICODE_SCRIPT_TIFINAGH, /* Tfng */ G_UNICODE_SCRIPT_SYLOTI_NAGRI, /* Sylo */ G_UNICODE_SCRIPT_OLD_PERSIAN, /* Xpeo */ G_UNICODE_SCRIPT_KHAROSHTHI, /* Khar */ /* Unicode-5.0 additions */ G_UNICODE_SCRIPT_UNKNOWN, /* Zzzz */ G_UNICODE_SCRIPT_BALINESE, /* Bali */ G_UNICODE_SCRIPT_CUNEIFORM, /* Xsux */ G_UNICODE_SCRIPT_PHOENICIAN, /* Phnx */ G_UNICODE_SCRIPT_PHAGS_PA, /* Phag */ G_UNICODE_SCRIPT_NKO /* Nkoo */ } GUnicodeScript;

Перечисление GUnicodeScript идентифицирует различные системы записи. Значения соответствуют именам определённым в стандарте Unicode. Перечисление было добавлено в GLib 2.14. Помните что новые типы могут быть добавлены в будущем. Приложения должны уметь обрабатывать неизвестные значения. Смотрите Unicode Standard Annex 24: Script names.

G_UNICODE_SCRIPT_INVALID_CODE значение никогда не возвращаемое из g_unichar_get_script()
G_UNICODE_SCRIPT_COMMON символ используемый в множестве различных писменностях
G_UNICODE_SCRIPT_INHERITED маркер глифа который берёт его письменность из основного глифа к которому он прикреплён
G_UNICODE_SCRIPT_ARABIC Арабский язык
G_UNICODE_SCRIPT_ARMENIAN Армянский язык
G_UNICODE_SCRIPT_BENGALI Бенгальский язык
G_UNICODE_SCRIPT_BOPOMOFO Китайский (Bopomofo)
G_UNICODE_SCRIPT_CHEROKEE Cherokee
G_UNICODE_SCRIPT_COPTIC Коптский язык (Coptic)
G_UNICODE_SCRIPT_CYRILLIC Кириллица (Cyrillic)
G_UNICODE_SCRIPT_DESERET Deseret
G_UNICODE_SCRIPT_DEVANAGARI Деванагари (Devanagari)
G_UNICODE_SCRIPT_ETHIOPIC Древнеэфиопский (Ethiopic)
G_UNICODE_SCRIPT_GEORGIAN Грузинский (Georgian)
G_UNICODE_SCRIPT_GOTHIC Готический (Gothic)
G_UNICODE_SCRIPT_GREEK Греческий (Greek)
G_UNICODE_SCRIPT_GUJARATI Gujarati
G_UNICODE_SCRIPT_GURMUKHI Gurmukhi
G_UNICODE_SCRIPT_HAN Ханьшуй (Han)
G_UNICODE_SCRIPT_HANGUL Хангул (Hangul)
G_UNICODE_SCRIPT_HEBREW Иврит (Hebrew)
G_UNICODE_SCRIPT_HIRAGANA Хирагана (Hiragana)
G_UNICODE_SCRIPT_KANNADA Канада (Kannada)
G_UNICODE_SCRIPT_KATAKANA Японская слоговая азбука катакана (Katakana)
G_UNICODE_SCRIPT_KHMER Кхмер (Khmer)
G_UNICODE_SCRIPT_LAO Лао (Lao)
G_UNICODE_SCRIPT_LATIN Латинский (Latin)
G_UNICODE_SCRIPT_MALAYALAM Малайялам (Malayalam)
G_UNICODE_SCRIPT_MONGOLIAN Монгольский (Mongolian)
G_UNICODE_SCRIPT_MYANMAR Myanmar
G_UNICODE_SCRIPT_OGHAM Огам (Ogham)
G_UNICODE_SCRIPT_OLD_ITALIC Староитальянский (Old Italic)
G_UNICODE_SCRIPT_ORIYA Язык ория (Oriya)
G_UNICODE_SCRIPT_RUNIC Руническое письмо (Runic)
G_UNICODE_SCRIPT_SINHALA Сингальский язык (Sinhala)
G_UNICODE_SCRIPT_SYRIAC Сирийский язык (Syriac)
G_UNICODE_SCRIPT_TAMIL Тамильский язык (Tamil)
G_UNICODE_SCRIPT_TELUGU Язык телугу (Telugu)
G_UNICODE_SCRIPT_THAANA Таана (Thaana)
G_UNICODE_SCRIPT_THAI Тайский язык (Thai)
G_UNICODE_SCRIPT_TIBETAN Тибетский (Tibetan)
G_UNICODE_SCRIPT_CANADIAN_ABORIGINAL Канадский язык аборигенов (Canadian Aboriginal)
G_UNICODE_SCRIPT_YI Идиш (Yi)
G_UNICODE_SCRIPT_TAGALOG Тагальский язык (Tagalog)
G_UNICODE_SCRIPT_HANUNOO Hanunoo
G_UNICODE_SCRIPT_BUHID Buhid
G_UNICODE_SCRIPT_TAGBANWA Tagbanwa
G_UNICODE_SCRIPT_BRAILLE Шрифт Брайля (Braille)
G_UNICODE_SCRIPT_CYPRIOT Киприотский (Cypriot)
G_UNICODE_SCRIPT_LIMBU Limbu
G_UNICODE_SCRIPT_OSMANYA Сомалийский алфавит (Osmanya)
G_UNICODE_SCRIPT_SHAVIAN Shavian
G_UNICODE_SCRIPT_LINEAR_B Линейный B (Linear B)
G_UNICODE_SCRIPT_TAI_LE Tai Le
G_UNICODE_SCRIPT_UGARITIC Ugaritic
G_UNICODE_SCRIPT_NEW_TAI_LUE New Tai Lue
G_UNICODE_SCRIPT_BUGINESE Buginese
G_UNICODE_SCRIPT_GLAGOLITIC Glagolitic
G_UNICODE_SCRIPT_TIFINAGH Tifinagh
G_UNICODE_SCRIPT_SYLOTI_NAGRI Syloti Nagri
G_UNICODE_SCRIPT_OLD_PERSIAN Старый персидский (Old Persian)
G_UNICODE_SCRIPT_KHAROSHTHI Kharoshthi
G_UNICODE_SCRIPT_UNKNOWN неизвестный указатель кода
G_UNICODE_SCRIPT_BALINESE Балинизиский (Balinese)
G_UNICODE_SCRIPT_CUNEIFORM Cuneiform
G_UNICODE_SCRIPT_PHOENICIAN Финский (Phoenician)
G_UNICODE_SCRIPT_PHAGS_PA Phags-pa
G_UNICODE_SCRIPT_NKO N'Ko

g_unichar_get_script ()

GUnicodeScript g_unichar_get_script (gunichar ch);

Находит GUnicodeScript для специфического символа (как определено в Unicode Standard Annex 24). Проверка на правильность ch для Unicode символа не производится; если вы поместите недопустимый символ, результат будет неопределённым.

ch : Unicode символ
Возвращает : GUnicodeScript для символа.

Начиная с версии 2.14


g_utf8_next_char()

#define g_utf8_next_char(p)

Пропускает следующий символ в UTF-8 строке. Строка должна быть допустимой; это максимально быстрая макрокоманда и никакого контроля ошибок не проводится. Вы должны использовать эту макрокоманду для посимвольной итерации строки. Эта макрокоманда возвращает начало следующего символа UTF-8. Перед использованием этой макрокоманды используйте g_utf8_validate() для проверки правильности строк которые могут содержать недопустимые символы UTF-8.

p : указатель на начало допустимого символа UTF-8.

g_utf8_get_char ()

gunichar g_utf8_get_char (const gchar *p);

Конвертирует последовательность байт в кодировке UTF-8 в Unicode символ. Если p не указывает на допустимый символ в кодировке UTF-8, результат будет неопределённым. Если вы не уверены в том что последовательность байт является допустимым кодом Unicode символов, вы должны использовать вместо этой функции g_utf8_get_char_validated().

p : указатель на Unicode символ в кодировке UTF-8
Возвращает : результирующий символ

g_utf8_get_char_validated ()

gunichar g_utf8_get_char_validated (const gchar *p, gssize max_len);

Конвертирует последовательность байт в кодировке UTF-8 в Unicode символ. Эта функция проверяет незаконченность символов, для недопустимых символов таких как символы которые выходят за диапазон Unicode и слишком длинных допустимых символов.

p : указатель на Unicode символ в кодировке UTF-8
max_len : максимальное количество байт для чтения, или -1, если нет максимума.
Возвращает : результирующий символ. Если p указатель на часть последовательности конца строки которая могла начать допустимый символ, возвращается (gunichar)-2; иначе, если p не является указателем на допустимый в UTF-8 кодировке Unicode символ, возвращается (gunichar)-1.

g_utf8_offset_to_pointer ()

gchar* g_utf8_offset_to_pointer (const gchar *str, glong offset);

Конвертирует из целочисленного символа смещения в указатель на позицию внутри строки.

Начиная с версии 2.10, эта функция позволяет помещать отрицательное offset для смещения назад. Это в основном полезно при движении с конца вместо движения вперед если offset это последняя четверть строки, так как передвижение вперёд в три раза быстрее чем назад.

str : строка в кодировке UTF-8
offset : символьное смещение внутри строки str
Возвращает : результирующий указатель

g_utf8_pointer_to_offset ()

glong g_utf8_pointer_to_offset (const gchar *str, const gchar *pos);

Конвертирует из указателя внутри строки в целочисленное смещение символов.

Начиная с версии 2.10, эта функция позволяет pos быть перед str, и возвращает негативное смещение в этом случае.

str : строка в кодировке UTF-8
pos : указатель на позицию внутри str
Возвращает : результирующее символьное смещение

g_utf8_prev_char ()

gchar* g_utf8_prev_char (const gchar *p);

Находит предыдущий символ UTF-8 в строке перед p.

p не должен быть в начале символа UTF-8. Никакая проверка не проводится для найденого символа кроме фактической допустимости начального байта. Если p может оказаться первым символом строки, вы должны использовать g_utf8_find_prev_char() вместо этой функции.

p : указатель на позицию в UTF-8 строке
Возвращает : указатель на найденный символ.

g_utf8_find_next_char ()

gchar* g_utf8_find_next_char (const gchar *p, const gchar *end);

Ищет начало следующего символа UTF-8 в строке после p.

p не должен быть началом UTF-8 символа. Для найденного символа не проводится никакой проверки фактической правильности символа, кроме допустимости начального байта.

p : указатель на позицию внутри строки UTF-8
end : указатель на конец строки, или NULL для указания что строка nul-завершённая, в этом случае он будет возвращённым значением
Возвращает : указатель на найденный символ или NULL

g_utf8_find_prev_char ()

gchar* g_utf8_find_prev_char (const gchar *str, const gchar *p);

Учитывая позицию p со строкой UTF-8 str, находит начало предыдущего символа UTF-8 строки перед p. Возвращает NULL если нет символов UTF-8 представленных в строке str перед p.

p не должен быть началом UTF-8 символа. Никакой проверки не проводится для найденного символа за исключением соответствия начального байта.

str : указатель на начало строки UTF-8
p : указатель на некоторую позицию внутри строки str
Возвращает : указатель на найденный символ или NULL.

g_utf8_strlen ()

glong g_utf8_strlen (const gchar *p, gssize max);

Возвращает длину строки в символах.

p : указатель на начало строки UTF-8.
max : максимальное число байт для проверки. Если max меньше чем 0, то строка предположительно будет nul-завершённой. Если max это 0, p не будет проверен и может быть NULL.
Возвращает : длина строки в символах

g_utf8_strncpy ()

gchar* g_utf8_strncpy (gchar *dest, const gchar *src, gsize n);

Как стандартная C функция strncpy(), но копирует полученное количество символов а не байт. Строка src должна быть допустимым UTF-8 текстом. (Используйте g_utf8_validate() для всех текстов перед попыткой использования UTF-8 функций.)

dest : буфер для заполнения символами из src
src : строка в кодировке UTF-8
n : количество символов
Возвращает : dest

g_utf8_strchr ()

gchar* g_utf8_strchr (const gchar *p, gssize len, gunichar c);

Находит крайнее левое появление полученного символа Unicode в строке UTF-8, ограничивая поиск в len байт. Если len равен -1, допускается неограниченный поиск.

p : nul-завершённая строка UTF-8
len : максимальная длина p
c : Unicode символ
Возвращает : NULL если строка не содержит символ, иначе, указатель на начало крайнего левого появления символа в строке.

g_utf8_strrchr ()

gchar* g_utf8_strrchr (const gchar *p, gssize len, gunichar c);

Находит крайний правый полученный Unicode символ в строке UTF-8, поиск ограничивается len байтами. Если len это -1, допускается неограниченный поиск.

p : nul-завершённая строка UTF-8
len : максимальная длина p
c : Unicode символ
Возвращает : NULL если строка не содержит символа, иначе, указатель на начало крайнего правого появления символа в строке.

g_utf8_strreverse ()

gchar* g_utf8_strreverse (const gchar *str, gssize len);

Переворачивает строку в кодировке UTF-8. str должна быть допустимым текстом в кодировке UTF-8. (Используйте g_utf8_validate() для всех текстов перед попыткой использования сервисных функций UTF-8.)

Помните что в отличие от g_strreverse(), эта функция возвращает вновь распределённую память, которая должна быть освобождена с помощью g_free() когда больше не нужна.

str : строка в кодировке UTF-8
len : максимальная длина str для использования. Если len < 0, то строка nul-завершённая.
Возвращает : вновь распределённая строка которая является перевёрнутой строкой str.

Начиная с версии 2.2


g_utf8_validate ()

gboolean g_utf8_validate (const gchar *str, gssize max_len, const gchar **end);

Утверждает правильность текста в кодировке UTF-8. str это текст для подтверждения; если str nul-завершённая, то max_len может быть -1, иначе max_len должен быть количеством байт для подтверждения. Если end это non-NULL, то конец подтверждённого диапазона будет сохранён здесь (то есть начало первого недопустимого символа, если некоторые байты недопустимы, или иначе конец подтверждённого текста).

Помните что g_utf8_validate() возвращает FALSE если max_len положительное и NUL был встречен перед прочтением max_len байт.

Возвращает TRUE если вся str была допустимой. Многие GLib и GTK+ подпрограммы требуют допустимого ввода UTF-8; поэтому данные прочтённые из файла или сети должны быть проверены с помощью g_utf8_validate() перед выполнением других действий с ними.

str : указатель на символьные данные
max_len : максимальное количество байт для подтверждения, или -1 чтобы действовать пока не встретится NUL
end : расположение для возвращаемого конца подтверждённых данных
Возвращает : TRUE если текст соответствует кодировке UTF-8

g_utf8_strup ()

gchar* g_utf8_strup (const gchar *str, gssize len);

Конвертирует все Unicode символы строки в верхний регистр. Точный способ которым это выполняется зависит от текущей локали, и может привести к увеличению количества символов в строке. (Например, немецкая ess-zet будет изменена на SS.)

str : строка в кодировке UTF-8
len : длина str, в байтах, или -1 если str nul-завершённая.
Возвращает : вновь распределённая строка, все символы которой конвертированы в верхний регистр.

g_utf8_strdown ()

gchar* g_utf8_strdown (const gchar *str, gssize len);

Конвертирует все Unicode символы строки в нижний регистр. Точный способ которым это выполняется зависит от текущей локали, и может привести к изменению количества символов в строке.

str : строка в кодировке UTF-8
len : длина str, в байтах, или -1 если str nul-завершённая.
Возвращает : вновь распределённая строка, в которой все символы конвертированы в нижний регистр.

g_utf8_casefold ()

gchar* g_utf8_casefold (const gchar *str, gssize len);

Конвертирует строку в форму которая не зависит от регистра. Результат не будет соответствовать никакому специальному регистру, но может быть сравнен для равенства или упорядочен с результатом вызова g_utf8_casefold() для других строк.

Помните что вызов g_utf8_casefold() сопровождаемый g_utf8_collate() только приближает к правильному лингвистическому регистру нечувствительному к упорядочиванию, однако это достаточно хорошо. Получение более точного и правильного результата требует более сложной функции сопоставления которая принимает во внимание чувствительность к регистру. GLib в настоящее время не поддерживает такую функцию.

str : строка в кодировке UTF-8
len : длина str, в байтах, или -1 если str nul-завершённая.
Возвращает : вновь распределённая строка, которая является регистронезависимой str.

g_utf8_normalize ()

gchar* g_utf8_normalize (const gchar *str, gssize len, GNormalizeMode mode);

Конвертирует строку в изначальную форму, стандартизируя такие проблемы как, представлен ли символ с акцентом как основной и комбинирующий акцент, или как единственный составной символ. В основном вы должны вызвать g_utf8_normalize() перед сравнением двух Unicode строк.

Режим нормализации G_NORMALIZE_DEFAULT только стандартизирует различия которые не затрагивают текстовое содержание, такие как упомянутые выше акценты представления. G_NORMALIZE_ALL также стандартизирует символы "совместимости" в Unicode, такие как SUPERSCRIPT THREE в стандартные формы (в данном случае DIGIT THREE). Форматирование информации может быть потеряно но в большинстве текстовых операций такие символы должны быть рассмотрены одинаково. Например, g_utf8_collate() нормализуется с помощью G_NORMALIZE_ALL как первый шаг.

G_NORMALIZE_DEFAULT_COMPOSE и G_NORMALIZE_ALL_COMPOSE являются подобными G_NORMALIZE_DEFAULT и G_NORMALIZE_ALL, но возвращают результат с составными формами а не в максимально разложенной форме. Это часто полезно если вы хотите преобразовать строку в устаревшую кодировку или поместить её в систему с меньшей способностью обрабатывать Unicode.

str : строка в кодировке UTF-8.
len : длина str, в байтах, или -1 если str nul-завершённая.
mode : тип выполняемой нормализации.
Возвращает : вновь распределённая строка, которая представляет нормализованную форму str.

enum GNormalizeMode

typedef enum { G_NORMALIZE_DEFAULT, G_NORMALIZE_NFD = G_NORMALIZE_DEFAULT, G_NORMALIZE_DEFAULT_COMPOSE, G_NORMALIZE_NFC = G_NORMALIZE_DEFAULT_COMPOSE, G_NORMALIZE_ALL, G_NORMALIZE_NFKD = G_NORMALIZE_ALL, G_NORMALIZE_ALL_COMPOSE, G_NORMALIZE_NFKC = G_NORMALIZE_ALL_COMPOSE } GNormalizeMode;

Определяет как трансформировать Unicode строку в каноническую форму, стандартизирует такие проблемы как представлен ли символ с акцентом основного символа и акцентом комбинирования или как единственный составной символ. Unicode строки должны в основном быть нормализованы после их сравнения.

G_NORMALIZE_DEFAULT стандартизирует различия которые не затрагивают текстовое содержимое, такие как описанный выше метод представления акцента.
G_NORMALIZE_NFD другое имя для G_NORMALIZE_DEFAULT.
G_NORMALIZE_DEFAULT_COMPOSE тоже что G_NORMALIZE_DEFAULT, но с составными формами вместо максимально разложенных форм.
G_NORMALIZE_NFC другое имя для G_NORMALIZE_DEFAULT_COMPOSE.
G_NORMALIZE_ALL помимо G_NORMALIZE_DEFAULT также стандартизирует символы "совместимости" в Unicode, такие как SUPERSCRIPT THREE для стандартных форм (в этом случае DIGIT THREE). Форматирование информации может быть нарушено, но для большинства текстовых операций такие символы должны быть рассмотрены одинаково.
G_NORMALIZE_NFKD другое имя для G_NORMALIZE_ALL.
G_NORMALIZE_ALL_COMPOSE аналогично G_NORMALIZE_ALL, но с составными формами вместо максимально разложенных форм.
G_NORMALIZE_NFKC другое имя для G_NORMALIZE_ALL_COMPOSE.

g_utf8_collate ()

gint g_utf8_collate (const gchar *str1, const gchar *str2);

Сравнивает две строки для правильного использования лингвистических правил текущей локали. Сортируя большое количество строк, она будет значительно быстрее определять ключи сопоставления с помощью g_utf8_collate_key() и сравнивать ключи и сортируя с помощью strcmp(), вместо сортировки оригинальных строк.

str1 : строка в кодировке UTF-8
str2 : строка в кодировке UTF-8
Возвращает : < 0 если str1 сравнивается перед str2, 0 если сравнение эквивалентно, > 0 если str1 сравнивается после str2.

g_utf8_collate_key ()

gchar* g_utf8_collate_key (const gchar *str, gssize len);

Конвертирует строку в ключ сопоставления который можно сравнить с другим ключом сравнения произведенным той же функцией используя strcmp(). Результат сравнения ключей сопоставления двух строк с помощью strcmp() всегда будет сопоставим с результатом сравнения оригинальных ключей с помощью g_utf8_collate().

str : строка в кодировке UTF-8.
len : длина str, в байтах, или -1 если str nul-завершённая.
Возвращает : вновь распределённая строка. Эта строка должна быть освобождена с помощью g_free() когда больше не нужна.

g_utf8_collate_key_for_filename ()

gchar* g_utf8_collate_key_for_filename (const gchar *str, gssize len);

Конвертирует строку в ключ сопоставления который можно сравнить с другим ключом произведённым этой же функцией с помощью strcmp().

Для правильной сортировки имён файлов, эта функция обрабатывает точку '.' как специфичный случай. Большинство словарей считают это незначительным, производя таким образом порядок "event.c" "eventgenerator.c" "event.h" вместо "event.c" "event.h" "eventgenerator.c". Кроме того, хотелось бы обрабатывать разумно числа, так чтобы "file1" "file10" "file5" сортировались как "file1" "file5" "file10".

str : строка в кодировке UTF-8.
len : длина str, в байтах, или -1 если str nul-завершённая.
Возвращает : вновь распределённая строка. Эта строка должна быть освобождена с помощью g_free() когда больше не нужна.

Начиная с версии 2.8


g_utf8_to_utf16 ()

gunichar2* g_utf8_to_utf16 (const gchar *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из UTF-8 в UTF-16. Символ 0 будет добавлен к результату после конвертации текста.

str : строка в кодировке UTF-8
len : максимальная длина (количество символов) str для использования. Если len < 0, то строка nul-завершённая.
items_read : расположение для хранения количества прочтённых байт, или NULL. Если NULL, то G_CONVERT_ERROR_PARTIAL_INPUT будет возвращён в случае, если str содержит завершённый частично символ. Если произошла ошибка, то здесь сохраняется индекс недопустимого ввода.
items_written : расположение для хранения записанного числа gunichar2, или NULL. Значение сохраняемое здесь не включает завершающий 0.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут происходить любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UTF-16. Это значение может быть освобождено с помощью g_free(). Если произошла ошибка, NULL будет возвращён и установлена error.

g_utf8_to_ucs4 ()

gunichar* g_utf8_to_ucs4 (const gchar *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из UTF-8 в 32-bit фиксированной ширины представленный как UCS-4. Заверщающий 0 будет добавлен к строке после конвертации текста.

str : строка в кодировке UTF-8
len : максимальная длина str для использования. Если len < 0, то строка nul-завершённая.
items_read : расположение для хранения прочитанных байт, или NULL. Если NULL, то G_CONVERT_ERROR_PARTIAL_INPUT будет возвращён в случае, если str содержит завершающую часть символа. Если произошла ошибка, то здесь сохраняется индекс недопустимого ввода.
items_written : расположение для хранения записанных символов или NULL. Значение сохраняемое здесь не включает завершающий символ 0.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут произойти любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UCS-4. Это значение должно быть освобождено с помощью g_free(). Если произошла ошибка, то возвращается NULL и устанавливается error.

g_utf8_to_ucs4_fast ()

gunichar* g_utf8_to_ucs4_fast (const gchar *str, glong len, glong *items_written);

Конвертирует строку из UTF-8 в 32-bit представление фиксированной ширины UCS-4, принимая правильный ввод UTF-8. Эта функция примерно в два раза быстрее чем g_utf8_to_ucs4(), но не производит никакой проверки ошибок ввода.

str : строка в кодировке UTF-8
len : максимальная длина str для использования. Если len < 0, то строка nul-завершённая.
items_written : расположение для хранения количества символов в результате, или NULL.
Возвращает : указатель на вновь распределённую строку UCS-4. Это значение должно быть освобождено с помощью g_free().

g_utf16_to_ucs4 ()

gunichar* g_utf16_to_ucs4 (const gunichar2 *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из UTF-16 в UCS-4. Результат будет завершён символом 0.

str : строка в кодировке UTF-16
len : максимальная длина (число gunichar2) str для использования. Если len < 0, то строка завершается символом 0.
items_read : расположение для хранения прочтенных слов, или NULL. Если NULL, то G_CONVERT_ERROR_PARTIAL_INPUT будет возвращён в случае, если str содержит часть завершающего символа. Если произошла ошибка то здесь сохраняется индекс недопустимого ввода.
items_written : расположение для хранения количества записанных символов, или NULL. Значение сохраняемое здесь не включает завершающий символ 0.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут произойти любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UCS-4. Это значение должно быть освобождено с помощью g_free(). Если произошла ошибка, то возврашается NULL и устанавливается error.

g_utf16_to_utf8 ()

gchar* g_utf16_to_utf8 (const gunichar2 *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из UTF-16 в UTF-8. Результат будет завершён 0 байтом.

Помните что ввод находится уже в родном порядке байт (endianness), начальный символ byte-order-mark специально не обрабатывается. g_convert() может быть использована для конвертации буфера байт данных UTF-16 неоднозначного порядка байт (endianess).

str : строка в кодировке UTF-16
len : максимальная длина (число gunichar2) str для использования. Если len < 0, то строка завершается символом 0.
items_read : расположение для хранения количества прочитанных слов, или NULL. Если NULL, то G_CONVERT_ERROR_PARTIAL_INPUT будет возвращено в случае, если str содержит часть завершающего символа. Если произошла ошибка то здесь сохраняется индекс недопустимого ввода.
items_written : расположение для хранения количества записанных байт, или NULL. Значение записанное здесь не включает завершающий 0 байт.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут произойти любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UTF-8. Это значение должно быть освобождено с помощью g_free(). Если произошла ошибка, NULL будет возвращён и установлена error.

g_ucs4_to_utf16 ()

gunichar2* g_ucs4_to_utf16 (const gunichar *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из UCS-4 в UTF-16. Символ 0 будет добавлен к результату после конвертации текста.

str : строка в кодировке UCS-4
len : максимальная длина (число символов) str для использования. Если len < 0, то строка завершается символом 0.
items_read : расположение для хранения количества прочитанных байт, или NULL. Если произошла ошибка то здесь сохраняется индекс недопустимого ввода.
items_written : расположение для хранения числа gunichar2 записей, или NULL. Значение сохраняемое здесь не включает завершающий 0.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут произойти любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UTF-16. Это значение должно быть освобождено с помощью g_free(). Если произошла ошибка, NULL будет возвращён и установлена error.

g_ucs4_to_utf8 ()

gchar* g_ucs4_to_utf8 (const gunichar *str, glong len, glong *items_read, glong *items_written, GError **error);

Конвертирует строку из 32-bit фиксированной ширины представленной как UCS-4. в UTF-8. Результат будет завершён 0 байтом.

str : строка в кодировке UCS-4
len : максимальная длина (количество символов) str для использования. Если len < 0, то строка завершается 0 символом.
items_read : расположение для хранения количества прочитанных символов, или NULL.
items_written : расположение для хранения записанных байт или NULL. Значение сохраняемое здесь не включает завершающий 0 байт.
error : расположение для хранения произошедшей ошибки, или NULL для игнорирования ошибок. Могут происходить любые ошибки из GConvertError кроме G_CONVERT_ERROR_NO_CONVERSION.
Возвращает : указатель на вновь распределённую строку UTF-8. Это значение должно быть освобождено с помощью g_free(). Если произошла ошибка, NULL будет возвращён и установлена error. В этом случае, items_read будет установлен в позицию первого недопустимого символа ввода.

g_unichar_to_utf8 ()

gint g_unichar_to_utf8 (gunichar c, gchar *outbuf);

Конвертирует единственный символ в UTF-8.

c : символ в кодировке Unicode
outbuf : буфер вывода, должен иметь последние 6 байт свободными. Если NULL, то длина будет вычислена и возвращена и ничего не будет записано в буфер outbuf.
Возвращает : количество записанных байт

Смотрите также

g_locale_to_utf8(), g_locale_from_utf8()

Удобные функции для конвертации между UTF-8 и локальной кодировкой.



[3] суррогатные пары