Непонятное поведение функции strlen, и вообще об unicode в txt-файлах

batmax · 01.09.2010, 17:15

Написал команду, она должна парсить текстовый файл отчёта об импорте, только ничего не работает. Стал разбираться, оказывается, ф-ия (strlen) возвращает бред.
Вот примеры (вверху идут строки файла-отчёта, внизу - значения strlen для них):

Код:

[Выделить все]

НАЧАЛО ИМПОРТА
Дата и время: 31.08.2010 9:17:20

Содержимое файла отчёта об импорте:

Код:

[Выделить все]

strlen=30
strlen=42
strlen=0
strlen=65

Как видим, только для третьей строки (она пустая) strlen не врёт, =0, а для остальных строк она "приблизительно" вдвое превышает истинное значение. Строки прочитаны из текстового файла функцией (readline f), файл открыт (setq f (open fname "r")).
Подскажите, как мне быть:
а) как вообще считает символы Лисп в случае присутствия кириллицы в строке;
б) как выполнить сравнение с константной строкой, зашитой в тексте программы.
И вообще, есть какие-то методы НОРМАЛЬНОЙ работы с кириллицей в лиспе (имеются в виду строки, содержащие кириллицу, в текстовом файле) ?

ытя · 01.09.2010, 17:30

Предположу, что в конце строк имеются пробелы - надо их отсечь

Дима_ · 01.09.2010, 17:44

а посмотри что выдает строка (readline ...) если "вернуть" ее в консоль - сдаеться мне там что-то типа utf-8 в кодировке
p.s. если полезли вместо строк - кракозябры - пересохрани в блокноте в ANSI - либо тебе хороший повод написать uft8->ansi, ansi-utf8.

hwd · 01.09.2010, 18:20

Если оба условия TRUE:
1. Этот отчёт формируется программно вами же.
2. В Visual Lisp присутствуют инструменты для работы с XML

То в этом случае было бы лучше формировать отчёт в виде XML, тогда и проблем с парсингом не возникнет (имхо).

Цитата:

...об unicode в txt-файлах...
...а для остальных строк она "приблизительно" вдвое превышает истинное значение.

ANSI занимает один байт, а Unicode - два. Возможно команда strlen создана так, что она считает именно байты (я этого не утверждаю, а всего лишь предполагаю).

batmax · 01.09.2010, 19:08

Цитата:

Сообщение от Дима_

если полезли вместо строк - кракозябры - пересохрани в блокноте в ANSI - либо тебе хороший повод написать uft8->ansi, ansi-utf8

пересохранить в блокноте не получится, т.к. файл формируется программно (не пересохранять же каждый раз). написать uft8->ansi, ansi-utf8 - мысль интересная. Вообще-то пока выкручиваюсь с парсингом так, чтобы не пересекаться с кириллицей.

01.09.2010, 17:15		#1
Непонятное поведение функции strlen, и вообще об unicode в txt-файлах batmax Регистрация: 28.08.2010 Сообщений: 10 Написал команду, она должна парсить текстовый файл отчёта об импорте, только ничего не работает. Стал разбираться, оказывается, ф-ия (strlen) возвращает бред. Вот примеры (вверху идут строки файла-отчёта, внизу - значения strlen для них): Код: [Выделить все] НАЧАЛО ИМПОРТА Дата и время: 31.08.2010 9:17:20 Содержимое файла отчёта об импорте: Код: [Выделить все] strlen=30 strlen=42 strlen=0 strlen=65 Как видим, только для третьей строки (она пустая) strlen не врёт, =0, а для остальных строк она "приблизительно" вдвое превышает истинное значение. Строки прочитаны из текстового файла функцией (readline f), файл открыт (setq f (open fname "r")). Подскажите, как мне быть: а) как вообще считает символы Лисп в случае присутствия кириллицы в строке; б) как выполнить сравнение с константной строкой, зашитой в тексте программы. И вообще, есть какие-то методы НОРМАЛЬНОЙ работы с кириллицей в лиспе (имеются в виду строки, содержащие кириллицу, в текстовом файле) ?
Просмотров: 4000

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
LISP. Вставка в таблицу поля, соотвествующего площади примитива	Profan	Готовые программы	272	06.06.2021 23:12
Express Tools	Perezz!!	AutoCAD	483	13.02.2015 10:57