Diferenças entre as versões de 2 e 10 (8 versões de distância)

Tirador de Acentos

Um pequeno fragmento de código que pode ser usado para remover acentos de strings. Exemplo: "Facção" vira "Faccao"

O Código foi escrito para fazer isso em strings UTF-8, consideravelmente mais complexas do que as strings ISO-8859-1.

Uma pequena alteração (para mais simples) se faz necessária para funcionar com strings ISO-8859-1.

Uma vez que eu precisava também da funcionalidade de "verificação de imprimibilidade" de uma string, e o código seria muito parecido, abaixo as duas estão implementadas, com um "layer" de interface para cada funcionalidade.

Disponibilizo o código aqui sob a LGPL. Não estou distribuindo junto o texto full da LGPL, mas o público alvo saberá acha-lo. Então, os que forem usar o código, o façam sabendo que "mesmo não tendo assinado nada, os termos declarados na LGPL são a única licença para uso deste código a que têm acesso, e sua violação implica em perda dos direitos de uso deste código".

# -*- coding: UTF-8 -*-

#Arrancador de acentos
#Copyright  (2004) João S. O. Bueno 
#Permissao para uso e modificacao conforme a LGPL.


#uso: check_alphanum (string) retorna verdadeiro se a string é imprimivivel
#strip_diacriticals : troca todos os acentos pelos equivalentes nao acentuados.
# e retorna a string alterada

import copy

conversion= { "á": "a", "é": "e", "í": "i", "ó": "o", "ú": "u",
     "à": "a", "è": "e", "ì": "i", "ò": "o", "ù": "u",
     "â": "a", "ê": "e", "î": "i", "ô": "o", "û": "u",
     "ã": "a", "õ": "o", "ñ": "n", "ç":"c",
     "Á": "A", "É": "E", "Í": "I", "Ó": "O", "Ú": "U",
     "À": "A", "È": "E", "Ì": "I", "Ò": "O", "Ù": "U",
     "Â": "A", "Ê": "E", "Î": "I", "Ô": "O", "Û": "U",
     "Ã": "A", "Õ": "O", "Ñ": "N", "Ç": "C",
     "Ü": "U", "û":"u", "Ä":"A", "ä":"a", "Ë":"E", "ë":"e",
     "Ï":"I", "ï":"i", "Ö":"O", "ö":"o", "ð":"?", "ß":"ss",
      "Å":"A","å":"a", "ø":"o", "Ø":"O", "Þ":"?" , "æ":"ae"
     }

alphanum_ops_CHECK=0
alphanum_ops_FIX=1

def _alphanum_util (string, operation):
    """check if all characters are in printable range
    and valid in roman alphabet languages"""
    global alphanum_ops_CHECK, alphanum_ops_FIX
    global conversion
    ok=1
    out_string=""
    skip=0
    aux=len(string)
    for i in xrange(aux):
        if skip:
            skip-=1
            continue
        char=string[i]
        num=ord(char)
        if num>=32 and num<=127:
            out_string+=char
        else:
            if num> 127 and i<aux-1 and conversion.has_key (string[i]+string[i+1]):
                out_string+=conversion[string[i]+string[i+1]]
                skip=1
            else:
                out_string+="?"
                ok=0
                if operation==alphanum_ops_CHECK:
                    return ok
                #the following values are picked from utf-8 specification
                #and mean the number of bytes following the first byte > 0xc0
                #that are part of the same utf-8 character
                if num >= 0xf0:
                    skip=3
                elif num >= 0xe0:
                    skip-2
                elif num>= 0xc0:
                    skip=1
                else:
                    skip=0
    if operation==alphanum_ops_CHECK:
        return ok
    else:
        return out_string

def check_alphanum (string):
    """check if all characters are in printable range and
    valid in romam alphabet languages"""
    global alphanum_ops_CHECK, alphanum_ops_FIX
    return _alphanum_util (string, alphanum_ops_CHECK)

def strip_diacriticals (string):
    """replace non ASCII characters  for '?' ' or equiv.
    letter if it is an western european accented letter."""
    global alphanum_ops_CHECK, alphanum_ops_FIX
    return _alphanum_util (string, alphanum_ops_FIX)

PS. Obviamente o código acima tem que ser gravado em UTF-8.

Interessante, mas acho que existe um jeito mais prático usando o metodo translate do unicode. Funciona assim:

   1 d = {192: u'A', 193: u'A', 194: u'A', 195: u'A', 196: u'A', 197: u'A', 
   2      199: u'C', 200: u'E', 201: u'E', 202: u'E', 203: u'E', 204: u'I', 
   3      205: u'I', 206: u'I', 207: u'I', 209: u'N', 210: u'O', 211: u'O', 
   4      212: u'O', 213: u'O', 214: u'O', 216: u'O', 217: u'U', 218: u'U', 
   5      219: u'U', 220: u'U', 221: u'Y', 224: u'a', 225: u'a', 226: u'a', 
   6      227: u'a', 228: u'a', 229: u'a', 231: u'c', 232: u'e', 233: u'e', 
   7      234: u'e', 235: u'e', 236: u'i', 237: u'i', 238: u'i', 239: u'i', 
   8      241: u'n', 242: u'o', 243: u'o', 244: u'o', 245: u'o', 246: u'o', 
   9      248: u'o', 249: u'u', 250: u'u', 251: u'u', 252: u'u', 253: u'y', 
  10      255: u'y'}
  11 s = unicode(string_com_acentos, 'iso-8859-1').translate(d)

Note que isso funciona para o charset iso-8859-1, mas deve funcionar para qualquer outro charset, na pior das hipoteses basta trocar os números por u´Á', u'À', e assim por diante, só usei números porque foi como consegui essa tabela e não estava com paciência de fazer do outro jeito. -- RafaelAlmeida

Usei um terceiro método para obter a "desacentuação" tanto a partir de UTF 8 quanto a partir de ISO 8859-1:

# -*- coding: utf-8 -*-
# Se você quiser "desacentuar" strings em ISO 8859-1, basta trocar a
# linha acima por "coding: iso-8859-1" e salvar o código-fonte com o
# encoding citado.

_table = { 
    "á" : "a", "à" : "a", "â" : "a", "ä" : "a", "ã" : "a", "å" : "a",
    "é" : "e", "è" : "e", "ê" : "e", "ë" : "e",
    "í" : "i", "ì" : "i", "î" : "i", "ï" : "i",
    "ó" : "o", "ò" : "o", "ô" : "o", "ö" : "o", "õ" : "o", "ø" : "o", 
    "ú" : "u", "ù" : "u", "û" : "u", "ü" : "u",
    "ñ" : "n", "ç" : "c",
    "Á" : "A", "À" : "A", "Â" : "A", "Ä" : "A", "Ã" : "A", "Å" : "A",
    "É" : "E", "È" : "E", "Ê" : "E", "Ë" : "E", 
    "Í" : "I", "Ì" : "I", "Î" : "I", "Ï" : "I", 
    "Ó" : "O", "Ò" : "O", "Ô" : "O", "Ö" : "O", "Õ" : "O", "Ø" : "O",
    "Ú" : "U", "Ù" : "U", "Û" : "U", "Ü" : "U", 
    "Ñ" : "N", "Ç" : "C",
    "ß" : "ss", "Þ" : "d" , "æ" : "ae"
}


def asciize(s):
    """ 
    Converts a entire string to a ASCII only string.
   
    string
        The string to be converted.
    """
    for original, plain in _table.items():
        s = s.replace(original, plain)
    return s

Note que ele não faz a conversão em ambos os encodings a partir do mesmo código-fonte, mas exige algumas alterações. Entretatno, acho que são alterações mais localizadas que nos códigos anteriores, de modo que são mais fáceis de executar. -- AdamVictorNazarethBrandizzi

João S. O. Bueno

-  ⇤ ← Revisão  2e 2004-04-12 14:31:54 → 
  Tamanho: 3885
  Editor: 200
  Comentário:
+   ← Revisão  10e 2006-12-29 18:01:38 → ⇥
  Tamanho: 6875
  Editor: AdamVictorNazarethBrandizzi
  Comentário:
-Deleções são marcadas assim.
+Adições são marcadas assim.
 Linha 1:
-Um pequeno fragmento de código que pode ser usado para
remover acentos de strings.  (Facção vira Faccao)
+= Tirador de Acentos =
-Linha 4:
+Linha 3:
-O Código foi escirto para fazer isso em strigns UTF-8 , consideravelemente
mais complexas do que as ISO-8859-1
+Um pequeno fragmento de código que pode ser usado para remover acentos de strings. Exemplo: "Facção" vira "Faccao"
-Linha 7:
+Linha 5:
-Uma pequena alteração (para mais simples) se faz necessária para funcionar em ISO-8859-1
+O Código foi escrito para fazer isso em strings UTF-8, consideravelmente mais complexas do que as strings ISO-8859-1.
-Linha 9:
+Linha 7:
-Uma vez que eu precisava também da funcionalidade de "verficação de imprimibilidade" de uma string,
e o código seria muito parecido, abaixo as duas estão implementadas, com um "layer" de interface para
cada funcionalidade.
+Uma pequena alteração (para mais simples) se faz necessária para funcionar com strings ISO-8859-1.
-Linha 13:
+Linha 9:
-Disponibilizo o código aqui sob a LGPL. Não estou distribuindo junto  o texto full da LGPL, mas o público alvo
saberá acha-lo. Então, os que forem usar o código, o façam sabendo que "mesmo não tendo assinado nada,
os termos declarados na LGPL são a única licença para uso deste código a que têm acesso, e sua violação
implica em perda dos direitos de uso deste código".
+Uma vez que eu precisava também da funcionalidade de "verificação de imprimibilidade" de uma string, e o código seria muito parecido, abaixo as duas estão implementadas, com um "layer" de interface para cada funcionalidade.
-Linha 18:
+Linha 11:
-----
+Disponibilizo o código aqui sob a LGPL. Não estou distribuindo junto  o texto full da LGPL, mas o público alvo saberá acha-lo. Então, os que forem usar o código, o façam sabendo que "mesmo não tendo assinado nada, os termos declarados na LGPL são a única licença para uso deste código a que têm acesso, e sua violação implica em perda dos direitos de uso deste código".
-Linha 32:
+Linha 26:
-Linha 35:
+Linha 27:
-Linha 55:
+Linha 45:
-    """check if all characters are in printable range and valid in roman alphabet languages"""
+    """check if all characters are in printable range
    and valid in roman alphabet languages"""
-Linha 96:
+Linha 87:
-    """check if all characters are in printable range and valid in romam alphabet languages"""
+    """check if all characters are in printable range and
    valid in romam alphabet languages"""
-Linha 101:
+Linha 93:
-    """replace non ASCII characters  for '?' ' or equiv. letter if it is an western european accented letter."""
+    """replace non ASCII characters  for '?' ' or equiv.
    letter if it is an western european accented letter."""
-Linha 106:
+Linha 99:
-PS - Obviamente o código acima tem que ser gravado em UTF-8.
+PS. Obviamente o código acima tem que ser gravado em UTF-8.


Interessante, mas acho que existe um jeito mais prático usando o metodo translate do unicode. Funciona assim:
{{{
#!python

d = {192: u'A', 193: u'A', 194: u'A', 195: u'A', 196: u'A', 197: u'A', 
     199: u'C', 200: u'E', 201: u'E', 202: u'E', 203: u'E', 204: u'I', 
     205: u'I', 206: u'I', 207: u'I', 209: u'N', 210: u'O', 211: u'O', 
     212: u'O', 213: u'O', 214: u'O', 216: u'O', 217: u'U', 218: u'U', 
     219: u'U', 220: u'U', 221: u'Y', 224: u'a', 225: u'a', 226: u'a', 
     227: u'a', 228: u'a', 229: u'a', 231: u'c', 232: u'e', 233: u'e', 
     234: u'e', 235: u'e', 236: u'i', 237: u'i', 238: u'i', 239: u'i', 
     241: u'n', 242: u'o', 243: u'o', 244: u'o', 245: u'o', 246: u'o', 
     248: u'o', 249: u'u', 250: u'u', 251: u'u', 252: u'u', 253: u'y', 
     255: u'y'}
s = unicode(string_com_acentos, 'iso-8859-1').translate(d)
}}}

Note que isso funciona para o charset iso-8859-1, mas deve funcionar para qualquer outro charset, na pior das hipoteses basta trocar os números por u´Á', u'À', e assim por diante, só usei números porque foi como consegui essa tabela e não estava com paciência de fazer do outro jeito. -- RafaelAlmeida

----

Usei um terceiro método para obter a "desacentuação" tanto a partir de UTF 8 quanto a partir de ISO 8859-1:

{{{
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Se você quiser "desacentuar" strings em ISO 8859-1, basta trocar a
# linha acima por "coding: iso-8859-1" e salvar o código-fonte com o
# encoding citado.

_table = { 
    "á" : "a", "à" : "a", "â" : "a", "ä" : "a", "ã" : "a", "å" : "a",
    "é" : "e", "è" : "e", "ê" : "e", "ë" : "e",
    "í" : "i", "ì" : "i", "î" : "i", "ï" : "i",
    "ó" : "o", "ò" : "o", "ô" : "o", "ö" : "o", "õ" : "o", "ø" : "o", 
    "ú" : "u", "ù" : "u", "û" : "u", "ü" : "u",
    "ñ" : "n", "ç" : "c",
    "Á" : "A", "À" : "A", "Â" : "A", "Ä" : "A", "Ã" : "A", "Å" : "A",
    "É" : "E", "È" : "E", "Ê" : "E", "Ë" : "E", 
    "Í" : "I", "Ì" : "I", "Î" : "I", "Ï" : "I", 
    "Ó" : "O", "Ò" : "O", "Ô" : "O", "Ö" : "O", "Õ" : "O", "Ø" : "O",
    "Ú" : "U", "Ù" : "U", "Û" : "U", "Ü" : "U", 
    "Ñ" : "N", "Ç" : "C",
    "ß" : "ss", "Þ" : "d" , "æ" : "ae"
}


def asciize(s):
    """ 
    Converts a entire string to a ASCII only string.
   
    string
        The string to be converted.
    """
    for original, plain in _table.items():
        s = s.replace(original, plain)
    return s
}}}

Note que ele não faz a conversão em ambos os encodings a partir do mesmo código-fonte, mas exige algumas alterações. Entretatno, acho que são alterações mais localizadas que nos códigos anteriores, de modo que são mais fáceis de executar. -- AdamVictorNazarethBrandizzi

----

João S. O. Bueno

Veja também:

Diferenças para "TiradorDeAcentos"

Tirador de Acentos