February, 2010


27
Feb 10

Bug #485923

Cuando comencé a usar Ubuntu Karmic la única cosa que no me gustó fue el consumo de memoria exagerado de algunas aplicaciones. Llegaba a ser tan malo que no podía dejar el ordenador encendido más de 5 días sin tener que reiniciar la sesión de Gnome. Al principio asumí que era el típico bug serio que sería solucionado rápidamente cuando mucha gente se quejase, pero investigando en Launchpad unas semanas después del lanzamiento de Karmic ni siquiera había una mención al problema. Investigando un poco más pude concluir que el problema era cosa de dos aplicaciones: gnome-settings-manager y gnome-volume-control-applet que al ir pasando el tiempo llegaban a consumir cantidades ingentes de memoria (1.5GB+ cada una). Al final, como no era un problema tan serio lo olvidé y me acostumbré a vivir con ello, a la espera de que con Lucid Lynx desapareciese.

Pero ayer por la tarde, mientras me aburría un poco me puse a buscar y esta vez tuve más suerte. Resulta que el problema es debido a una perdida de memoria de gnome-volume-control-applet junto con un comportamiento extraño de wine. Esto no sería un problema tan serio si no fuese porque yo uso Spotify con wine todo el día.

La buena noticia es que el problema fue solucionado hace unos pocos días. La mala noticia es que al ser un problema poco relevante para los usuarios regulares de Ubuntu y al no ser Karmic una LTS no se ha puesto el arreglo en los updates. La otra buena noticia es que un simpático usuario ha compilado la versión buena de gnome-volume-control-applet y la ha colgado en Launchpad. Con añadir las dos lineas a nuestro sources.list y hacer un apt-get update y upgrade ya nos basta para que este molesto problema desaparezca.


8
Feb 10

Unicode y expresiones regulares (en PHP)

Le llega el momento a todo programador no anglo-parlante de enfrentarse a la difícil tarea de escribir una expresión regular que acepte tildes, cedillas y virgulillas. Difícil porque las expresiones regulares fueron creadas, como tantas otras herramientas, cuando ASCII era la única codificación existente y por lo tanto funciona con un numero de caracteres muy limitado para el mundo internacionalizado de hoy en día. Asumamos que queremos limpiar una cadena de texto quitando todo lo que no sean caracteres alfanuméricos. La respuesta obvia sería:

preg_replace('/[\w]/ui', '', $input);

Pero \w realmente equivale a [a-z0-9_] y no nos vale. Aunque en teoría la documentación de php dice que en algunos locales \w inclute letras acentuadas yo no he conseguido que pille las del español. La siguiente respuesta común es esta:

preg_replace ('/[a-z0-9áéíóúç]/ui', '', $input);

Pero esto no sólo es una guarrada enorme sino que tampoco servirá cuando querramos añadir soporte para más idiomas y al final terminaremos con una cadena de proporciones épicas intentando incluir todas la variantes de caracteres acentuados de todos los idiomas, por no hablar de todos los alfabetos.

Aunque no lo parezca existe una solución elegante y simple. Resulta que la codificación Unicode asigna una serie de propiedades a todos los caracteres, desde algunos tan obvios como si un caracter es alfabético, si es mayúscula o minúscula o si es un número hasta otros más extraños como si tiene forma cuadrada o es de uso histórico. El que a nosotros nos interesa en este caso es la propiedad alfabética. Como podéis ver no solo aparecen listadas todas las letras normales sino que también aparecen todas las letras acentuadas habidas y por haber.

Por suerte la extensión PCRE de PHP nos deja utilizar una selección limitada (pero suficiente) de propiedades Unicode en nuestras expresiones regulares combinando el caracter de control \p con el identificador de la propieda que queramos, en este caso L.

preg_replace ('/[\pL0-9]/ui', '', $input);

Hay que tener en cuenta que utilizar las propiedades unicode en una expresión regular es significantemente más lento que utilizar rangos normales, con lo cual no es recomendable usarlas para operaciones habituales o que se repitan mucho.