Search This Blog

Friday, October 5, 2012

Como particionar una tabla existente


Una de las tareas más deseadas hoy en día por muchos administradores de bases de datos, es el particionar sus tablas, una de las grandes ventajas del particionamiento de tablas en SQL Server, es la capacidad de distribuir la carga física en múltiples discos duros, por ende, existen más partes mecánicas ejecutando una sola tarea.
Sin embargo, gran parte de estas bases de datos existen desde hace mucho tiempo, por lo que no se encuentran particionadas en su gran mayoría, además de estar soportando actualmente aplicaciones de negocio, debido a esto... (Ver todo el articulo)

Thursday, October 4, 2012

Como especificar el fill factor en un índice


La opción de fill factor permite el afinamiento del rendimiento y almacenamiento de los índices, cuando un índice es creado o reconstruido, el fill factor determina el porcentaje de espacio a nivel de la hoja de cada página que será llenada con datos; reservando el espacio restante en cada página como espacio libre y disponible para futuro crecimiento.
Ejemplo
Si tenemos un índice con un fill factor de 80, esto significa que el 20% de la página será reservado para el momento en que se agreguen datos que deban ser guardados en ese espacio.
Lleno
Lleno
Lleno
Lleno
Lleno
Lleno
Lleno
Lleno
Libre
Libre
 
El fill factor es un número que va de 1 a 100, a nivel de servidor el valor predeterminado es 0, esto significa que las paginas serán llenadas en su totalidad – El valor 0 y 100 significan lo mismo para el fill factor –

Consideraciones para temas de rendimiento

Page splits (Contador: \SQLServer:Access Methods\Page Splits/sec)

Elegir correctamente el fill factor para los índices puede reducir notablemente los page splits, aprovisionando suficiente espacio para la expansión de los índices a medida que más datos sean agregados a la tabla; cuando una fila es agregada a una página de índice que se encuentra llena, el motor mueve aproximadamente la mitad de las filas a una nueva página con el fin de abrirle espacio a la nueva fila; el proceso de reorganización sobre las paginas es conocido como page split, este proceso abre espacio para nuevas filas, pero puede tomar tiempo además de ser costosa a nivel de recursos de máquina, además, puede causar fragmentación, lo que aumenta las operaciones de I/O.
Cuando ocurren operaciones de tipo page split de forma frecuente, se debe considerar la reconstrucción del índice (ALTER INDEX REBUILD) utilizando un valor diferente de fill factor para redistribuir los datos; para más información vea el articulo fragmentación y desfragmentación de índices.
 

Tener en cuenta para determinar el fill factor

Un valor para el fill factor diferente al 100%, es decir distinto de 0 y de 100, puede ser positivo para el rendimiento de la base de datos siempre y cuando la información que se va agregando a la tabla se distribuya sobre la misma; sin embargo, si la información que se va insertando a la tabla siempre va al final de la misma, los espacios vacíos nunca serán llenados ni aprovechados, por ejemplo, si estamos agregando información con una columna de tipo IDENTITY y que esta corresponde a la llave de la tabla, está siempre será incremental y las filas del índice serán agregadas al final del índice.
Si las filas actuales serán actualizadas con datos que aumenten el tamaño de las filas, es recomendable utilizar un fill factor menor a 100, estos bytes extra en cada página ayudaran a minimizar los page splits causados por el crecimiento del tamaño de fila.

Fragmentación y desfragmentación de índices


Una de las tareas más comunes y necesarias durante el proceso de optimización y mantenimiento de las bases de datos es la desfragmentación de los índices, es así mismo quizá la tarea más olvidada por los administradores de bases de datos.
Los índices altamente fragmentados pueden afectar de manera negativa el rendimiento del motor de bases de datos e incluso causar que su aplicación no responda de la manera adecuada. 

Fragmentación: Proceso mediante el cual el motor de base de datos debido a las constantes tareas de Insert, Update y Delete, a medida que estas instrucciones se van ejecutando dentro de nuestra base de datos, la misma sufre un proceso de dispersión de los datos, más conocida como fragmentación. La fragmentación ocurre cuando los índices tienen páginas que se encuentran ordenadas de forma lógica, y basándose en la llave estos no coinciden con el orden físico dentro del archivo de datos.

La fragmentación se puede solucionar mediante 2 opciones, reorganizar y/o reconstruir los índices, para los índices particionados esta tarea se puede ejecutar tanto en el índice completo como en la partición del mismo.
Reconstrucción del índice (Rebuild): Este proceso elimina y crea nuevamente el índice, remueve la fragmentación y recupera espacio en disco compactando las páginas basándose en la configuración del fill factor o en el parámetro de la instrucción.

Reorganización del índice (Reorganize): Este proceso requiere menos recursos del sistema y realiza la desfragmentación al nivel de la hoja de la página, reorganizando a nivel físico las hojas para que coincidan con el orden lógico de las mismas, la reorganización también compacta las páginas de los índices, esta se da basándose en la configuración del fill factor.
Detección de la fragmentación de los indices
Lo primero es determinar que método de desfragmentación usar, para esta tarea se puede utilizar la función sys.dm_db_index_physical_stats, esta nos devuelve la fragmentación de un índice, de los índices en una tabla, de los índices en una base de datos  o de todos los índices en todas las bases de datos, de igual manera para los índices particionados, esta función nos devuelve el estado de cada una de las particiones asociadas al índice.

Columna
Descripción
avg_fragmentation_in_percent
Porcentaje de fragmentación lógica
fragment_count
Cantidad de fragmentos
avg_fragment_size_in_pages
Numero promedio de páginas en un fragmento de un índice.
  
Tenga en cuenta las siguientes recomendaciones para determinar si debe reorganizar o reconstruir su índice. 

Porcentaje de fragmentación
Instrucción a ejecutar
Entre 5% y 30%
ALTER INDEX REORGANIZE
Mayor al 30%
ALTER INDEX REBUILD

Consulta para determinar el porcentaje de fragmentación (En toda la base de datos)

WITH INDICES (BD, INDICETIPO, FRAGMENTACION, INDICE, TABLA)
AS (
SELECT DBS.NAME BASEDEDATOS, PS.INDEX_TYPE_DESC, PS.AVG_FRAGMENTATION_IN_PERCENT,
IND.NAME INDICE, TAB.NAME TABLA
FROM
SYS.DM_DB_INDEX_PHYSICAL_STATS (DB_ID(), NULL, NULL, NULL, NULL) PS
INNER JOIN SYS.DATABASES DBS
ON PS.DATABASE_ID = DBS.DATABASE_ID
INNER JOIN SYS.INDEXES IND
ON PS.OBJECT_ID = IND.OBJECT_ID
INNER JOIN SYS.TABLES TAB
ON TAB.OBJECT_ID = IND.OBJECT_ID
WHERE IND.NAME IS NOT NULL AND PS.INDEX_ID = IND.INDEX_ID
AND PS.AVG_FRAGMENTATION_IN_PERCENT > 0)
SELECT DISTINCT 
      CASE
      WHEN FRAGMENTACION > 5 AND FRAGMENTACION <= 30 THEN 'ALTER INDEX ' + INDICE + ' ON ' + TABLA + ' REORGANIZE'     
      WHEN FRAGMENTACION > 30 THEN 'ALTER INDEX ' + INDICE + ' ON ' + TABLA + ' REBUILD'
      END QUERY, FRAGMENTACION, BD, INDICE, TABLA
FROM (SELECT FRAGMENTACION, INDICE, TABLA, BD FROM INDICES
      WHERE FRAGMENTACION > 5) A
ORDER BY FRAGMENTACION DESC

Los índices pueden ser reconstruidos en línea o fuera de línea, la reorganización siempre se da en línea, para mantener niveles de disponibilidad similares a la de los índices reorganizados, la reconstrucción debe darse en línea y mediante la instrucción.
ALTER INDEX REBUILD WITH (ONLINE = ON)

Friday, August 10, 2012

DBCC SHRINKFILE y sus implicaciones

 

Hace algun tiempo un cliente me pidio una solucion para poder reducir el tamano de las bases de datos, mi respuesta ante este tipo de preguntas siempre ha sido otras preguntas:

  1. Para que quiere reducir el tamano de su base de datos?
  2. No tiene espacio?

La respuesta ante esto es tipicamente la misma

  1. Para hacerle “Mantenimiento”
  2. Si tengo, pero es que quiero liberarlo…

Ante estas respuestas procuro siempre darle la misma recomendacion a mis clientes:

No lo haga, no lo haga a menos que sea extrictamente necesario!

Muchas veces los clientes y algunos DBAs ejecutan la siguiente instruccion con el fin de reducir el tamano de sus bases de datos

   1:  USE AdventureWorks;
   2:  GO
   3:  -- Truncate the log by changing the database recovery model to SIMPLE.
   4:  ALTER DATABASE AdventureWorks
   5:  SET RECOVERY SIMPLE;
   6:  GO
   7:  -- Shrink the truncated log file to 1 MB.
   8:  DBCC SHRINKFILE (AdventureWorks_Log, 1);
   9:  GO
  10:  -- Reset the database recovery model.
  11:  ALTER DATABASE AdventureWorks
  12:  SET RECOVERY FULL;
  13:  GO



Sin embargo este codigo tiene un impacto bastante importante…


Si vamos a la linea 4 y 5, vemos que la base de datos es inicialmente cambiada a modo de recuperacion SIMPLE, al hacer este cambio la historia de copias de seguridad (Backups) de la base de datos se pierde, de esta manera, si deseas sacar un backup diferencial de tu base de datos, sera necesario sacar un backup full nuevamente.


Ten cuidado de las implicaciones que pueda tener la ejecucion de codigo dentro de tus bases de datos.


Nos leemos luego!


John Peace

Monday, April 16, 2012

Si Shakespeare fuese un DBA – Cluster o NonCluster, esa es la cuestion

 

Durante el SQL Saturday #124, llevado a cabo en Bogota, Colombia y con mas de 200 asistentes, formule una pregunta para la que aplica cualquier tipo de respuesta…

Usar un indice tipo Cluster o usar un indice tipo NonCluster, la pregunta fue rapida, sin mayores detalles, la verdad esperaba tener silencio en el auditorio, pero contrario a lo que yo pensaba, me encontre con multiples respuestas, podriamos decir que la mitad reaccionaron inmediatamente y a una sola voz dijeron CLUSTER…

Durante la charla decidi explicar de la mejor manera posible lo que es un indice Cluster y lo que es un Indice NonCluster, de esta forma las opiniones cambiaron y al final todos llegamos a un concenso… Que sea Cluster o NonCluster dependen unica y exclusivamente de los requerimientos del negocio y de los requerimientos tecnicos, no hay uno mejor que el otro, ni uno sera mas rapido que el otro, todo DEPENDE…

Indice tipo Cluster

Consiste en informacion organizada fisicamente, un ejemplo claro y rapido de este tipo de indices, es el indice principal de un libro, alli todo esta organizado fisicamente y cuando accedemos al dato lo hacemos de forma directa, sin embargo tiene implicaciones de rendimiento importante al momento de escribir o actualizar datos en una tabla o en el libro, veamoslo de la siguiente manera, si tomas un libro y haces un DELETE (Arrancas un par de hojas), seguramente actualizar el indice no sera muy complejo, simplemente vamos a las primeras paginas, ubicamos las hojas que eliminamos y podriamos tacharlas alli directamente, ahora bien, al mismo libro decidimos agregarle un nuevo capitulo entre el 1 y el 2, llamemoslo capitulo 1.5, luego tomamos el libro, lo mandamos desbaratar y agregamos las paginas de nuestro nuevo capitulo, para poder agregar este capitulo al indice se hace entonces necesario eliminar algunas paginas del indice, editarlas, abrirle espacio al nuevo capitulo y reacomodar la informacion que ya se encontraba contenida en ese indice…

Comportamiento en el motor Ejemplo de indice tipo Cluster
image image

 

indice tipo noncluster

El indice tipo NonCluster se asemeja entonces al glosario de un libro, en este la informacion no se encuentra almacenada fisicamente y funciona bajo los mismos parametros de un apuntador, sabemos que informacion es y donde se encuentra, una vez identificamos esta informacion debemos ir hasta alli…

Una de las grandes ventajas del indice tipo NonCluster es la velocidad de escritura y actualizacion, sin embargo en la busqueda no es tan efectivo como el tipo Cluster.

Comportamiento en el motor

Ejemplo de indice tipo NonCluster

image image

Hasta la proxima

Monday, March 12, 2012

SSIS Fuzzy Lookup Add-in for Excel (From Microsoft Research)

 

Bueno, en esos dias en los que no tienes nada que hacer y encuentras un tool interesante, navegando y leyendo por ahi me encontre con un componente desarrollado por Microsoft Research en donde llevan toda la funcionalidad del Fuzzy Lookup de SQL Server Integration Services directamente a Excel.

Para descargarlo pueden ir a:

http://www.microsoft.com/download/en/details.aspx?id=15011

Ahora bien, la instalacion es supremamente simple, lo descomprimen y lanzan el archivo setup.exe, no es necesario tener Excel cerrado, ya que despues de la instalacion y al abrir excel, este lanza una ventana en donde pregunta si queremos instalar el Fuzzy lookup en nuestro excel, al final tendremos un nuevo menu en nuestro excel.

image

La utilizacion del componente es igualmente sencilla, simplemente damos clic en la pestaña y abrimos las opciones del mismo, estas se reducen a 1 opcion.

image

Damos clic en esta opcion y ya podremos trabajar con el componente, al dar clic alli se abre un menu al mejor estilo Smart Documents.

image

El componente esta en su primer version, aun no podemos hacer cosas como hacer lookup entre 2 libros distintos o contra una base de datos de forma nativa, sin embargo hay trucos para esto como una conexion de datos y demas.

Tampoco podemos hacerlo contra un segmento de datos, debe hacerse contra tablas directamente, para crear una tabla en excel y no complicarnos tanto la vida, simplemente llenen los datos en una hoja de datos normal y luego le aplican un formato de tabla, de esa manera lo pueden hacer de forma rapida y simple.

Yo cree rapidamente una tabla con 4 ciudades de Colombia

 

image

Ahora cree una tabla con las mismas ciudades pero con errores tipograficos y ortograficos.

image

Ahora simplemente lo que debemos hacer es seleccionar nuestras tablas, el orden si importa, normalmente vemos que a la izquierda va la tabla fuente o la tabla maestra, a la derecha normalmente va la tabla que se analizara, sin embargo este componente funciona al contrario, a la izquierda (Left) debemos seleccionar la tabla que contiene los datos que se analizaran, a la derecha debe ir la tabla maestra.

image

Ahora simplemente damos clic en Go.

Al dar clic el componente genera nuevas columnas en donde se devuelve la similitud con el dato de la siguiente manera

image

Esta similitud esta dada en porcentaje, asi que el numero mas cercano a 1 es el mas exacto.

Con esto pueden hacer luego un Vlookup y reemplazar los datos “Sucios” por los datos buenos.

Si tienen alguna duda dejenmelo saber a traves de los comentarios.

John

LinkWithin

Related Posts Plugin for WordPress, Blogger...