Datasets

datasets frecuencia severidad

Descripción de las bases de datos de la biblioteca insuranceData.

Yanely Luna Gutiérrez true
03-18-2021

Package insuranceData

El paquete de R insuranceData contiene una colección de conjuntos de datos (datasets) usados comunmente para ejemplificar el ajuste de modelos de severidad y frecuencia para seguros de daños. A continuación se describe cada uno de los datasets de este paquete y algunos más que son complemento del libro Regression Modeling with Actuarial and Financial Applications.

#install.packages("insuranceData")
library(insuranceData)

AutoBi: Automobile Bodily Injury Claims

Contiene información de 1,340 reclamaciones en 8 variables relacionadas con características demográficas del reclamante, participación legal y la pérdida económica, entre otras. Los datos fueron recolectados en 2002 por la Insurance Reaserch Council (IRC) y pertenecen a un mismo estado de EE.UU. Todas las variables están registradas como numéricas.

Variables:

  • CASENUM: Número de caso para identificar la reclamación.

  • ATTORNEY: Indica si el reclamante está representado por un abogado.

    • 1: Sí
    • 2: No
  • CLMSEX: Género del reclamante. Contiene 12 valores nulos.

    • 1: Hombre
    • 2: Mujer
  • MARITAL: Estado civil del reclamante. Contiene 16 valores nulos.

    • 1: Casado
    • 2: Soltero
    • 3: Viudo
    • 4: Divorciado
  • CLMINSUR: Indica si el vehículo del reclamante se encontraba o no asegurado.

    • 1: Sí
    • 2: No
    • 3: No aplicable
  • SEATBELT: Indica si el reclamante estaba usando el cinturón de seguridad.

    • 1: Sí
    • 2: No
    • 3: No aplicable
  • CLMAGE: Edad del reclamante. Contiene 189 valores nulos.

  • LOSS: El monto total de la pérdida económica del reclamante (en miles de dólares).

AutoClaims: Automobile Insurance Claims

Esta base de datos contiene información sobre la experiencia de una aseguradora del oeste de EE.UU. en reclamaciones de seguros de automóviles de pasageros privados. La aseguradora utiliza un sistema de clasificación de riesgo para las pólizas basado en las características de la persona que opera el vehículo y las características propias del vehículo. La base está conformada por 6,773 observaciones de 5 variables.

Variables:

  • STATE: Variable categórica con códigos del 01 al 17 que se asigna aleatoriamente para representar un estado. Por ejemplo, las observaciones que tienen el valor STATE01 en esta columna pertenecen a un mismo estado pero no sabemos el nombre real de dicho estado.

  • CLASS: Representa la calificación del operador del vehículo. Toma en cuenta variables como la edad, género, estado civil y uso del vehículo. Está registrada como una variable categórica con los siguientes niveles: C1,C11, C1A, C1B, C1C, C2, C6, C7, C71, C72, C7A, C7B, C7C, F1, F11, F6, F7, F71.

  • GENDER: Indica el género del operador. Está registrada como una variable categórica con los siguientes niveles:

    • F: Mujer
    • M: Hombre
  • AGE: Edad del operador.

  • PAID: Monto de la reclamación que se pagó (en dólares).

AutoCollision: Automobile UK Collision Claims

La base de datos original contiene 8,942 pérdidas por colisiones en seguros de automóviles de pasajeros privados del Reino Unido. Esta base está conformada por 32 observaciones: 8 tipos de conductores (por grupo de edad) y 4 tipos de vehículos.

Variables:

  • Age: Edad del conductor. Está registrada como una variable categórica con los niveles A, B, C, D, E, F, G, H, I.

  • vehicle_Use: Indica el propósito del uso del vehículo. Es una variable categórica con los siguientes niveles:

    • Business:
    • DriveLong: Para conducir al trabajo (más de 10 millas).
    • DriveShort: Para conducir al trabajo (menos de 10 millas).
    • Pleasure:
  • Severity: Monto promedio de reclamación (en libras esterlinas ajustado por inflación).

  • Claim_Count: Número de reclamaciones.

ClaimsLong: Claims Longitudinal

Contiene datos simulados de una base de datos de seguros de autos. Se tienen 40,000 pólizas por 3 años, resultando en 120,000 registros.

Variables:

  • policyID: Número de póliza.

  • agecat: Variable categórica con 5 niveles que representa la edad a la que pertenece la edad del conductor, siendo 1 el grupo de edad más jóven.

  • valuecat: Variable categórica con 6 niveles que representa el valor del vehículo. (La categoría 1 fue registrada como 9.)

  • period: Año de observación. Está registrada como variable numérica con valores 1,2,3.

  • numclaims: Número de reclamaciones.

  • claim: Indica si hubo o no reclamación. Contiene los valores0 y 1.

dataCar: data Car

Esta base de datos contiene información de pólizas de seguro de autos con vigencia de un año. Se tienen información de 67,856 pólizas.

Variables:

  • veh_value: Valor del vehículo en unidades de 10 mil dólares.

  • exposure: Exposición de la póliza. Valor entre 0 y 1.

  • clm: Indica si ocurrió o no una reclamación.

    • 0: No
    • 1: Sí
  • numclaims: Número de reclamaciones de la póliza.

  • claimcst0: Monto de la reclamación.

  • veh_body: Indica el tipo de vehículo. Es una variable categórica con los siguientes 13 niveles: BUS, CONVT, COUPE, HBACK, HDTOOP, MCARA, MIBUS, PANVN, RDSTR, SEDAN, STNWG, TRUCK, UTE.

  • veh_age: Antigüedad del vehículo. Puede tomar los valores 1,2,3 o 4, siendo 1 el grupo de menor antigüedad.

  • gender: Género del conductor.

    • F: Mujer
    • M: Hombre
  • area: Área de residencia del conductor. Es una variable categórica con los niveles A, B, C, D, E, F.

  • agecat: Categoría a la que pertenece la edad del conductor. Los niveles van del 1 al 6, siendo 1 el nivel de menor edad.

  • X_OBSTAT_: Variable factor con un único nivel 01101 0 0 0.

veh_value exposure clm numclaims claimcst0 veh_body veh_age gender area agecat X_OBSTAT_
1.06 0.3039014 0 0 0 HBACK 3 F C 2 01101 0 0 0
1.03 0.6488706 0 0 0 HBACK 2 F A 4 01101 0 0 0
3.26 0.5694730 0 0 0 UTE 2 F E 2 01101 0 0 0
4.14 0.3175907 0 0 0 STNWG 2 F D 2 01101 0 0 0
0.72 0.6488706 0 0 0 HBACK 4 F C 2 01101 0 0 0
2.01 0.8542094 0 0 0 HDTOP 3 M C 4 01101 0 0 0

dataOhlsson: Motorcycle Insurance

Los datos provienen de un estudio realizado por una aseguradora suiza (Wasa) que involucra seguros de “casco parcial” para motocicletas. Contiene información agregada de todas las pólizas y reclamaciones entre 1994 y 1998. Se tienen 64,548 observaciones en 9 variables.

Variables:

  • agarald: Edad del propietario en años.

  • kon: Género del propietario.

    • K: Mujer
    • M: Hombre
  • zon: Zona geográfica. Toma los valores enteros del 1 al 7.

  • mcklass: Clasificación basada en el EV ratio calculado como: \[EV = \frac{\text{Potencia del motor en KW}\times100}{\text{Peso del vehículo en kg + 75} }\] y redondeado al menor entero más cercano. Los valores de EV ratio están divididos en 7 clases.

  • fordald: Antigüedad del vehículo en años.

  • bonuski: Bonus class. Toma valores enteros entre 1 y 7. Un conductor nuevo comienza con 1 punto y por cada año en el que no tenga reclamaciones se incrementa 1 punto. Al ocurrir la primera reclamación se restan 2 puntos. El conductor no puede regresar a la clase 7 (la más alta) a menos que hayan pasado 6 años consecutivos sin reclamación.

  • duration: Años de vigencia de la póliza.

  • antskad: Número de reclamaciones.

  • skadkost: Monto de la reclamación.

IndustryAuto: Auto Industry

Contiene la información agregada de la industria en las coberturas de responsabilidad y gastos médicos en autos, correspondientes al año 2004 en millones de dólares. Se tienen 55 observaciones sobre 3 variables.

Variables:

  • Incurral.Year: Año en el que se realizó la reclamación.

  • Development.Year: Número de años que transcurrieron entre la ocurrencia de la reclamación y el momento en que se hizo el pago de la misma.

  • Claim: Monto agregado de los pagos netos (en millones de dólares).

SingaporeAuto: Singapore Automobile Claims

Esta base de datos proviene de la General Insurance Association of Singapore. Se compone de 7,483 observaciones sobre 15 variables relacionadas con siniestros en automóviles.

Variables:

  • SexInsured: Variable categórica que indica el sexo del conductor del vehículo.

    • F: Mujer
    • M: Hombre
    • U: No especificado.
  • Female: Indica si el conductor del vehículo es de sexo femenino. Es consistente con la información de la variable SexInsured.

  • VehicleType: Tipo del vehículo. Es una variable categórica con niveles A, G, M, P, Q, S, T, W, Z.

  • PC: Indica si se trata de un vehículo privado o no.

    • 1: Sí
    • 2: No
  • Clm_Count: Número de reclamaciones durante el año.

  • Exp_weights: Exposición o fracción del año durante la cual la póliza estuvo en efecto.

  • LNWEIGHT: Logaritmo natural de Exp_weights

  • NCD: No claims discount. Descuento por no reclamaciones. Basado en el previo registro de accidentes del conductor. El descuento es mayor cuando el registro previo es mejor.

  • AgeCat: Edad del conductor agrupada en siete categorías:

    • 0: Menor o igual a 21 años.
    • 1: Entre 22 y 25 años, inclusivo.
    • 2: Entre 26 y 35 años, inclusivo.
    • 3: Entre 36 y 45 años, inclusivo.
    • 4: Entre 46 y 55 años, inclusivo.
    • 5: Entre 56 y 65 años, inclusivo.
    • 6: Mayor o igual a 66 años.
  • AutoAgeO:

    • 1 Si se trata de un auto privado y VAgeCat = 0.
    • 0 En otro caso
  • AutoAge1:

    • 1 Si se trata de un auto privado y VAgeCat = 1.
    • 0 En otro caso
  • AutoAge2:

    • 1 Si se trata de un auto privado y VAgeCat = 2.
    • 0 En otro caso
  • AutoAge:

    • 1 Si se trata de un auto privado y VAgeCat es 0, 1 o 2.
    • 0 En otro caso
  • VAgeCat: Antigüedad del vehículo agrupada en siete categorías.

    • 0: Menor a un año.
    • 1: 1 año.
    • 2: 2 años.
    • 3: Entre 3 y 5 años.
    • 4: Entre 6 y 10 años.
    • 5: Entre 11 y 15 años.
    • 6: Mayor o igual a 16 años.
  • VAgecat1: Representa los mismos grupos que VAgeCat pero con las categorías 0,1 y 2 agrupadas en la categoría 2.

SexInsured Female VehicleType PC Clm_Count Exp_weights LNWEIGHT NCD AgeCat AutoAge0 AutoAge1 AutoAge2 AutoAge VAgeCat VAgecat1
U 0 T 0 0 0.6680356 -0.4034138 30 0 0 0 0 0 0 2
U 0 T 0 0 0.5667351 -0.5678633 30 0 0 0 0 0 0 2
U 0 T 0 0 0.5037645 -0.6856463 30 0 0 0 0 0 0 2
U 0 T 0 0 0.9144422 -0.0894411 20 0 0 0 0 0 0 2
U 0 T 0 0 0.5366188 -0.6224674 20 0 0 0 0 0 0 2
U 0 T 0 0 0.7529090 -0.2838110 20 0 0 0 0 0 0 2

Thirdparty: Third party insurance

El seguro third party (a terceros) es un seguro obligatorio para conductores de automóviles en Australia. Este conjunto de datos contiene el registro del número de reclamaciones hechas de este tipo de seguro durante doce meses entre 1984 y 1986 en cada una de las 176 zonas geográficas de New South Wales, Australia.

Variables:

lga.sd.claims.accidents.ki.population.pop_density
ASHFIELD;1;1103;2304;920;124850;0 499001
AUBURN;1;1939;2660;1465;143500;0 148379
BANKSTOWN;1;4339;7381;3864;470700;0 205407
BAULKHAMHILLS;1;1491;3217;1554;311300;0 25879
BLACKTOWN;1;3801;6655;4175;584900;0 81222
BOTANY;1;387;2013;854;106350;0 178143

La base de datos contiene 176 registros en una columna con nombre lga.sd.claims.accidents.ki.population.pop_density que contiene valores enteros (correspondiente a la población de cada área geográfica). Sin embargo, el nombre de cada renglón contiene el resto de la información de las otras variables. Por ejemplo, el nombre del primer renglón es ASHFIELD;1;1103;2304;920;124850;0, en el cual se encuentran las observaciones de las demás variables separadas por un punto y coma.

  • lga: local government areas. Nombre del área geográfica.

  • sd: statistical divisions. Indica el número de la división estadística a la que pertenece cada área. Exisiten 13 divisiones.

  • claims: Número de reclamaciones realizadas.

  • accidents: Número de accidentes reportados.

  • ki: Número de personas que murieron o resultaron heridas.

  • population: Población total.

  • pop_density

Después de realizar un tratamiento a la base para separar los valores de cada columna, se ve de la siguiente forma:

WorkersComp: Workers Compensation

Contiene información sobre las reclamaciones por incapacidad parcial permanente en el seguro de compensación a trabajadores. Los datos provienen originalmente de la National Council on Compensation Insurance. Con la finalidad de mantener la confidencialidad, la información detallada sobre las clases de ocupación de los trabajadores y los años observados no se encuentra disponible. Se tienen 847 observaciones sobre 4 variables.

Variables:

  • CL: Identificador de la clase de trabajador.

  • YR: Identificador del año.

  • PR: Nómina (como medida de exposición a las pérdidas) expresada en unidades de 10 millones de dólares.

  • LOSS: Pérdidas por compensaciones por incapacidad parcial permanente, expresadas en unidades de 10 millones de dólares.

Datasets del libro Regression Modeling with Actuarial and Financial Applications

AutoBi: Automobile Bodily Injury Claims

No disponible.

AutoBIsim: Automobile Bodily Injury Claims Simulated

Contiene 1340 observaciones de 8 variables cuyos nombres son los mismos que los de la base AutoBi que se describió anteriormente y que también tiene 1340 observaciones. A diferencia de AutoBi, AutoBIsim no contiene valores nulos.

X ATTORNEY CLMSEX MARITAL CLMINSUR SEATBELT CLMAGE LOSS
1 1 2 2 2 1 1.8 6.38
2 2 2 1 2 1 5.6 0.95
3 1 1 2 2 1 1.4 1.88
4 2 1 1 2 1 5.4 0.11
5 1 2 2 2 1 0.9 6.95
6 2 2 2 2 1 2.3 0.15

AutoCollision: Automobile UK Collision Claims

Contien la misma información que la base antes descrita con el mismo nombre a excepción de la columna Age en la que se muestra explícitamente los rangos de edad que conforman cada grupo (en la anterior se muestran solo los nivels A,B,…,H).

  • A: 17-20 años.
  • B: 21-24 años.
  • C: 25-29 años.
  • D: 30-34 años.
  • E: 35-39 años.
  • F: 40-49 años.
  • G: 50-59 años.
  • H: 60+ años.

AutoClaims: Automobile Insurance Claims

Contiene los mismos datos que la base con el mismo nombre descrita anteriormente.

SingaporeAuto: Singapore Automobile Claims

Contiene los mismos datos que la base con el mismo nombre descrita anteriormente.

Swedish Motor Insurance

Los datos fueron recabados por el Swedish Committee on the Analysis of Risk Premium in Motor Insurance. Contiene información sobre las reclamaciones en la cobertura de responsabilidad civil en seguro de automóviles correspondientes al año 1977. Tomando en cuenta las 5 categorías de distania recorrida por el vehículo, 7 zonas geográficas, 7 categorías de bonus y 9 tipos de vehículos, existen 2,205 combinaciones, sin embargo, solo se consideraron 2,182.

Variables:

  • Kilometres: Distancia conducida por el vehículo. Variable categórica con 5 niveles.

  • Zone: Zona geográfica del vehículo, agrupadas en 7 categorías.

  • Bonu: Basado en el registro previo de reclamaciones del conductor. Variable categórica con 7 niveles.

  • Make: Tipo del vehículo. Variable categórica con 9 niveles.

  • Insured: Exposición (fracción del año durante la cual estuvo vigente la póliza).

  • Claims: Número de reclamaciones.

  • Payment: Suma de los pagos de las reclamaciones.

Kilometres Zone Bonus Make Insured Claims Payment
1 1 1 1 455.13 108 392491
1 1 1 2 69.17 19 46221
1 1 1 3 72.88 13 15694
1 1 1 4 1292.39 124 422201
1 1 1 5 191.01 40 119373
1 1 1 6 477.66 57 170913