Impressum   

Vornamen

Vornamen und Häufigkeit

Die Verwendung von Vornamen unterliegt immer dem Geschmack (siehe jährliche Top10-Liste des Statistischen Bundesamtes) als auch regionalen Schwankungen. Deshalb ist bei einer Untersuchung über Häufigkeiten von Vornamen auch auf eine ausreichende Verteilung innerhalb der Altersstruktur zu achten.

Jeder zwanzigste hat zwei oder mehrere Vornamen, die Männer häufiger als die Frauen. Dafür ist bei den Frauen der zweite Vorname sehr häufig Maria oder Elisabeth. Es gibt allerdings auch Vornamen die überdurchschnittlich häufig einen zweiten Vornamen beigestellt haben; dazu zählen Hans, Karl und Uwe.

RangMännerFrauen
1HansPetra
2MichaelSabine
3ThomasMonika
4PeterAndrea
5AndreasGabriele

Tip: Bei Abgleich von unterschiedlichen Datenquellen ist auch wichtig zu wissen, ob bei der Adresserfassung ein Ausweispapier vorgelegen hat. Ohne Ausweis wird eine Gabrielle schonmal schnell zu einer Gaby und der ungeliebte zweite Vorname wird nicht eingetragen.

Problem(e)

Für eine saubere Bearbeitung von Vornamen muss sichergestellt sein, dass kein Titel oder Gruppierung von mehreren Personen vorhanden sind. Das hier vorgestelle Oracle PL/SQL-Script liest den Vornamen aus der Spalte vorname in der Tabelle Tbl_Vornamen und überprüft diese auf Titel und schreibt die korrigierte Darstellung des Vornamen in Grossbuchstaben in die Spalten korrigiert und stamm. Setzt sich der Vornamen aus mehreren Namen zusammen, wird der nur erste in die Spalte stamm geschrieben.

-- File  : Tbl_Vornamen.cre
-- Author: Georg Verweyen
--
create table Tbl_Vornamen
(
  anrede     char(1),
  vorname    varchar2(40),
  korrigiert varchar2(40),
  stamm      varchar2(40),
  anzahl     number,
  status     varchar2(15)
)
;

Das Script benutzt eine SQL-Funktion clean_pre_string um den Titel aus dem Vornamen zu entfernen.

-- File            : FUNCTION_CLEAN_STRING.SQL
-- Author          : Georg Verweyen
-- Description     : Löscht den angegebenen Prefix aus der Zeichenkette, wenn er vorhanden
--                   ist, und auch eventuell danach folgende Blanks und Minuszeichen.
--
--                   Einsatzmöglichkeit: Löschen vor "Dr." aus Vornamenfelder
--                   update tbl_vorname
--                      set vorname = clean_pre_string (vorname, 'Dr.')
--                    where vorname like 'Dr. %' -- Where nur um Anzahl der Updates zu reduzieren!
--                   ;
--
create or replace function clean_pre_string (Zeichenkette in varchar2, PreFix in varchar2)
  return varchar2 IS
  result varchar2(40);
begin
  result := ZeichenKette;
  WHILE substr(result,1,length(PreFix)) = PreFix LOOP
    result := substr(result,length(PreFix)+1);
    WHILE (substr(result,1,1) = ' ') or (substr(result,1,1) = '-') LOOP
      result := substr(result,2);
    END LOOP;
  END LOOP;
  RETURN result;
end;
/
show errors

Das Script bearbeitet nur die Datensätze mit dem Status 'eingelesen' und schreibt als abschliessende Status 'bearbeitet', 'Titel entfernt', 'mehrere Pers.' sowie 'Sonderzeichen'. Wegen der Größe des Script wird es hier nicht aufgelistet.

Die Tabelle muss natürlich für nicht statistische Zwecke noch mit einer Spalte für einen eineindeutigen Zugriffsschlüssel ergänzt werden. Dies wäre z.B. dann notwendig, wenn man bei der Datenerfassung vergessen hat, das Geschlecht mit zu erfassen.

Aus einer größeren Datensammlung wurde eine Liste von ca. 13.000 Vornamen erstellt, die man eindeutig einem Geschlecht zuordnen kann. Bei Vornamen, die nicht in dieser Liste vorkommen (z.B. Kim und Eike), sollte man sich den zweiten Vornamen ansehen, der sollte nach deutschen Namensrecht eindeutig sein.

Datei(en)

Die Datei vornamen_sql.zip enthält die erwähnten Oracle-SQL-Scripte zur Bearbeitung von Vornamen.

Die Datei vornamen.zip enthält eine Excel-Mappe mit den gebräuchlichsten Vornamen und deren Häufigkeit, sowie jeweils eine Liste von Vornamen, die eindeutig dem männlichen oder weiblichen Geschlecht zugeordnet werden können.

Hinweis: In einem hervorragenden c't-Artikel (c't 17/2007, S. 181) wird eine Software zur Geschlechtsbestimmung anhand des Vornamens beschrieben. Bei einem ersten Abgleich der beiden Datensammelungen, habe ich einige Fehler in hier angebotenen Sammlung feststellen müssen. Diese Fehler sind in der Zwischenzeit behoben. Es werden neben den Zeichen von A-Z jetzt auch nur noch Ä (Binärwert 196), Ö (214) und Ü (220) verwendet. In den Artikel und Daten wird auch hervorragend auf die Besonderheiten der Geburtsländer (nicht des Aufenthaltsland(!)) eingegangen. Als Standardbeispiel muss der in Deutschland als Frauenname verwendete Namen Andrea herhalten, der in Italien ein Männername genutzt wird.

Hinweis 2 zur Datensammlung aus der c't:
• der amerikanische Name Harper ist nicht männlich sondern weiblich.
• einge sehr seltene Namen (keine Schreibfehler!) fehlen wie Silvely (F) und Maximillian (M).

Die Software steht unter GPL-Lizenz (Version 2) und ist unter den folgenden c't Link besorgbar.