Vornamen
Vornamen und Häufigkeit
Die Verwendung von Vornamen unterliegt immer dem Geschmack (siehe jährliche Top10-Liste des Statistischen Bundesamtes) als auch regionalen Schwankungen. Deshalb ist bei einer Untersuchung über Häufigkeiten von Vornamen auch auf eine ausreichende Verteilung innerhalb der Altersstruktur zu achten.
Jeder zwanzigste hat zwei oder mehrere Vornamen, die Männer häufiger als die Frauen. Dafür ist bei den Frauen der zweite Vorname sehr häufig Maria oder Elisabeth. Es gibt allerdings auch Vornamen die überdurchschnittlich häufig einen zweiten Vornamen beigestellt haben; dazu zählen Hans, Karl und Uwe.
Rang | Männer | Frauen |
---|---|---|
1 | Hans | Petra |
2 | Michael | Sabine |
3 | Thomas | Monika |
4 | Peter | Andrea |
5 | Andreas | Gabriele |
Tip: Bei Abgleich von unterschiedlichen Datenquellen ist auch wichtig zu wissen, ob bei der Adresserfassung ein Ausweispapier vorgelegen hat. Ohne Ausweis wird eine Gabrielle schonmal schnell zu einer Gaby und der ungeliebte zweite Vorname wird nicht eingetragen.
Problem(e)
Für eine saubere Bearbeitung von Vornamen muss sichergestellt sein, dass kein Titel oder Gruppierung von mehreren Personen vorhanden sind. Das hier vorgestelle Oracle PL/SQL-Script liest den Vornamen aus der Spalte vorname in der Tabelle Tbl_Vornamen und überprüft diese auf Titel und schreibt die korrigierte Darstellung des Vornamen in Grossbuchstaben in die Spalten korrigiert und stamm. Setzt sich der Vornamen aus mehreren Namen zusammen, wird der nur erste in die Spalte stamm geschrieben.
-- File : Tbl_Vornamen.cre
-- Author: Georg Verweyen
--
create table Tbl_Vornamen
(
anrede char(1),
vorname varchar2(40),
korrigiert varchar2(40),
stamm varchar2(40),
anzahl number,
status varchar2(15)
)
;
Das Script benutzt eine SQL-Funktion clean_pre_string um den Titel aus dem Vornamen zu entfernen.
-- File : FUNCTION_CLEAN_STRING.SQL
-- Author : Georg Verweyen
-- Description : Löscht den angegebenen Prefix aus der Zeichenkette, wenn er vorhanden
-- ist, und auch eventuell danach folgende Blanks und Minuszeichen.
--
-- Einsatzmöglichkeit: Löschen vor "Dr." aus Vornamenfelder
-- update tbl_vorname
-- set vorname = clean_pre_string (vorname, 'Dr.')
-- where vorname like 'Dr. %' -- Where nur um Anzahl der Updates zu reduzieren!
-- ;
--
create or replace function clean_pre_string (Zeichenkette in varchar2, PreFix in varchar2)
return varchar2 IS
result varchar2(40);
begin
result := ZeichenKette;
WHILE substr(result,1,length(PreFix)) = PreFix LOOP
result := substr(result,length(PreFix)+1);
WHILE (substr(result,1,1) = ' ') or (substr(result,1,1) = '-') LOOP
result := substr(result,2);
END LOOP;
END LOOP;
RETURN result;
end;
/
show errors
Das Script bearbeitet nur die Datensätze mit dem Status 'eingelesen' und schreibt als abschliessende Status 'bearbeitet', 'Titel entfernt', 'mehrere Pers.' sowie 'Sonderzeichen'. Wegen der Größe des Script wird es hier nicht aufgelistet.
Die Tabelle muss natürlich für nicht statistische Zwecke noch mit einer Spalte für einen eineindeutigen Zugriffsschlüssel ergänzt werden. Dies wäre z.B. dann notwendig, wenn man bei der Datenerfassung vergessen hat, das Geschlecht mit zu erfassen.
Aus einer größeren Datensammlung wurde eine Liste von ca. 13.000 Vornamen erstellt, die man eindeutig einem Geschlecht zuordnen kann. Bei Vornamen, die nicht in dieser Liste vorkommen (z.B. Kim und Eike), sollte man sich den zweiten Vornamen ansehen, der sollte nach deutschen Namensrecht eindeutig sein.
Datei(en)
Die Datei vornamen_sql.zip enthält die erwähnten Oracle-SQL-Scripte zur Bearbeitung von Vornamen.
Die Datei vornamen.zip enthält eine Excel-Mappe mit
den gebräuchlichsten Vornamen und deren Häufigkeit, sowie jeweils eine Liste von
Vornamen, die eindeutig dem männlichen oder weiblichen Geschlecht zugeordnet
werden können.
Hinweis: In einem hervorragenden c't-Artikel (c't 17/2007, S. 181) wird eine
Software zur Geschlechtsbestimmung anhand des Vornamens beschrieben. Bei einem
ersten Abgleich der beiden Datensammelungen, habe ich einige Fehler in hier
angebotenen Sammlung feststellen müssen. Diese Fehler sind in der Zwischenzeit behoben.
Es werden neben den Zeichen von A-Z jetzt auch nur noch Ä (Binärwert 196), Ö
(214) und Ü (220) verwendet. In den Artikel und Daten wird auch hervorragend
auf die Besonderheiten der Geburtsländer (nicht des Aufenthaltsland(!))
eingegangen. Als Standardbeispiel muss der in Deutschland als Frauenname
verwendete Namen Andrea herhalten, der in Italien ein Männername genutzt wird.
Hinweis 2 zur Datensammlung aus der c't:
• der amerikanische Name Harper ist nicht männlich sondern weiblich.
• einge sehr seltene Namen (keine Schreibfehler!) fehlen wie Silvely (F) und Maximillian (M).
Die Software steht unter GPL-Lizenz (Version 2) und ist unter den folgenden c't Link besorgbar.