De Site / Algemeen / Automatiseren van hoofdlettergebruik
zoeken in:
0
JonnieBrasco
geplaatst: 16 augustus 2005, 22:09 uur
Misschien is dit voorstel te onmogelijk, maar het zou wat zijn als we bij het toevoegen (en het goedkeuren van toevoegingen) niet meer hoeven te letten op correct hoofdlettergebruik. Als de site nou zélf alle hoofdlettertjes goed zet bij het tonen van een album... zodat het het in de database niet meer op perfectie aankomt. Jordy vond het een goed idee, daarom heb ik een beknopt opzetje gemaakt. Ik besef wel dat onderstaande opsomming misschien slechts 10% is van alle regeltjes en uitzonderingen die nodig zijn om de site in "totally automated case" zelfstandig te laten opereren. Wie denkt er (het liefst geordend) mee? Het automatiseren hoeft niet 100% perfect natuurlijk; ik denk dat de site er bij het implementeren van een handjevol regels al snel netter en eenduidiger bij zal staan.
1. Alle woorden standaard met hoofdletter.
2. Woorden (lidwoorden, voorzetsels) die vervolgens naar een kleine letter omgezet moeten worden:
- Engels: a, an, and, as, at, in, on, of, to, by, for, into, upon, from, .... (aanvullen)
- Nederlands: de, het, een, in, bij, op, over, door, ..... (aanvullen)
- Frans: un, une, de, le, la, a, ...... (aanvullen)
- Duits: der, die, das, ein, eine, einer, aus, bei, mit, nach, seit, von, zu, ... (ken je rijtjes
- aanvullen)
- Spaans/Portugees:
- Andere talen: erg relevant?
- Tricky: woord dat in taal a een voorzetsel is, en in taal b niet.
3. Leestekens, spaties:
- spaties voor elke punt, komma, dubbele punt, puntkomma weghalen
- zorgen voor een spatie voor elke vierkante/ronde haak
- zorgen dat er na elke punt, komma, dubbele punt, puntkomma een spatie staat
- ´ vervangen door ' (die schuine quotjes vreten ruimte en zijn lelijk)
- zorgen dat er voor en na elke (back)slash een spatie staat
4. Zoeken en vervangen...:
- Als de uppercase van de tekst is: "(LIVE)" of "[LIVE]", dan resultaat = "[Live]"
- Als de uppercase van de tekst is: "(MIX)" of "[MIX]", dan resultaat = "[Mix]"
- Als de uppercase van een woord is: "II" (Romeinse cijfers) dan resultaat is "II" (de freedb conversie maakt er nu nog Ii van)
- Als de uppercase van een woord is: "III" (Romeinse cijfers) dan resultaat is "III" (de freedb conversie maakt er nu nog Iii van)
- Als de uppercase van een woord is: "IV" (Romeinse cijfers) dan resultaat is "IV" (de freedb conversie maakt er nu nog Iv van)
- letter die direct volgt na een punt in hoofdletter (want is een onderdeel van afkorting)
- 'N', 'N, N' = kleine letter ("Guns n' Roses")
- Als zin met 1 of meer punten begint ("..."), eerst volgende woord in hoofdletter
- na elk haakje openen "(" & "[" een hoofdletter.
5. Eerste/laatste woord:
- Eerste letter van het eerste woord van de zin altijd met hoofdletter.
- Eerste letter van het laatste woord van de zin altijd met hoofdletter. (zoals ook bijv. allmusic dat doet, ongeacht lidwoord/voorzetsel op het eind)
- Eindresultaat trimmen (= spaties aan begin + eind weghalen)
6. 'Te onthouden' uitzonderingen:
- van titels die compleet in uppercase horen te blijven
- van titels die compleet in lowercase horen te blijven
1. Alle woorden standaard met hoofdletter.
2. Woorden (lidwoorden, voorzetsels) die vervolgens naar een kleine letter omgezet moeten worden:
- Engels: a, an, and, as, at, in, on, of, to, by, for, into, upon, from, .... (aanvullen)
- Nederlands: de, het, een, in, bij, op, over, door, ..... (aanvullen)
- Frans: un, une, de, le, la, a, ...... (aanvullen)
- Duits: der, die, das, ein, eine, einer, aus, bei, mit, nach, seit, von, zu, ... (ken je rijtjes
- aanvullen)- Spaans/Portugees:
- Andere talen: erg relevant?
- Tricky: woord dat in taal a een voorzetsel is, en in taal b niet.
3. Leestekens, spaties:
- spaties voor elke punt, komma, dubbele punt, puntkomma weghalen
- zorgen voor een spatie voor elke vierkante/ronde haak
- zorgen dat er na elke punt, komma, dubbele punt, puntkomma een spatie staat
- ´ vervangen door ' (die schuine quotjes vreten ruimte en zijn lelijk)
- zorgen dat er voor en na elke (back)slash een spatie staat
4. Zoeken en vervangen...:
- Als de uppercase van de tekst is: "(LIVE)" of "[LIVE]", dan resultaat = "[Live]"
- Als de uppercase van de tekst is: "(MIX)" of "[MIX]", dan resultaat = "[Mix]"
- Als de uppercase van een woord is: "II" (Romeinse cijfers) dan resultaat is "II" (de freedb conversie maakt er nu nog Ii van)
- Als de uppercase van een woord is: "III" (Romeinse cijfers) dan resultaat is "III" (de freedb conversie maakt er nu nog Iii van)
- Als de uppercase van een woord is: "IV" (Romeinse cijfers) dan resultaat is "IV" (de freedb conversie maakt er nu nog Iv van)
- letter die direct volgt na een punt in hoofdletter (want is een onderdeel van afkorting)
- 'N', 'N, N' = kleine letter ("Guns n' Roses")
- Als zin met 1 of meer punten begint ("..."), eerst volgende woord in hoofdletter
- na elk haakje openen "(" & "[" een hoofdletter.
5. Eerste/laatste woord:
- Eerste letter van het eerste woord van de zin altijd met hoofdletter.
- Eerste letter van het laatste woord van de zin altijd met hoofdletter. (zoals ook bijv. allmusic dat doet, ongeacht lidwoord/voorzetsel op het eind)
- Eindresultaat trimmen (= spaties aan begin + eind weghalen)
6. 'Te onthouden' uitzonderingen:
- van titels die compleet in uppercase horen te blijven
- van titels die compleet in lowercase horen te blijven
0
geplaatst: 16 augustus 2005, 22:12 uur
Bedankt voor het aanzetje, lijkt me nuttig. Ik zal later ook even meedenken.
Ik zou al willen toevoegen
- Als de uppercase van de tekst is: "(*MIX)" of "[*MIX]", dan resultaat = "[*Mix]"
waarbij * = willekeurige tekst
Ik zou al willen toevoegen
- Als de uppercase van de tekst is: "(*MIX)" of "[*MIX]", dan resultaat = "[*Mix]"
waarbij * = willekeurige tekst
0
geplaatst: 16 augustus 2005, 22:19 uur
Bij 3. Leestekens, spaties moet je het 2e aandachtstreepje wat uitbreiden:
- zorgen dat er na elke punt, komma, dubbele punt, puntkomma een spatie staat mits het eerstvolgende karakter een letter is
Hiermee voorkom je:
... => . . .
7.5 => 7. 5
eindspatie
- zorgen dat er na elke punt, komma, dubbele punt, puntkomma een spatie staat mits het eerstvolgende karakter een letter is
Hiermee voorkom je:
... => . . .
7.5 => 7. 5
eindspatie
0
geplaatst: 16 augustus 2005, 22:19 uur
'DJ' laten staan in hoofdletters, en niet veranderen in 'Dj'.
0
geplaatst: 16 augustus 2005, 22:21 uur
Misschien zelfs deze (tenzij Jordy dat hierboven ook bedoelde): (*mix) vervangen door [*mix]. Er worden veel fouten gemaakt met de rechte haken.
0
geplaatst: 16 augustus 2005, 22:30 uur
Ook Tricky: hoe weet je in welke taal iets is

we ZOUDEN ook nog kunnen overwegen om gewoon alles maar met een hoofdletter te laten beginnen?
0
geplaatst: 16 augustus 2005, 22:34 uur
we ZOUDEN ook nog kunnen overwegen om gewoon alles maar met een hoofdletter te laten beginnen?
Vind ik ook mooi en is bovendien een stuk gemakkelijker. Waarom niet eigenlijk, niet mooi?
0
geplaatst: 16 augustus 2005, 22:43 uur
Bij albumtitels zou ik wel graag het huidige hoofdlettergebruik aanhouden (het zou raar zijn om op Moviemeter "Requiem for a Dream" te hebben, en hier de "Requiem For A Dream Soundtrack".
Maar voor tracks zou ik er vrede mee hebben, mede omdat het ons dan veel problemen scheelt. Hoeven we alleen leestekens, hoofdlettergebruik bij Romeinse cijfers, etc aan te passen
Maar als veel mensen dat zonde zouden vinden, zou een "zo goed mogelijk automatisch corrigeren"-oplossing ook de moeite waard zijn om over na te denken
Maar voor tracks zou ik er vrede mee hebben, mede omdat het ons dan veel problemen scheelt. Hoeven we alleen leestekens, hoofdlettergebruik bij Romeinse cijfers, etc aan te passen
Maar als veel mensen dat zonde zouden vinden, zou een "zo goed mogelijk automatisch corrigeren"-oplossing ook de moeite waard zijn om over na te denken
0
geplaatst: 16 augustus 2005, 22:47 uur
Hmm... ik ben ook wel voor consistentie, maar dan verkies ik toch consistentie binnen MusicMeter boven consistentie tussen MoMe en MuMe. Anders gezegd: ik zou het nogal vreemd vinden als in albumtitels de lidwoorden en voorzetsels met kleine letters zouden zijn, en in tracktitels met hoofdletters. Al zal het waarschijnlijk niemand opvallen verder. 

0
JonnieBrasco
geplaatst: 16 augustus 2005, 22:52 uur
Ik ben voorstander van zo ver mogelijk automatisch maken.
Bij alles in hoofdletters hou je ook veel uitzonderingen waarbij je moet blijven opletten en verbeteren, dus waarom niet helemaal van die last af zijn? Ik vind alles in hoofdletters niet mooier, als dat mooier en leesbaarder was geweest dan was het allang effectief geweest... Of zie je een hele zware programmeertechnische onweersbui hangen Jordy?
Bij alles in hoofdletters hou je ook veel uitzonderingen waarbij je moet blijven opletten en verbeteren, dus waarom niet helemaal van die last af zijn? Ik vind alles in hoofdletters niet mooier, als dat mooier en leesbaarder was geweest dan was het allang effectief geweest... Of zie je een hele zware programmeertechnische onweersbui hangen Jordy?
0
geplaatst: 16 augustus 2005, 22:55 uur
Ik vind hoofdletters bij lidwoorden e.d. in ieder geval niet mooi staan, maar dat ben ik.
Maar 1 en 2 werken nu al redelijk goed, die hoofdletters worden nu toch automatisch neergezet waar ze moeten en weggehaald waar ze niet moeten, alleen na haakjes en " e.d. nog niet, toch?
Ik vind het trouwens vervelender dat punten wegvallen en, nog vervelender, dat alles na een streepje (-) wegvalt. Moet het elke keer weer opnieuw invullen, maar dat wordt denk ik al verbeterd.
Maar 1 en 2 werken nu al redelijk goed, die hoofdletters worden nu toch automatisch neergezet waar ze moeten en weggehaald waar ze niet moeten, alleen na haakjes en " e.d. nog niet, toch?
Ik vind het trouwens vervelender dat punten wegvallen en, nog vervelender, dat alles na een streepje (-) wegvalt. Moet het elke keer weer opnieuw invullen, maar dat wordt denk ik al verbeterd.
0
JonnieBrasco
geplaatst: 16 augustus 2005, 23:02 uur
Koenr schreef:
Maar 1 en 2 werken nu al redelijk goed, die hoofdletters worden nu toch automatisch neergezet waar ze moeten en weggehaald waar ze niet moeten, alleen na haakjes en " e.d. nog niet, toch?
Maar 1 en 2 werken nu al redelijk goed, die hoofdletters worden nu toch automatisch neergezet waar ze moeten en weggehaald waar ze niet moeten, alleen na haakjes en " e.d. nog niet, toch?
Als je de crewleden als robots ziet, dan snap ik je bewoording 'automatisch' wel.

Koenr schreef:
Ik vind het trouwens vervelender dat punten wegvallen en, nog vervelender, dat alles na een streepje (-) wegvalt. Moet het elke keer weer opnieuw invullen, maar dat wordt denk ik al verbeterd.
Ik vind het trouwens vervelender dat punten wegvallen en, nog vervelender, dat alles na een streepje (-) wegvalt. Moet het elke keer weer opnieuw invullen, maar dat wordt denk ik al verbeterd.
Geen idee wat je hier bedoeld?
0
geplaatst: 16 augustus 2005, 23:08 uur
Nee hoor, ik denk dat het "bedenken" van de regels/uitzondering het meeste werk is.
0
geplaatst: 16 augustus 2005, 23:25 uur
JonnieBrasco schreef:
Als je de crewleden als robots ziet, dan snap ik je bewoording 'automatisch' wel.
(quote)
Als je de crewleden als robots ziet, dan snap ik je bewoording 'automatisch' wel.

Als ik een Freedb.org tracklist invoer, en ik druk op volgende pagina, dan maakt hij van OvEr tHE WATeR automatisch Over the Water.
JonnieBrasco schreef:
Geen idee wat je hier bedoeld?
(quote)
Geen idee wat je hier bedoeld?
Zelfde geval als boven.
Sgt. Baker wordt Sgt Baker
Special Song - For You wordt Special Song
Of begrijp ik nu iets helemaal niet en gaat het niet over het toevoegen van nieuwe albums ofzo.

0
geplaatst: 16 augustus 2005, 23:27 uur
Klopt, Koenr. K-Stars wordt bijvoorbeeld K na de conversie. Bij de meeste normale dingen gaat het wel goed, maar ik controleer altijd de tracktitels als ik een tracklist heb toegevoegd met freedb.org.
0
geplaatst: 16 augustus 2005, 23:30 uur
Yak schreef:
Klopt, Koenr. K-Stars wordt bijvoorbeeld K na de conversie. Bij de meeste normale dingen gaat het wel goed, maar ik controleer altijd de tracktitels als ik een tracklist heb toegevoegd met freedb.org.
Klopt, Koenr. K-Stars wordt bijvoorbeeld K na de conversie. Bij de meeste normale dingen gaat het wel goed, maar ik controleer altijd de tracktitels als ik een tracklist heb toegevoegd met freedb.org.
Ik controleer het zelf ook altijd, maar bij scores met 100 tracks is het nakijken en verbeteren nou niet het leukste om te doen.
0
geplaatst: 16 augustus 2005, 23:40 uur
Ik zal inderdaad ook het freedb-inleesscriptje zo veel mogelijk proberen te verbeteren.
0
geplaatst: 17 augustus 2005, 22:29 uur
Ik zal (aan de hand van de aanwijzingen in dit topic) een functie maken die een titel zo goed mogelijk corrigeert. Dan maak ik even een paginaatje waar je per keer 200 willekeurige titels kunt zien die door die functie gehaald zijn. Op die manier kunnen we gelijk checken hoe goed de functie functioneert, en welke regels we misschien vergeten zijn.
0
geplaatst: 18 augustus 2005, 21:33 uur
0
JonnieBrasco
geplaatst: 18 augustus 2005, 21:57 uur
Het lijkt nog niet echt lekker te werken, maar we gaan vast itereren. 
* St Germain
de volgende woorden misschien een punt erachter:
st, ft, dr, mr ... (aanvullen)
* Petra (Alle Mädchen Wollen Immer Nur Das Eine)
moet zijn: Petra (Alle Mädchen Wollen Immer Nur das Eine) (Wie weet alle Duitse lidwoorden/voorzetsels?)
* Rain down on me
Het laatste woord moet altijd met een hoofdletter beginnen, ook als het een lidwoord/voorzetsel is. Down overigens hier ook.
* Piece By Piece
By met een kleine letter (voorzetsel)
* Song To The Stars
"To The" moet met kleine letters: "to the"
* Freeze (Part Iv of 'fear')
Iv moet IV zijn...
* Turn! Turn! Turn! (to Everything There Is a Season)
Na elk haakje openen, de volgende letter in Uppercase
* The Shapes Between Us Turn Into Animals
Into is een voorzetsel, dus "into"
* Drink to moving on
Moet zijn: Drink to Moving On"

* St Germain
de volgende woorden misschien een punt erachter:
st, ft, dr, mr ... (aanvullen)
* Petra (Alle Mädchen Wollen Immer Nur Das Eine)
moet zijn: Petra (Alle Mädchen Wollen Immer Nur das Eine) (Wie weet alle Duitse lidwoorden/voorzetsels?)
* Rain down on me
Het laatste woord moet altijd met een hoofdletter beginnen, ook als het een lidwoord/voorzetsel is. Down overigens hier ook.
* Piece By Piece
By met een kleine letter (voorzetsel)
* Song To The Stars
"To The" moet met kleine letters: "to the"
* Freeze (Part Iv of 'fear')
Iv moet IV zijn...
* Turn! Turn! Turn! (to Everything There Is a Season)
Na elk haakje openen, de volgende letter in Uppercase
* The Shapes Between Us Turn Into Animals
Into is een voorzetsel, dus "into"
* Drink to moving on
Moet zijn: Drink to Moving On"
0
geplaatst: 18 augustus 2005, 22:37 uur
Er klopte idd nog wat dingetjes niet. Nu beter als het goed is, benieuwd naar de overige uitzonderingen 

0
geplaatst: 18 augustus 2005, 23:54 uur
Volgens mij staat er nog geen "the" bij de voorzetsels/lidwoorden.
0
geplaatst: 19 augustus 2005, 00:56 uur
Ik kwam gisteren LA Rendezvous tegen wat bij het toevoegen omgezet werd naar La Rendezvous wat dus niet de bedoeling was.
Iets soortgelijks kan dan ook nog voor NY gelden.
.. maar met LA ga je nat op het moment dat je Franse lidwoorden gaat toevoegen dus dat is wat je noemt een dilemma.
Ha en dan heb je natuurlijk ook nog The La's, volgens mij kan dit afhankelijk van de context dus op 3 verschillende manieren 'correct' worden neergezet. Ben benieuwd hoe je dit gaat oplossen.
Iets soortgelijks kan dan ook nog voor NY gelden.
.. maar met LA ga je nat op het moment dat je Franse lidwoorden gaat toevoegen dus dat is wat je noemt een dilemma.
Ha en dan heb je natuurlijk ook nog The La's, volgens mij kan dit afhankelijk van de context dus op 3 verschillende manieren 'correct' worden neergezet. Ben benieuwd hoe je dit gaat oplossen.
0
geplaatst: 19 augustus 2005, 08:29 uur
Niet, het kán gewoon niet 100% opgelost worden helaas. Daarom vind ik dat we deze functionaliteit ook niet moeten gebruiken onder het mom van "het maakt niet uit hoe het in de database komt, we tonen de titels gewoon gecorrigeerd". Wel kan dit script gebruikt worden om één keer bij het omzetten van alle data te runnen (straks). Fouten in de conversie kunnen dan in de loop der tijd gecorrigeerd worden.
En bij het toevoegen: bij het omzetten van freedb-lijsten, en dat er bij elke toevoeging wordt gevraagd "weet je zeker dat je deze titel niet als volgt schrijft: ......"
0
JonnieBrasco
geplaatst: 19 augustus 2005, 08:59 uur
Er klopt nu weinig van de hoofdletters bij lidwoorden/voorzetsels.
* I Put a Spell On You
On moet met een kleine letter
* Mary Anne With The Shaky Hand
The met een kleine letter
* I'm the Man
"I'm the Man" stond goed, maar heeft 'íe ten onrechte gecorrigeerd in "I'm The Man"
* Let The Day Begin
idem
* Dirty Business Amongst The Dirty Laundry
idem
* I Found A Love
lidwoord met een kleine letter
Meer voorbeelden zal ik niet noemen, beetje zinloos
Maar er staan zo nog ca. 25 hoofdletterfouten in.
Bij deze set van 200 verder geen uitzonderingen volgens mij.
* I Put a Spell On You
On moet met een kleine letter
* Mary Anne With The Shaky Hand
The met een kleine letter
* I'm the Man
"I'm the Man" stond goed, maar heeft 'íe ten onrechte gecorrigeerd in "I'm The Man"
* Let The Day Begin
idem
* Dirty Business Amongst The Dirty Laundry
idem
* I Found A Love
lidwoord met een kleine letter
Meer voorbeelden zal ik niet noemen, beetje zinloos
Maar er staan zo nog ca. 25 hoofdletterfouten in.Bij deze set van 200 verder geen uitzonderingen volgens mij.
0
geplaatst: 19 augustus 2005, 12:56 uur
Je krijgt elke keer dat je reload 200 andere tracks, hè? Ik zal vanavond of morgen even verder fixen, bedankt
0
JonnieBrasco
geplaatst: 19 augustus 2005, 15:24 uur
Aah, dat had ik niet begrepen, ik dacht dat iedereen naar het zelfde setje keek, elke dag een nieuwe... 
Betekent dat ik dus op uitzonderingen-jacht ga!

Betekent dat ik dus op uitzonderingen-jacht ga!

0
JonnieBrasco
geplaatst: 19 augustus 2005, 18:23 uur
- meer voorzetels/lidwoorden: dem, du, el, from, into, la, le, les, los, of, on, the, van, vom, with
- meer bracketwoorden: reprise, studio, session, alternate (of alt*), hidden, unplugged
- sommige voorzetels (zoals of, on en to, maar zoals het lijkt willekeurig) noem je wel in het lijstje, maar staan er (niet altijd!) toch met grote letter (?). (Zijn het soms de albumtitels waarvoor je het vergeten bent?)
- titels die eindigen op een sterretje * -> sterretje weghalen, en markeren als bonustrack?
- het volgende is gecorrigeerd nog hetzelfde: "Gulliver/hay Chewed/reprise" --> Zou "Gulliver/Hay Chewed/Reprise" moeten worden.
- niet alleen eerste woord alleen met hoofdletter, ook het laatste woord ("The Heat Is on" moet bijv. zijn "The Heat Is On"), dit zou niet overruled mogen worden door de voorzetsel-regel.
- [remix] en (remix) -> [Remix], [live] en (live) -> [Live] etc. (dus ook op case letten)
-
Voor '(' en '[' en '/' kan dit wel altijd blijven gelden toch...
- meer bracketwoorden: reprise, studio, session, alternate (of alt*), hidden, unplugged
- sommige voorzetels (zoals of, on en to, maar zoals het lijkt willekeurig) noem je wel in het lijstje, maar staan er (niet altijd!) toch met grote letter (?). (Zijn het soms de albumtitels waarvoor je het vergeten bent?)
- titels die eindigen op een sterretje * -> sterretje weghalen, en markeren als bonustrack?
- het volgende is gecorrigeerd nog hetzelfde: "Gulliver/hay Chewed/reprise" --> Zou "Gulliver/Hay Chewed/Reprise" moeten worden.
- niet alleen eerste woord alleen met hoofdletter, ook het laatste woord ("The Heat Is on" moet bijv. zijn "The Heat Is On"), dit zou niet overruled mogen worden door de voorzetsel-regel.
- [remix] en (remix) -> [Remix], [live] en (live) -> [Live] etc. (dus ook op case letten)
-
Tussen een leesteken en een letter staat altijd een spatie, behalve bij '(' en '[' REGEL VERWIJDERD A.I.R. en L-O-V-E moet gewoon zo blijven.
Voor '(' en '[' en '/' kan dit wel altijd blijven gelden toch...
0
geplaatst: 19 augustus 2005, 21:13 uur
bij "la" ga ik uit van het Franse woord, klein dus. Ik denk dat dat vaker voorkomt dan LA, wat nl. ook nog eens vaak als L.A. in titels staat.
Verder alles meegenomen, behalve deze dingen, daar ga ik later even mee verder:
- het volgende is gecorrigeerd nog hetzelfde: "Gulliver/hay Chewed/reprise" --> Zou "Gulliver/Hay Chewed/Reprise" moeten worden.
Verder alles meegenomen, behalve deze dingen, daar ga ik later even mee verder:
- het volgende is gecorrigeerd nog hetzelfde: "Gulliver/hay Chewed/reprise" --> Zou "Gulliver/Hay Chewed/Reprise" moeten worden.
* denotes required fields.
