Wiktionarydiskussion:Projekt/Svåra ord

Senaste kommentaren: för 10 år sedan av Dodde

Har något regexp skapats för att läsa in dessa sidor sedan? Får man fråga hur det isåfall ser ut? ~ Dodde (diskussion) 16 juli 2013 kl. 22.14 (CEST)Svara

Måste det göras med regexp? Det går annars till exempel bra att splitta vid || för att få datan i en array som man sedan kan göra om till vilket format man vill. Exempel i Python:

import re, codecs
f = codecs.open('a.dat', 'r', 'utf-8')
for line in f:
arr = line[1:].split('||')
if len(arr) > 1:
arr = [ x.strip() for x in arr ]
lang = arr[0]
headword = arr[1][2:-2]
template = re.sub("<.*?>", "", arr[3])
print template, headword, template

Fiskjuice (diskussion) 16 juli 2013 kl. 22.57 (CEST)Svara

Nej, det var bara ett antagande. Anledningen till att jag frågade var för om det fanns anledning att vara uppmärksam på särskilda formateringsfel, t ex hur koden parsar ett extra mellanslag, vad koden gör med ett felaktig språkkod, ett glömt <code><nowiki></nowiki>, eventuella citationstecken och annat. Jag har tyvärr ingen erfarenhet av Python men hade även kunnat se och åtgärda eventuella brister angivet i regexp om det var vad som användes. Tecknet ¶ måste exempelvis bytas ut mot <ny rad>. Någonstans behöver det avgöras om vissa rader (synonymer, besläktade ord osv) ö.h.t. ska finnas med, översättningsavsnitt ska väl alltid finnas med osv. Om du har färdig kod för inkluderandet av informationen på sidorna så får jag helt enkelt hålla tummarna för att det går bra, eftersom jag inte kan avläsa riktigt från koden ovan hur det är tänkt att genomföras. :) ~ Dodde (diskussion) 16 juli 2013 kl. 23.35 (CEST)Svara
Tillbaka till projektsidan "Projekt/Svåra ord".