• Sunday May 19,2019

Cărțile Google ajută la dezvăluirea modului în care vor veni și vor merge

Anonim

Cine credea că o hârtie despre istoria cuvintelor ar putea avea atât de multe grafice? Introduceți "culturomics", un domeniu în curs de dezvoltare, care creează date de criză în tururile profesorilor umaniști. Înarmat cu corpusul scanat al cărților Google, cercetătorii au publicat în 2011 prima lucrare despre culturomics, care a examinat popularitatea în schimbare a cuvintelor în timp. Lucrarea a sugerat tot felul de posibilități: urmărirea evoluției verbelor neregulate, cartografierea unei apariții a unui politician la faimă, identificarea cenzurii atunci când un nume scade brusc popularitatea etc.

Un grup de fizicieni au preluat culturomics cu un nou studiu care modelează nașterea și moartea cuvintelor în trei limbi: spaniolă, ebraică și engleză. În același timp, ei critică matematica serioasă, ei au, de asemenea, un ochi pe istorie. Iată câteva dintre ele:

Cuvintele lor de luptă

Războiul are un efect dramatic asupra nașterii și morții cuvintelor. Figura de mai sus descrie variabilitatea cuvintelor cât de repede se schimbă popularitatea: o variabilitate ridicată pe o perioadă scurtă de timp este probabil datorată unui aflux de cuvinte noi. Comparând corpusele de limbă engleză și spaniolă în timpul celui de-al doilea război mondial, cercetătorii au descoperit că englezii scutură în timp ce spaniolul rămâne relativ stabil. Modelul reflectă importanța relativă a războiului în limbile engleză și spaniolă din lume. Analizele englezei din secolele al XIX-lea și al XX-lea au evidențiat și o variabilitate ridicată în timpul Războiului Civil, al Primului Război Mondial și al Războiului din Vietnam.

Alte evenimente istorice pot fi observate și în istoricul istoric. În Ebraică, de exemplu, a existat o creștere de cinci ori a nașterilor cuvintele în jurul anului 1917, când Declarația de la Balfour a pus bazele pentru Israelul modern și a reînviat ebraica ca limbă vorbită.

Sinonim v. Sinonim
Cercetătorii au analizat, de asemenea, modul în care sinonimele se luptă în imprimare. "Xray" câștigă în cele din urmă peste "radiogramă" și "roentgenogram" în acest grafic, care este o figură din lucrarea pe care am creat-o în vizualizatorul de programe Google, pentru a-și arăta popularitatea în schimbare în timp. Schimbarea pare să se întâmple în jurul anului 1980.

Actualizare: Vedeți comentariile pentru o analiză mai completă a acestei tendințe folosind vizualizatorul de programe Google.


Punct critic

30 - 50 de ani după ce au fost introduse, cuvintele sunt sortate în cele care merg și cele care stau. Variabilitatea în creșterea popularității cuvântului, prezentată în acest grafic, atinge vârfuri în acea perioadă de 30 până la 50 de ani, în care cuvintele fie mor într-o moarte lentă, fie devin din ce în ce mai populare. Datele de acest fel din culturomics pot oferi furaje pentru sociologi sau lingviști, care ar putea interesa de ce se întâmplă un punct de basculare universal la trei până la cinci decenii: Este pentru că asta e lungimea unei generații? Sau ciclul de viață al evenimentelor și al tehnologiilor? (Cât timp vor fi cuvinte ale "VCR" sau "Walkman" în limba noastră?)

În general, lucrarea concluzionează că rata natalității cuvintelor este în creștere, iar rata mortalității scade, limbile devenind saturate cu toate cuvintele necesare. Lingvistul Mark Liberman la blogul Log Language, cu toate acestea, aruncă un ochi intrigat, dar prudent pe concluzia pe care o are despre evoluția pe termen lung a cuvintelor:

Unul dintre aspectele critice este însă faptul că această lucrare nu se referă la cuvinte - este vorba despre caractere de literă învecinate în ieșirea cititorului de caractere optice pentru cărți tipărite scanate. Diferite forme inflexionate ale unui cuvânt sunt "cuvinte" diferite; cuvintele diferite ale cuvintelor sunt "cuvinte" diferite; fragmente de cuvinte împărțite tipografic peste linii sunt "cuvinte" diferite; greșelile sunt "cuvinte" diferite; Erori OCR sunt cuvinte diferite ".

Critica lui Liberman merită o citire (mai ales dacă vă place istoria matematică și a limbii!), Dar are un impact mai mic asupra constatărilor care depind de date mai recente de cuvinte. Așa cum detaliază în restul postului său, multe probleme apar din ortografia neregulată și folosirea termenelor lungi, care ar putea avea date înclinate de la începutul secolului al XIX-lea. Dar tehnologia de scanare și de scanare OCR va fi cu siguranță mai bună și va elimina aceste probleme pe măsură ce culturalele se mișcă înainte.

Toate aceste date stau în biblioteci de sute de ani, însă tehnologia a lăsat doar oamenii de știință să înceapă să exploreze această bază de date care poate fi căutată. Heck, de ce nu te duci sa te explorezi pe vizualizatorul de ngram al Google. Că datele sunt disponibile oricărei persoane curioase fac parte din ceea ce o face minunată.

[prin WSJ]

Imaginile sunt oferite de Petersen et al, Scientific Reports


Articole Interesante

Cum am putea găsi Pământul oricum?

Cum am putea găsi Pământul oricum?

Lee Billings are un eseu interesant în SEED în această lună despre cum extraterestrii ar localiza Pământul din altă parte a universului. "Pe măsură ce sonda se apropia, lacunele din norii de mai jos continentele dezvăluite s-au împrăștiat în mijlocul unui ocean înconjurat de lume. Într-un vast

Atom Smashers

Atom Smashers

Într-o vreme în urmă, Sean a scris despre filmul documentar "The Atom Smashers" de Clayton Brown și Monica Ross, doi regizori din zona Chicago. Filmul este în editare finală acum și, de fapt, va avea loc la Muzeul de Știință și Industrie din Chicago luna viitoare, 19 septembrie! Soția mea Robin și cu mine, care apar în film, și prietenii și colegii noștri buni, Ben Kilminster și Marcela Carena, vor fi într-o discuție de grup după film. Vestea fantastica e

Flashback Vineri: Motivul real al nasului Rudolph a fost roșu.

Flashback Vineri: Motivul real al nasului Rudolph a fost roșu.

(Ea este Red Hot Science Week aici la Seriously, Science? Toata saptamana vom fi featuring stiinta care se concentreaza pe culoarea rosie.) Dacă vă întrebați dacă oamenii de știință au un simț al umorului, nu mai căutați. Acest ecolog norvegian a decis să-l diagnosticheze pe Rudolph cu renul născut roșu, concluzionând că renumitul ren a suferit de o infecție parazitară a sistemului respirator (LOL!) Poate că de ace

Dovezile ADN-ului dovedesc că Prințul și Prințesa Romanov se odihnesc în pace

Dovezile ADN-ului dovedesc că Prințul și Prințesa Romanov se odihnesc în pace

Rezultatele ADN-ului au determinat în mod definitiv să se odihnească una dintre legendele provocate de revoluția rusă, dovedind o dată pentru totdeauna că întreaga familie Romanov - țarul Nicolae al II-lea, Tsarina Alexandra și toți cei cinci copii ai lor - au fost uciși de membrii Gărzii Roșii în anul 1918. Analiza genet

Trofeul marchează o nouă eră pentru știința cetățenilor în sala de clasă

Trofeul marchează o nouă eră pentru știința cetățenilor în sala de clasă

Prin Egle Marija Ramanauskaite, Coordonator al Științei Cetățenești la EyesOnALZ 21 decembrie 2017 ar putea să intre în cărțile de istorie ca prima zi când un trofeu științific a fost acordat vreodată unei școli. Trofeul, acordat 250 de studenți pentru a contribui la cercetarea Alzheimer, este acum prezentat cu mândrie lângă trofeele sportive și premii speciale de realizare la o școală de mijloc din Boise, ID. Dar povestea începe

Sărbătoriți Ziua mondială a oceanelor cu știința cetățenilor

Sărbătoriți Ziua mondială a oceanelor cu știința cetățenilor

Pe 8 iunie, oamenii din întreaga lume vor sărbători Ziua mondială a oceanelor, o zi rezervată pentru onorarea și protejarea oceanelor noastre. Pentru a vă ajuta să participați la Ziua mondială a oceanelor, am făcut o listă cu 7 proiecte de știință cetățenească bazate pe ocean care au nevoie de ajutorul dvs. Suntem parteneri