• Sunday July 21,2019

Cărțile Google ajută la dezvăluirea modului în care vor veni și vor merge

Anonim

Cine credea că o hârtie despre istoria cuvintelor ar putea avea atât de multe grafice? Introduceți "culturomics", un domeniu în curs de dezvoltare, care creează date de criză în tururile profesorilor umaniști. Înarmat cu corpusul scanat al cărților Google, cercetătorii au publicat în 2011 prima lucrare despre culturomics, care a examinat popularitatea în schimbare a cuvintelor în timp. Lucrarea a sugerat tot felul de posibilități: urmărirea evoluției verbelor neregulate, cartografierea unei apariții a unui politician la faimă, identificarea cenzurii atunci când un nume scade brusc popularitatea etc.

Un grup de fizicieni au preluat culturomics cu un nou studiu care modelează nașterea și moartea cuvintelor în trei limbi: spaniolă, ebraică și engleză. În același timp, ei critică matematica serioasă, ei au, de asemenea, un ochi pe istorie. Iată câteva dintre ele:

Cuvintele lor de luptă

Războiul are un efect dramatic asupra nașterii și morții cuvintelor. Figura de mai sus descrie variabilitatea cuvintelor cât de repede se schimbă popularitatea: o variabilitate ridicată pe o perioadă scurtă de timp este probabil datorată unui aflux de cuvinte noi. Comparând corpusele de limbă engleză și spaniolă în timpul celui de-al doilea război mondial, cercetătorii au descoperit că englezii scutură în timp ce spaniolul rămâne relativ stabil. Modelul reflectă importanța relativă a războiului în limbile engleză și spaniolă din lume. Analizele englezei din secolele al XIX-lea și al XX-lea au evidențiat și o variabilitate ridicată în timpul Războiului Civil, al Primului Război Mondial și al Războiului din Vietnam.

Alte evenimente istorice pot fi observate și în istoricul istoric. În Ebraică, de exemplu, a existat o creștere de cinci ori a nașterilor cuvintele în jurul anului 1917, când Declarația de la Balfour a pus bazele pentru Israelul modern și a reînviat ebraica ca limbă vorbită.

Sinonim v. Sinonim
Cercetătorii au analizat, de asemenea, modul în care sinonimele se luptă în imprimare. "Xray" câștigă în cele din urmă peste "radiogramă" și "roentgenogram" în acest grafic, care este o figură din lucrarea pe care am creat-o în vizualizatorul de programe Google, pentru a-și arăta popularitatea în schimbare în timp. Schimbarea pare să se întâmple în jurul anului 1980.

Actualizare: Vedeți comentariile pentru o analiză mai completă a acestei tendințe folosind vizualizatorul de programe Google.


Punct critic

30 - 50 de ani după ce au fost introduse, cuvintele sunt sortate în cele care merg și cele care stau. Variabilitatea în creșterea popularității cuvântului, prezentată în acest grafic, atinge vârfuri în acea perioadă de 30 până la 50 de ani, în care cuvintele fie mor într-o moarte lentă, fie devin din ce în ce mai populare. Datele de acest fel din culturomics pot oferi furaje pentru sociologi sau lingviști, care ar putea interesa de ce se întâmplă un punct de basculare universal la trei până la cinci decenii: Este pentru că asta e lungimea unei generații? Sau ciclul de viață al evenimentelor și al tehnologiilor? (Cât timp vor fi cuvinte ale "VCR" sau "Walkman" în limba noastră?)

În general, lucrarea concluzionează că rata natalității cuvintelor este în creștere, iar rata mortalității scade, limbile devenind saturate cu toate cuvintele necesare. Lingvistul Mark Liberman la blogul Log Language, cu toate acestea, aruncă un ochi intrigat, dar prudent pe concluzia pe care o are despre evoluția pe termen lung a cuvintelor:

Unul dintre aspectele critice este însă faptul că această lucrare nu se referă la cuvinte - este vorba despre caractere de literă învecinate în ieșirea cititorului de caractere optice pentru cărți tipărite scanate. Diferite forme inflexionate ale unui cuvânt sunt "cuvinte" diferite; cuvintele diferite ale cuvintelor sunt "cuvinte" diferite; fragmente de cuvinte împărțite tipografic peste linii sunt "cuvinte" diferite; greșelile sunt "cuvinte" diferite; Erori OCR sunt cuvinte diferite ".

Critica lui Liberman merită o citire (mai ales dacă vă place istoria matematică și a limbii!), Dar are un impact mai mic asupra constatărilor care depind de date mai recente de cuvinte. Așa cum detaliază în restul postului său, multe probleme apar din ortografia neregulată și folosirea termenelor lungi, care ar putea avea date înclinate de la începutul secolului al XIX-lea. Dar tehnologia de scanare și de scanare OCR va fi cu siguranță mai bună și va elimina aceste probleme pe măsură ce culturalele se mișcă înainte.

Toate aceste date stau în biblioteci de sute de ani, însă tehnologia a lăsat doar oamenii de știință să înceapă să exploreze această bază de date care poate fi căutată. Heck, de ce nu te duci sa te explorezi pe vizualizatorul de ngram al Google. Că datele sunt disponibile oricărei persoane curioase fac parte din ceea ce o face minunată.

[prin WSJ]

Imaginile sunt oferite de Petersen et al, Scientific Reports


Articole Interesante

Cyborg Bugs!  Cercetătorul controlează gandacii cu antenă radio

Cyborg Bugs! Cercetătorul controlează gandacii cu antenă radio

Ideea organismelor cibernetice, cunoscută sub numele de cyborgs, devine din ce în ce mai puțin ficțiune științifică și mai multă realitate. Cercetarea de la Cyborg a ajutat la "mersul paralizat, vorbirea mutei și revenirea la viață". Dar cyborgs nu trebuie întotdeauna să fie umani. Universitate

În timp ce unele părți ale SUA sunt umede și înghețate, sud-vestul este uscat și încă așteaptă să ajungă iarna

În timp ce unele părți ale SUA sunt umede și înghețate, sud-vestul este uscat și încă așteaptă să ajungă iarna

O arie largă în jurul regiunii Four Corners din sud-vestul SUA este acum în secetă severă - iar perspectivele de trei luni sunt sumbre În timp ce străzile din centrul orașului Boston au fost inundate și apoi înghețate ca urmare a ciclonei puternice de bombe care a împușcat Costul de Est al SUA, oamenii din SUA de Sud-Vest au fost fără îndoială întrebați când ar putea primi chiar și un mic gust de iarnă. Din 1 octombrie până

Purtătorii de păsări britanici au împărțit coșurile negre în două grupuri distincte genetic

Purtătorii de păsări britanici au împărțit coșurile negre în două grupuri distincte genetic

În pădurile din Germania trăiesc un număr mare de coșuri negre, o mică specie de păsări de cântătoare. Toate arată foarte asemănătoare, dar aparțin de fapt unor două grupuri distincte din punct de vedere genetic care devin din ce în ce mai disparate în timp. Pentru moment, cel mai bun mod de a le spune în afară este să aștepți iarnă. Pe măsură ce se răceș

O viață reală R2-D2 se îndreaptă spre spațiu

O viață reală R2-D2 se îndreaptă spre spațiu

Dacă ați fost fantezii despre o realitate Hal sau R2-D2, atunci visele tale sunt pe cale să se întâmple. Sau cel puțin, parțial. Centrul German de Aerospace a cerut producătorilor de aeronave Airbus și designerilor de inteligență artificială la IBM să creeze CIMON (Crew Interactive Mobile Companion), primul asistent de astronaut pe baza AI. CIMON, care

Explorarea lunilor pierdute ale sistemului nostru solar

Explorarea lunilor pierdute ale sistemului nostru solar

Marți, Jupiter a câștigat oficial 10-12 luni. Dar asta nu se face pentru zecile de luni pe care sistemul solar le-a pierdut în timp. Spre deosebire de recolta recentă, lungii lungi pierduți aveau o dimensiune destul de substanțială. Aceasta include chiar și câteva luni dispărute pentru Jupiter. Regele pl

Citirea ceasului corpului cu un calendar molecular, inspirat de flori

Citirea ceasului corpului cu un calendar molecular, inspirat de flori

Cât este ceasul? Acest lucru este ușor de verificat: uita-te doar la un ceas sau la un ceas. Ce oră este în interiorul corpului tău ? Asta eo intrebare mai grea. Organismul își păstrează timpul. Are un ceas "circadian" de 24 de ore care conduce creșterea și căderea multor molecule. Totul, de